Büyük modeller veri öğelerinin değerini derinlemesine inceliyor: Algoritmalar ve bilgi işlem gücünden sonra depolama taşıyıcılarının değeri daha da öne çıkıyor

2023-09-27 08:03:34

Makale| Akıllı Görelilik** (aixdlun)**

Yazar | Ye Yuanfeng

Piyasanın 2030'da yapay zeka odaklı akıllı ekonominin yaratmasını beklediği toplam değer 18,8 trilyon ABD dolarıdır. Bunların arasında, büyük modellerin yapay zeka yeteneklerinde meydana getirdiği niteliksel değişim şüphesiz önemli bir itici güç olacaktır.

Büyük modeller dalgası altında, sektörün yapay zeka gelişiminin üçlüsünün (bilgi işlem gücü, algoritmalar ve veriler) herhangi bir boyutuna olan ilgisi yeni bir seviyeye ulaştı. modeller.

Bu süreçte sektörün "veriye" olan ilgisi çoğunlukla "nicelik" + "nitelik" üzerinde yoğunlaşıyor. Daha fazla miktarda veri ve daha yüksek veri kalitesi, büyük modellerin daha iyi eğitim ve uygulama etkilerini teşvik edebilir. üzerinde fikir birliğine varıldı.

Ancak büyük model inovasyonu giderek daha karmaşık veriler gerektirdiğinden, yalnızca verinin “niceliği” + “niteliği”ne odaklanmak artık yeterli değil.Veri taşıyabilen ve büyük modellerin ihtiyaçlarını karşılayabilen depolamalar da ilgiyi hak ediyor. Büyük modeller alanında uygulayıcılar.

Yakın zamanda düzenlenen Huawei Bağlantı Konferansı 2023'te (HC 2023) Huawei, depolama çözümlerinin büyük model eğitimi ve uygulamasındaki sıkıntılı noktaları nasıl çözebileceğini ve büyük modellerin inovasyon sürecini nasıl destekleyebileceğini sistematik olarak tanıttı.

Huawei'nin eylemleri, veri boyutundan büyük model geliştirmenin özünü, "veri öğelerinin" büyük ölçekli gelişimini ve depolama inovasyonunun bu öz için nasıl güç sağladığını, büyük model uygulayıcılarının akıllı ekonomi çağından daha iyi yararlanmalarına yardımcı olduğunu panoramik olarak gösteriyor.

Büyük modellerin çağı, veri öğelerinin çağıdır ve taşıyıcı olarak depolamanın değeri kanıtlanmıştır.

Büyük modeller için bilgi işlem gücüne, algoritmalara ve verilere olan talebin hızla arttığına şüphe yok.

Pazar araştırması istatistiklerine göre, son beş yılda büyük modellerin parametreleri 2.000 kat, gerekli bilgi işlem gücü 50.000 kat, veri depolama talebi 100.000 kat arttı ve buna bağlı ağ bant genişliği gereksinimleri arttı. 8.000 kat arttı.

Büyük açılışlar, büyük kapanışlar ve büyük talepler, büyük tesis ve yatırım gerektirir.

Ancak inovasyon perspektifinden bakıldığında aslında hem algoritmaların hem de bilgi işlem gücünün zorluğu azalıyor veya yakınsıyor.

Birçok şirket için baş ağrısı olan bilgi işlem gücü açısından, gereken miktar büyük olmasına rağmen, bunların tümü NVIDIA, Ascend ve diğer GPU donanım kaynaklarından geliyor ve bu da esas olarak maliyet yatırımına bağlı. Başka bir deyişle yeterli bütçe olduğu sürece bilişim kaynakları temin edilebilir.

Algoritma tarafında, büyük üreticiler ayarlamalar yapmaya ve yinelemeye devam etseler de, genellikle Pytorch, TensorFlow ve MindSpore gibi ana akım geliştirme çerçevelerine dayalı olarak geliştirilen ve giderek yakınlaşan Transformer model altyapısını benimsiyorlar.

Şu anda verilere baskı geliyor.

Büyük modellerin derinlemesine geliştirilmesiyle birlikte, veri gereksinimlerinin toplam miktarı halihazırda TB seviyesinden PB seviyesine sıçradı ve gerekli "havuz" giderek büyüyor; aynı zamanda veri türlerine olan talep de aşırı derecede artıyor zengin ve tek bir metnin modeli Modalitelerin yanı sıra resim, video, ses gibi çok modlu verilerde patlama yaşanıyor ve veri gereksinimleri giderek daha karmaşık hale geliyor.Tüm bunlar depolamanın taşıma kapasitesini ve nasıl çalıştığını test ediyor Eğitim ve uygulama sırasında bilgi işlem gücü ve algoritmalarla daha iyi çalışabilmek.

Bu dönemde, depolamayla aşılmayı bekleyen pek çok sorun ortaya çıktı; bunlar arasında başlıca şunlar yer alıyor:

Küçük dosya okuma performansı. Büyük modellerin veri gereksinimleri çoğunlukla resim ve metin gibi büyük miktarlardaki küçük dosyalardan oluşur. Tek bir AI sunucusu saniyede 20.000'den fazla resim okuyabilir, bu da genellikle düşük veri yükleme verimliliğine yol açar (kişisel bir bilgisayardaki kopyalama işlemine benzer şekilde) , eşdeğeri Gerekli alanın altında, çok sayıda küçük dosya içeren bir klasör, tek bir büyük dosyadan çok daha yavaş olacaktır ve bu da büyük modellerin eğitim verimliliğini etkileyecektir. Şu anda, büyük küçük dosyaların performansı bir darboğaz haline geldi ve trilyonlarca parametreye sahip büyük bir model için temel gereksinim 10 milyon IOPS'ye ulaştı.

CheckPoint kesme noktası eğitime devam eder. Büyük model eğitim süreci sırasında, parametre ayarlama gibi çeşitli ihtiyaçlar nedeniyle CheckPoint, belirtilmeyen zaman noktalarında kesintiye uğrayacak ve ardından eğitime devam etmek için yeniden başlatılacaktır (zaman alır ve GPU kaynak kullanımında bir boşluk yaratır). Bu, uzun vadeli eğitim modelleri için oldukça kullanışlı bir özelliktir, ancak işletmelerin sık sık parametre ayarlaması yapması genellikle GPU kullanımının azalmasına neden olur (şu anda endüstri genellikle ortalama iki günde bir kesintiye uğrar ve GPU kullanımı yalnızca %40'tır). Yalnızca güçlü büyük dosya okuma ve yazma performansıyla GPU bekleme süresini azaltabilir ve pahalı kaynak kullanımının verimliliğini artırabilirsiniz.

“Yapay zeka halüsinasyonu” sorunu. Büyük modellerin çıktı sonuçlarının "rastgele üretilmiş" olması ve gerçeklerle açık bir şekilde çelişmesi olgusu sektörde oldukça sıkıntılı bir sorundur. Büyük modellerin bu kendini beğenmişlik olgusuna "Yapay Zeka yanılsaması" adı verilmektedir. Bu algoritmik bir sorun gibi görünüyor, ancak aslında endüstri, araştırma sırasında, çözümünün veri düzeyinde sürekli "doğrulama" gerektirdiğini (esas olarak bağlamsal bilgilere atıfta bulunarak) keşfetti; bu da esasen depolamanın bunu sağlayabilmesini gerektiriyor. benzer "Ansiklopedi Sözlüğü" bilgi sistemi, doğru endüstri bilgisi sağlamak için büyük modelin "hipokampüsü" görevi görür.

İnovasyon düzeyinde, büyük modellerin karşılaştığı depolama sorunlarının çözülmesinin, bilgi işlem gücü ve algoritmalardan daha öncelikli olabileceği görülebilir.

Bu nokta aslında büyük modellerin özlerine daha da geri dönmelerine olanak tanıyor; yani veri öğelerinin değerini daha fazla keşfetmek ve binlerce endüstrinin dönüşümünü ve iyileştirilmesini teşvik etmek için daha büyük parametrelere sahip yapay zeka modellerini kullanmak.

Günümüzde dijital ekonominin ve bilgi toplumunun temel kaynakları haline gelen veri unsurları, toprak, emek, sermaye ve teknolojiden sonra bir diğer önemli üretim faktörü olarak kabul ediliyor.Büyük modeller de dahil olmak üzere sayısız yenilik, veri unsurlarına dayanıyor. Değerin derin gelişimi.

Büyük modellerin geliştirme süreci, veri elemanlarının orijinalden değer çıktısına doğru ilerlemeye devam ettiği bir süreç olarak görülebilir.

Bu süreçte algoritmalar, yönü önden genel veya belirli sektörlere doğru yönlendirir. Artan bilgi işlem gücü, güçlü bir itici güç sağlarken, depolama, destek ve işbirliği yetenekleri sağlar. Bilgi işlem gücü temel olarak maliyet yatırımına dayandığında ve algoritmalar yavaş yavaş birbirine yakınlaştığında, veri öğelerinin taşıyıcısı olarak depolamanın yenilikçi değeri giderek daha belirgin hale gelir.

Veri öğelerinin değerinin meyvelerini vermesine izin verin, Huawei depolama alanı sorunlu noktalara birden çok boyutta saldırır

Depolama zorlukları nasıl çözülür? Huawei'nin yüksek performanslı bilgi tabanı depolaması OceanStor A800 ürünleri ve ilgili çözümleri, endüstri modeli eğitimi ve tanıtım senaryolarında kapsamlı bir şekilde önde gelen eğitim ve tanıtım verimliliğine sahiptir. Genel olarak konuşursak, dört ana özelliğe sahiptirler:

1. Büyük model eğitiminin ihtiyaçlarını karşılayan son derece yüksek genel performans

Huawei'nin depolama alanının birincil çözümü, genel performans açısından büyük modellerin eğitim verilerine yönelik büyük talebi, özellikle de küçük dosya okuma performansı talebini karşılamaktır.

OceanStor A800, yenilikçi bir CNC ayırma mimarisine dayanmaktadır. Tek bir çerçevede 24 milyon IOPS'ye ulaşabilir. Eğitim seti yükleme verimliliği sektöre göre dört kat daha fazladır ve performansı müşteri ihtiyaçlarına göre doğrusal olarak genişletilebilir. Buna ek olarak OceanFS dağıtılmış dosya sistemi, küresel dengeli dağılım sağlayarak CPU darboğazlarını ortadan kaldırır, çok büyük küçük dosyalar için üstün bir performans iyileştirme deneyimi sunar ve çok sayıda küçük dosyanın okuma ihtiyaçlarını karşılar.

Performans talebi olduğu sürece Huawei'nin depolama alanı "artırılmış" olsa bile "buna dayanabilir".

2. Kesme noktası devam eğitimi gibi özel ihtiyaçları karşılamak için özel yetenekleri optimize edin

Eğitimin kesme noktası devamı gibi özel koşullar altında desteğin nasıl daha iyi sağlanacağı, Huawei Storage'ın büyük model eğitim aşamasında eş zamanlı olarak ele alması gereken bir zorluktur.

Huawei depolama, disk kontrolü işbirliği ve NFS+ paralel dosya sistemi sayesinde tek bir çerçevede 500 GB/sn'lik ultra yüksek bant genişliğine ulaşır ve CheckPoint'in ultra hızlı kurtarılmasını sağlayabilir. Kesme noktası eğitiminin devam etme hızı, sektördekinin üç katıdır. -level CheckPoint okuma ve yazma işlemleri saatlerden dakikalara kadar uzanır (yani, trilyonlarca parametreye sahip büyük modellerin ortalama kurtarma süresi saatlerden dakikalara hızlandırılır), pahalı GPU bekleme süresini azaltır.

Büyük modellerin optimize edilmesi gerekli olduğu sürece müşteriler parametre ayarlama ve diğer işlemleri daha cesur bir şekilde gerçekleştirebilir.

Ayrıca yönetim ve kontrol düzleminde kaynak bölümleme + birleşik planlama yetenekleri bulunur ve bu da depolamayı farklı iş modellerine uygun hale getirebilir.

Müşteriler hangi iş modelini geliştirirse geliştirsin, müşteriler süreci ne zaman duraklatmayı seçerse seçsin, Huawei Storage bununla daha iyi başa çıkabilir.

3. Büyük model uygulamaların gerçek zamanlı ihtiyaçlarını karşılamak için geliştirilmiş yanıt yetenekleri

Eğitim aşaması tamamlandıktan sonra Huawei Storage'ın uygulama aşamasındaki katı veri yanıtı ihtiyaçlarını karşılaması gerekiyor.

Şu anda büyük model uygulama aşamasında, yerleşik vektör bilgi tabanı (endüstri bilgisini vektörler biçiminde saklayan) sayesinde Huawei'nin depolama QPS'si 250.000'in üzerine çıktı ve milisaniye düzeyinde yanıt elde etmeyi başardı. Bir yandan, akıl yürütmeyi hızlandırabilir, uygulama süreci sırasında GPU kaynak tüketiminin büyük ölçüde azaltılmasını sağlayarak uygulama maliyetlerinden etkili bir şekilde tasarruf sağlar - şu anda birçok büyük model, açık uygulama aşamasında büyük kaynaklar tüketiyor ve bazı şirketler bunalmış durumda; diğer yandan "Ansiklopedi sözlüğü" büyük modelleri daha doğru hale getirir Endüstri bilgisi, AI halüsinasyonlarının oluşumunu azaltmada önemli bir destekleyici rol oynar ve muhakeme doğruluğunu büyük ölçüde artırabilir.

4. Mimari yenilik, genel sistemin istikrarını ve güvenilirliğini sağlar

Depolamanın son ve en temel şartı, hangi özelliklere sahip olursa olsun, güvenlik sorunlarına yol açmadan veya "zincirden düşmeden" sağlam ve güvenilir bir genel yapı sağlamasıdır.

Huawei Storage'ın bir dizi büyük model veri sıkıntı noktası gereksinimlerini çözme süreci, depolama çözümlerinin ve sistemlerinin karmaşıklığını da bir dereceye kadar artırdı.Ancak aynı zamanda Huawei, sistemin güvenilirliğinden de ödün vermedi.Yenilikçi, tamamen birbirine bağlı AA mimarisi, 5 katmanlı çok yönlü koruma ve 6 dokuzlu ultra yüksek güvenilirliğe ulaşabilir.

Sonuç olarak, büyük modellerin veri güvenilirliği ve eğitim kararlılığı uçtan uca garanti edilir.

Tekerlekleri yapan, uzun yola ilk gidendir

Huawei'nin depolaması, büyük model verilerinin sıkıntılı noktalarını çözebilir. Bunun temel nedeni, depolamadaki uzun vadeli yenilikçi araştırmasında yatmaktadır.

OceanStor A800'ün CNC ayırma mimarisi, endüstrinin diske doğrudan veri okuma ve yazma konusundaki en ileri teknolojik yeniliğinden faydalanarak veri düzleminin doğrudan diske bağlanmasına ve doğrudan IO elde etmek için kontrol düzleminden ayrılmasına olanak tanır, böylece doğrudan IO elde edilir. Veri okuma ve yazma sırasında CPU işlemlerini azaltarak depolama performansını büyük ölçüde artırır.

Aslında Huawei, depolama konusunda uzun süredir teknolojik çalışmalar yapıyor ve buna benzer pek çok son teknoloji yeniliğe imza atıyor.

Şu anda, Huawei OceanStor depolamanın dünya çapında 12 Ar-Ge merkezi, 4.000'den fazla Ar-Ge personeli ve 3.000'den fazla patenti bulunmaktadır.Ürünleri, yüksek performanslı NAS depolama çözümleri, depolama fidye yazılımına karşı çözümler, konteyner depolama çözümleri gibi birçok alanda yer almaktadır. geniş beğeni toplayan veri merkezi sanallaştırması.

Huawei depolama, dünya çapında 150'den fazla ülkede operatörler, finans, hükümet, enerji, tıp, imalat, ulaşım ve diğer endüstriler dahil 25.000'den fazla müşteriye hizmet verdi.

Veri öğelerinin değer gelişimine ve büyük modellerin inovasyon ihtiyaçlarına göre uyarlanan depolama yeteneklerinin, Huawei'nin depolama alanındaki uzun vadeli sıkı çalışmasının kaçınılmaz sonucu olduğu söylenebilir - Huawei depolama, verileri karşılama konusunda zaten iyi bir iş çıkardı. Birçok alanın ihtiyacı olan (sadece büyük ölçekli modeller değil) Model, güçlü taşıma kapasitesi ve sinerjiye yönelik hazırlıklar sağlar.

View Original

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

1 Likes

Reward
1
Comment
Share

Comment

0/400

No comments

Topic
1/3
1Simple Earn Annual Rate 24.4%
40k Popularity
2Gate Launchpad List IKA
42k Popularity
3ETH Trading Volume Surges
44k Popularity
4Gate ETH 10th Anniversary Celebration
23k Popularity
5Trump’s AI Strategy
18k Popularity

sitemap