Büyük modellerin "maliyet zayıflama" hareketi

2023-11-03 02:38:15

Orijinal kaynak: Beyin kutup gövdesi

Görüntü kaynağı: Sınırsız AI tarafından oluşturuldu

Büyük veriler, büyük parametreler ve büyük bilgi işlem gücü ile, teknoloji çemberinde yaygın olarak yayılan büyük modellerin belirli yetenekleri "ortaya çıkacaktır".

Büyük bir model yapmanın ana fikri şudur: Modelin "işe yaramadığını" kolayca söylemeyin, eğer "henüz çalışmıyorsa", o zaman büyütün.

Bu nedenle, bir yıldan kısa bir sürede, büyük modelin parametre ölçeği 100 kat arttı ve şimdi trilyon seviyesini aştı, kaynak tüketimi çok büyük ve ayrıca daha yüksek ve daha yüksek depolama maliyetleri, çıkarım maliyetleri, işletme ve bakım maliyetleri ve iniş maliyetleri. ve sosyal maliyetler.

Şu anda, büyük model hala ticarileşmenin şafağında ve büyük modele yapılan yatırımın nasıl geri kazanılacağı konusunda hala birçok bilinmeyen ve belirsizlik var ve büyük model büyüyor ve Microsoft'un 2022'de yaklaşık 540 milyon dolar kaybedecek olan Open AI'sı tarafından desteklenen son derece para yakan bir iş haline geldi.

Sürekli artan maliyet, gerçek paranın faturası ve büyük model işletmelere ağırlık veren "saman" dır. Anthropic'in CEO'su Dario Amodei, geçtiğimiz günlerde modellerinin önümüzdeki iki yıl içinde 10 milyar dolara mal olacağını tahmin etti.

İşletmelerin kendilerine ek olarak, toplum da büyük modellerin gizli maliyetlerini üstleniyor. Google, eğitim PaLM'nin yaklaşık iki ayda yaklaşık 3,4 kWh elektrik tükettiğini ve bunun 300 hanenin toplam yıllık enerji tüketimine eşdeğer olduğunu bildirdi. Büyük modelin çevreye getirdiği yüksek enerji tüketiminin yükü ve maliyeti nihayetinde tüm toplum tarafından ödenmektedir.

Açıkçası, hem ticari hem de çevresel olarak, rekabet modelinin boyutu sürdürülemez.

Körü körüne büyüklük arama dönemi geçti.

Soru şu ki, büyük modelin "yükü nasıl azaltılır"?

Aslında, genel büyük modellerin baş üreticileri aktif olarak "maliyet zayıflama" kampanyasını yürütüyorlar.

Örneğin Microsoft, Microsoft Build 2020'de GPT-3'e güç veren yapay zeka süper bilgi işlem süper bilgisayarının yapay zeka modellerini diğer platformlardan 16 kat daha verimli hale getirebileceğini ve daha hızlı eğitimin zaman ve risk maliyetlerini azaltabileceğini duyurdu.

Yerli büyük modeller istisna değildir.

Sürüm 2.0 kadar erken bir tarihte, Pangu büyük modeli, eğitim maliyetini azaltmak için seyrek + yoğun bir mimari benimsemeye çalıştı. Piyasaya sürülmesinden bir ay sonra Wenxin Yiyan, büyük modelin çıkarım performansını teknik yollarla yaklaşık 10 kat artırdı ve çıkarım maliyeti orijinal maliyetin onda birine düşürüldü.

Şişkinlikten ve ağırlaşmadan kaçınmak için herkesin kullanabileceği bir araç ve büyük modellerin "maliyet zayıflama hareketi" olmak zorunludur. Nasıl? Bu makale bu konu hakkında konuşacak.

Bir ısırık şişman adam yapamaz

Büyük modellerin hangi maliyetleri optimize edilebilir, hangi maliyetler azaltılamaz ve hangi maliyetlere daha fazla yatırım yapılması gerekir? Bunu anlamadan önce, önce nasıl şişmanlayacağınızı bilmelisiniz. Büyük modelin performansını ve kullanıcı deneyimini (sağlığını) sağlamak için "maliyet azaltma" makul ve doğru bir şekilde gerçekleştirilebilir.

Basitçe söylemek gerekirse, yapay zekanın üç unsuru - veri, bilgi işlem gücü ve algoritmalar - büyük modellerin maliyetini belirlemede hala en kritik faktörlerdir.

Verilerle başlayalım. ** Çöp içeri, çöp dışarı, büyük modeller çağında hala uygulanabilir.

Verilerin kalitesi, büyük modelin yeteneklerini doğrudan belirler. OpenAI, çeşitli sektörlerdeki profesyonel verileri işlemek için bir dizi doktora öğrencisini işe aldı ve GPT-3'ü büyük ölçekli veri kümeleriyle beslemek için tek boynuzlu at şirketi Scale AI gibi bir dizi veri açıklama şirketini işe aldı. Aynı zamanda, algoritma modeli yinelemeli olarak yükseltilmeye devam edecek ve kullanımın artması ve performans optimizasyonu ile veri hacmine olan talep kısa bir süre devam edecektir.

Çince büyük modellerin yüksek maliyetinin ana nedenlerinden biri, Çince verilerin miktarı ve kalitesi ile İngilizce arasında hala bir boşluk olması ve Çince büyük modelleri eğitmek için daha fazla Çince veri toplanması ve işlenmesi gerektiğidir. Öte yandan, İngilizce gramer yapısı Çince'den daha basittir, Çince metinlerin karmaşıklığı ve çeşitliliği, bazı Çince kelimeler çeşitli anlamlar, zengin bağlam ve bağlam anlamada birçok belirsizlik ve zorluk ifade edebilir, bu da Çince modellerin eğitim zorluğunu artırır ve Çince büyük modellerin eğitimini desteklemek için ek kaynaklar gerektirir.

Bilgi işlem gücü hakkında konuşalım. **

Kaynakların büyük modellerin eğitimi, işlemi, hizmeti ve yinelemesi boyunca hesaplanması ve depolanması gerekir.

Büyük modellerin eğitimi "şiddetli estetiğe" odaklanır ve parametreler ne kadar büyükse, eğitim için o kadar fazla bilgi işlem kaynağı kullanılır. GPT-3, 10.000 GPU ve 285.000 işlemci çekirdeği içeren bir süper bilgisayar kullanır. Yerli Wenxin 4.0, kürek platformuna dayalı Vanka kümesinde de eğitilmiştir.

Ve hepsi bu değil. Büyük modeller dağıtımdan sonra hizmetlere sunulur ve kullanım arttıkça daha fazla çıkarım görevinin tamamlanması gerekir. 24 saat içinde "düşünme" ve "çıktı" akıl yürütme süreci de bilgi işlem kaynaklarını tüketmeye devam edecektir, tıpkı insan beyninin çok sayıda karmaşık görevle uğraşırken glikojen tüketmesi gerektiği gibi ve aç hissetmek kolaydır ve enerjiyi yenilemek için büyük bir yemek yemek zorunda kalır. Bu nedenle büyük modellerin çıkarım maliyeti de oldukça yüksektir.

GPT-3'ün 175B'nin konuşlandırılmasından sonra çıkarılması en az beş A100 GPU gerektiriyor ve Wenxin Yiyan gibi Çin'deki tüm topluma açık olan büyük modellerin önceki nesle göre 8-10 kat daha fazla çıkarım maliyetine sahip olduğu söyleniyor.

Son olarak algoritmadan bahsedelim. **

Büyük modellerin bilgi işlem kaynaklarına olan büyük bağımlılığını azaltmak için ana akım bir çözüm, modeli daha yüksek bir ROI girdi-çıktı oranına eşdeğer olan daha hızlı çıkarım hızı, daha küçük gecikme süresi ve daha düşük kaynak gereksinimleriyle değişmeyen performans temelinde optimize etmektir ve eğitim ve çıkarım için gereken bilgi işlem kaynaklarının birim maliyeti daha düşüktür.

Zeka olduğu kadar emek de var ve gerçekten yetenekler olmadan oynanabilecek büyük bir model yapmak imkansız. Algoritma geliştirme, test etme, yineleme, ürünleştirme vb. hepsi çok sayıda teknik yetenek gerektirir. İşçilik maliyetinin yüksek olup olmaması, büyük modelin iş modelinin sağlam olup olmamasına bağlıdır.

Tam akademik niteliklere sahip yetenek ekibi, araştırma ve geliştirme aşamasında oldukça rekabetçidir. Soru şu ki, nasıl para kazanıyorsunuz? API çağrıları veya kullanım ücretleri, bir token bir sentten azdır ve yatırım getirisi çok uzakta olabilir; Ücretli abonelik (profesyonel sürüm), kafa büyük modelin sifon etkisi vardır, herkes OpenAI veya BATH'ı seçecek ve diğer büyük üreticiler, kendi büyük modellerinin kullanıcılar tarafından kabul edilip edilemeyeceği ve ödemeye istekli olup olmadığı bilinmiyor; Geliştirmeyi endüstri müşterileri için özelleştirmek için ToB, endüstri, araştırma, geliştirme, test etme ve yineleme hakkında derinlemesine bir anlayışa sahip olmalıdır, böylece yıllık on milyonlarca maaşı olan algoritma mühendisleri şantiyede birkaç ay kalabilir ve projenin brüt kar marjının çok iyi olmadığı tahmin edilmektedir.

Bu nedenle, büyük bir modelin başarılı olup olamayacağı sadece algoritmanın kendisinin yeteneğine değil, aynı zamanda geliştirmeden uygulamaya kadar olan iş döngüsünün sürdürülebilir olup olmadığına da bağlıdır.

Ağzını kapat ve bacaklarını aç

Büyük modelin maliyetini fazla yağ kaybetmek isteyen bir kişiyle karşılaştırırsak, bu hedef iki temel yola ayrılabilir:

Birincisi bir "ısı farkı" yaratmaktır. Ağzınızı kapalı tutmak ve bacaklarınızı açmak, yatırımı kontrol etmek, fazla maliyetleri çıkarmak, ticarileşmeyi hızlandırmak ve geliri artırmak ve doğal olarak kilo vermektir.

İkincisi ise "kilo vermesi kolay" olmak. Büyük modellerin mekanizmasını tam olarak anlayın, Transformer dikkat mekanizması problemini çözmek için yeni mimari kullanın ve "nasıl yerseniz yiyin şişmanlatamazsınız" fiziğine sahip olun.

İkincisi çok cazip gelmiyor mu?

Maliyetleri kontrol etmek, kullanıcıları çekmek, hizmetleri özelleştirmek ve para kazanmak için kolayca uzanmak zorunda değilsiniz ve bu tür iyi bir şey mi? Hakikaten.

Şu anda, tüm büyük dil modelleri, uzun metinleri ve yüksek çözünürlüklü görüntüleri işlemesi zor olan Transformer mimarisini kullanıyor ve mantıksal akıl yürütme ve bilgi indüksiyonu, maliyetli olan "güçlü bir şekilde mucizeler üretmeye" dayanıyor. Temel ilkelerin çoğu hala belirsizdir, bu da "halüsinasyonlar" ve sınırlı akıl yürütme yeteneği gibi birçok mevcut soruna yol açar.

Turing Ödülü sahibi Yann LeCun, "LLM'lerin dünya hakkında çok yüzeysel bir anlayışa sahip olduklarını" söyleyerek büyük dil modellerinin teknik paradigmasını birden fazla kez eleştirdi ve dünyanın nasıl çalıştığını öğrenmek için bir "dünya modeli" oluşturmak, daha sonra bir iç model oluşturmak ve daha sonra bu iç modeli çeşitli görevleri yerine getirmek için kullanmak istiyor. Ek olarak, AGI genel zekasını kendi araştırma alanlarından tartışan birçok bilim adamı var.

Özetlemek gerekirse, mevcut büyük dil modellerinin ilkelerinin çoğu net değildir ve teknoloji hala değişmektedir. Gelecekte, körü körüne daha büyük olmaya çalışan mevcut modeli yıkmak için başka teknolojik paradigmalar ortaya çıkabilir ve o zaman aşırı maliyetlere ve acı verici "zayıflamaya" gerek kalmayabilir.

Temel ilkeleri araştırmanın ve daha güçlü bir AGI teknolojisi bulmanın kulağa hoş geldiğini anlamış olabilirsiniz, ancak bu gerçekten bir puan çizgisi değil ve henüz net bir zaman çizelgesi yok. Bu büyük dil modelleri turunun teknik paradigması, mühendislik uygulamalarında uygulanabilir, endüstride çalışabilir ve kalite ve verimliliği artırmada açık bir etkiye sahiptir. Önce onu kullanmak ve bugünü kavramak, teknoloji şirketleri için en önemli önceliktir.

Bu nedenle, büyük ölçekli model işletmeler sadece ağızlarını kapalı tutabilir, bacaklarını açabilir, maliyetleri mümkün olan en kısa sürede kontrol edebilir, ticarileşmeyi hızlandırabilir ve iyi huylu ve sürdürülebilir kalkınma için "kalorifik fark" yaratabilir.

"Kalori Farkı" Yaratmak İçin Dört Modernizasyon Hareketi

Peki, tam olarak nasıl bir "ısı farkı" yaratırsınız? **Şu anda piyasada bulunan ana akım yöntemlere dayanarak, bunları "Dört Modernizasyon Hareketi" olarak özetliyoruz: veri ölçeği, model sıkıştırma, bilgi işlem verimliliği ve iş katmanlaştırması. **

Veri ölçeği, verilerin marjinal faydasını iyileştirmek ve ölçek etkisi yoluyla en iyi maliyet performansını elde etmektir. Ölçek etkisi temel olarak üç yolla elde edilir, biri endüstriyel yoğunlaşma ölçeğidir ve ulusal düzey, veri üretimi, toplama, depolama, işleme, analiz, hizmet ve diğer bağlantıları içeren "veri öğesi pazarının geliştirilmesini hızlandırmayı" açıkça önermiştir, sanayileşme, büyük model işletmelerin veri maliyetini düşürmeye yardımcı olacaktır. İkincisi, veri mühendisliğinin tüm yönlerine manuel katılımı azaltan, önceden eğitilmiş verilerin işlenmesini hızlandıran ve model eğitimi için maliyetleri düşüren ve verimliliği artıran yapay zeka araçlarının uygulanmasıdır. Üçüncüsü, geri bildirim verilerinin ölçeğidir. Baidu Wenxin Yiyan, SenseTime'ın "SenseChat"i, Baichuan Intelligence'ın "Baichuan Modeli", iFLYTEK'in "Spark Modeli" vb. gibi hizmetlerini daha önce tüm topluma açan bazı büyük modellerin, marjinal faydalarla optimum veri ölçeğine daha hızlı ulaşması bekleniyor.

Verilerin marjinal bir faydası vardır. OpenAl, kullanıcıların eğitim için sohbet verilerini kullanmalarına izin verip vermeyeceklerine karar vermelerine zaten izin veriyor, bu da artık kullanıcı geri bildirim verilerine güvenemeyecekleri anlamına geliyor, böylece veri depolama ve hesaplama maliyeti kontrol edilebiliyor.

Model sıkıştırma, modelin performansını artırmak, daha az kaynakla daha yüksek performans elde etmek ve kaynak yoğun büyük modeli sıkıştırma teknolojisi aracılığıyla daha kompakt ve verimli bir sürüme dönüştürmektir. Yağın kasa dönüştürülmesine benzer şekilde, kas daha yoğundur ve ağırlık (performans) aynı kalırken, kişi incelir (küçülür).

Şu anda, büyük model sıkıştırmanın üç yaygın yöntemi vardır: niceleme, budama ve bilgi damıtma. **

Liposuction'a eşdeğer olan miktar tayini basit ve kaba ama etkilidir. Modelin doğruluğu ne kadar yüksek olursa, o kadar fazla depolama alanı gerekir. Bununla birlikte, çıkarımda, karmaşık modellerde çok küçük gradyan değişikliklerini yakalamak gerekli değildir, bu nedenle niceleme, modelin parametre doğruluğunu doğrudan azaltabilir ve bazı ayrıntılı bilgileri "çıkarabilir", böylece işgal edilen alanı azaltabilir ve çıkarım yeteneğini azaltmaz. Örneğin, Qualcomm AI Research, modelin doğruluğunu daha düşük bir doğruluk seviyesinde tutmak için niceleme teknolojisini kullanıyor ve Android akıllı telefonlarda ilk kez Kararlı Difüzyon'u devreye aldı. Kantitatif teknoloji, Wenxin ve Pangu gibi yerli büyük modellerde de uygulanmıştır.

Budama, "eksizyon" a benzer şekilde, çok sayıda gereksiz yapı ve nöron gibi etki üzerinde çok az etkisi olan bazı yan dalları doğrudan çıkarır ve bu daha küçük ağırlıklar kaldırılır, bu da modelin etkisi üzerinde çok az etkiye sahiptir ve modelin boyutunu küçültür. Tabii ki, budama bir "zanaat işidir" ve budama ne kadar hassas olursa, modeldeki doğruluk kaybı o kadar az ve sıkıştırma etkisi o kadar iyi olur.

Bilgi damıtma, büyük modelin "saunaya" izin vermesidir ve 100 milyar model, benzer performansa ve daha basit yapıya sahip birkaç küçük model üretmek için tek geçişte damıtılır ve iniş maliyeti daha düşüktür. Buradaki zorluk, 100 milyar ölçekli model damıtmanın aynı zamanda son derece yüksek bilgi işlem kaynakları tüketmesi ve 100 milyardan on milyonlara kadar olan veri hacmi farkının çok büyük olmasıdır, bu da damıtma etkisini etkilemesi kolaydır. Tahribatsız damıtma, büyük üreticilerin teknik rekabet noktalarından biridir.

Model sıkıştırma teknolojisi aynı zamanda bilgi işlem kaynaklarını da tükettiğinden, bilgi işlem altyapısının bilgi işlem verimliliğini artırmak özellikle önemlidir.

Bilgi işlem verimliliği, büyük model üreticilerinin model hizmetlerini daha yüksek verimlilikle sunmaları için öncüldür.

Çiplerin ve bilgi işlem kümelerinin performansı, araştırma ve optimizasyonun odak noktasıdır. Microsoft Cloud Azure, OpenAI için özel olarak yapay zeka bilgi işlem için bir süper bilgisayar oluşturdu. Baidu ve Huawei gibi yerli üreticiler, uçtan uca optimizasyon yoluyla bilgi işlem verimliliğini artırabilen, büyük modellerin eğitim hızını ve çıkarım hızını artırabilen ve eğitim süresini ve maliyetlerini azaltabilen kendi geliştirdikleri çiplere ve derin öğrenme çerçevelerine sahiptir.

Ancak, endüstri modelleri ve endüstri modelleri gibi genel olmayan büyük modeller için ölçek etkisi ve donanım optimizasyon teknolojisi sınırlıdır ve altyapıyı kendi başınıza oluşturma ve sürdürme maliyeti çok yüksektir, bu nedenle hizmetleri eğitmek ve dağıtmak için bulut hizmetlerini kullanmak daha uygun maliyetli bir seçimdir.

Son tahlilde, büyük modellerin yatırım getirisini optimize etme ve maliyetleri geri kazanma amacına ulaşmak için ticari geliri artırması gerekir. Şu anda, çeşitli büyük modellerin ticarileştirilmesi bariz hiyerarşik özellikleri yansıtmaktadır.

Basitçe söylemek gerekirse, farklı hacimlere, farklı işlevlere ve farklı yönlere sahip büyük bir modeldir ve ticarileşme yolu netleşmeye başlamıştır.

Genel model, ölçek ekonomilerine ve yüksek değerli piyasalara dayanmaktadır. OpenAI'nin çok sayıda kullanıcısı var ve API ekonomisinin gelişmesi ölçek etkisine sahip ve ön yatırım, iş hacminin büyümesiyle eşit olarak paylaşılabilir. BATH (Baidu, Alibaba, Tencent, Huawei) ve diğerlerinin kendi bulut işletmeleri vardır ve endüstri hizmetlerinde, özellikle büyük hükümetlerin ve finans, madencilik ve devlet işleri gibi işletmelerin müşteri erişim yeteneklerinde zengin deneyime sahiptir ve ticari dönüşüm için büyük potansiyele sahiptir. ToB müşterilerinin yüksek gereksinimleri, model deneyiminin ve etkisinin iyileştirilmesini teşvik eder ve ayrıca ToC pazarına hizmet edebilir ve ölçek aracılığıyla maliyetleri daha da amorti edebilir.

Büyük endüstri modeli, ürün ve iş sınırlarını aktif olarak kısıtlar, temel iş ve işlevlere odaklanır ve yatırım ile ticarileştirme arasında iyi bir yatırım getirisi dengesi sağlamak için daha az kaynakla özel küçük modeller geliştirir. Örneğin, finansal alanda, Du Xiaoman'ın "Xuanyuan 70B"si, finansal bilgi anlayışını geliştirmek, finansal müşterilerin kontrol edilebilirlik ve güvenlik açısından özel gereksinimlerini karşılamak için çok sayıda profesyonel finansal külliyatı bünyesine katmıştır ve yüzlerce finansal kurum tarafından denenmek üzere uygulanmıştır.

Sonuç olarak, büyük model sadece evrensel ve genelleştirilmiş bir yol değil, aynı zamanda binlerce endüstrinin özelleştirilmesi ve kişiselleştirilmiş dağıtımı, fiyat, gizlilik ve güvenlik gibi karar verme faktörlerini üretecek ve aynı zamanda çok sayıda segmentasyon iş fırsatı getirecektir. Genel büyük model, endüstri büyük modeli ve tescilli küçük model, hiyerarşik + ortak çabalar ticarileşmeye giden yolu açar. Uyum ve farklılık, endüstriyel zincirdeki her rolün bilgeliğini test eder.

Uzun vadeli ve sürdürülebilir hizmetler için ağzınızı kapalı tutmanız ve bacaklarınızı açmanız gerekir ve büyük modelin "maliyet düşürmesi" tek yoldur.

Bu süreç acı verici olabilir, ancak tüm endüstrinin sağlıklı gelişimini korumak için bir hendek yoğunlaştıracaktır.

yüzyılın 40'lı yıllarında, bilgisayarlar yeni doğduğunda, insanlar bu "makine canavarının" devasa gövdesine hayran kaldılar, ancak daha sonra bilgi çağının sıçraması başladı. Akıllı telefonlar ilk doğduğunda, özellikli telefon üreticileri bu konuda son derece alaycıydı, ancak herkesin İnternet'e erişebildiği bu tür kapsayıcı bir bağlantının mobil İnternet'in refahını artırmasını beklemiyorlardı.

Büyük modeller daha iyi ve daha düşük hale geldikçe, "herkes için yapay zeka" artık uzak bir hayal olmayacak.

View Original

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

Reward
like
Comment
Share

Comment

0/400

No comments

Topic
#Gate & WLFI USD1 Points Program
5k Popularity
#Show My Alpha Points
64k Popularity
#ETH Whales Accumulate
11k Popularity
#SOL Futures Reach New High
23k Popularity
#ETH ETF Sees 12 Weeks of Inflows
7k Popularity

sitemap