Büyük model savaşı tüm hızıyla devam ediyor mu? "Küçük model" çıkış yolu olabilir

Question

Metin: Qingcheng Finance, Yazar: Qing Mu Editör: Liu Zi

Görsel kaynağı: Unbounded AI tarafından oluşturuldu

OpenAI, 26 Temmuz'da ChatGPT'nin Android sürümünü piyasaya sürdü.Şu anda yalnızca Amerika Birleşik Devletleri, Hindistan, Bangladeş ve Brezilya'da mevcut olmasına rağmen, OpenAI ayrıca ChatGPT'nin Android sürümünü önümüzdeki hafta daha fazla ülkede tanıtacağını söyledi. Bu, son zamanlarda biraz daha az popüler olan ChatGPT'yi yeniden halkın gözü önüne getirdi.

ChatGPT lansmanının başlangıcında sadece iki ayda 100 milyon kullanıcıya ulaşan tarihin en hızlı uygulaması haline geldi.Uzun süredir sessiz olan küresel teknoloji pazarı yeniden kaynıyor.Yerli yatırımcı ve girişimciler Silicon'a uçuyor Vadi sordu.

Bu çalkantılı AI dalgasıyla karşı karşıya kalan Çinli girişimciler ve yatırımcılar hızlı hareket etti. Birkaç ay sonra Çin'in teknoloji endüstrisi muhteşem bir "Yüz Model Savaşı" duruşu gösterdi. 2023'ün ilk yarısında Çin'de 80'den fazla büyük ölçekli model ürün ortaya çıktı.Son verilere göre, iç pazarda halihazırda 130 şirket büyük ölçekli modeller yapıyor. Küresel ölçekte, bu yılın ilk yarısında 400'den fazla büyük model yeni piyasaya sürüldü.

Çinli büyük ölçekli model oyuncuları ticari çıkarların ve teknolojinin geleceğinin peşinden koşarken, aynı zamanda ulusal duygular olarak da adlandırılıyorlar: OpenAI'nin Çince versiyonu olmak.

24 Temmuz'da çıkan haberlere göre, ChatGPT'nin Android sürümü piyasaya sürülmeden önce IDC, Baidu Wenxin büyük ölçekli model 3.5'in 12 göstergeden 7'sini alarak kapsamlı puanda birinci olduğunu gösteren bir büyük ölçekli model teknik yetenek değerlendirme raporu yayınladı. Baidu başkan yardımcısı Wu Tian, Wenxin Yiyan 3.5'in yeni sürümünün kapasitesinin, ülkemizde ilgili teknik çalışmaların geliştirilmesinde önemli bir kilometre taşı olan ChatGPT 3.5'i geride bıraktığını söyledi.

HKBTÜ Xunfei daha önce, Xinghuo büyük modelinin üçüncü yinelemesini 24 Ekim'de gerçekleştireceğini, ChatGPT'yi tamamen kıyaslayacağını, Çince yeteneğinin GPT3.5'i geçtiğini ve İngilizce yeteneğinin GPT3.5'e eşdeğer olduğunu duyurmuştu.

01 sahne, sahne

Hatta eski Google bilim insanı ve Mobvoy'un kurucusu ve CEO'su Li Zhifei'nin de dediği gibi Çin'de OpenAI gibi bir organizasyon olmayabilir.

ChatGPT gibi genel amaçlı büyük ölçekli modellerle karşılaştırıldığında, yerli büyük ölçekli model ürünler, uygulamalara ve senaryolara, yani dikey büyük ölçekli modellere, endüstri büyük ölçekli modellere ve endüstriyel büyük ölçekli modellere daha fazla önem verir. Bu konuda teknoloji girişim sermayesi çevrelerindeki kodamanların görüşleri de hemen hemen aynı anlamı ifade ediyordu.

Baidu'nun kurucusu Robin Li uzun süredir kamuoyuna şunları söylüyor: "Yeni kurulan bir şirketin ChatGPT'yi yeniden oluşturması pek mantıklı değil. Bence bu büyük dil modeline dayalı uygulamalar geliştirmek için harika bir fırsat var. tekerleği yeniden icat etmeye gerek yok. Tekerleğe sahip olduktan sonra araba yapmak mümkün." , Uçak, değeri tekerlekten çok daha büyük olabilir."

GSR Venture Capital'in genel müdürü Zhu Xiaohu, Moments'ta şunları yazdı: "Genel model hakkında batıl inançlara kapılmayın, çünkü gelecek yıl GPT-3.5 emtia (genel altyapı) olacak ve üç yıl sonra GPT-4 de olacak . Çoğu Girişimci için önce senaryolar, veriler kraldır!"

Cheetah Mobile'ın başkanı ve CEO'su Fu Sheng, büyük modeller için iki yol olacağına inanıyor. Daha İyi Olmak adlı büyük bir model, "Bir Einstein İnşa Etmek"tir. Ama birçok iş "Einstein" gerektirmez, üniversite mezunları yapabilir. Bu başka bir yol. "Sivil büyük modeller" yapan çok sayıda insan olması gerektiğine inanıyorum.

Huawei Cloud CEO'su Zhang Pingan, Pangu Large Model 3.0 basın toplantısında şunları söyledi: "Pangu Large Model'in şiir yazmaya ve sohbet etmeye vakti yok. Kaç tane parametre olursa olsun ve diyalog yeteneği ne kadar iyi olursa olsun, eğer yapabilirse. Pratik problemleri çözmezseniz pek bir işinize yaramaz."

Çin'de son zamanlarda piyasaya sürülen büyük ölçekli modellerin çoğu, JD tarafından piyasaya sürülen Yanxi büyük ölçekli modeli gibi dikey endüstrileri hedefliyor. Dao tarafından piyasaya sürülen eğitim alanında dikey büyük ölçekli model "Ziyue".

JD Yanxi büyük modeli, JD'nin uzun yıllardır perakende, lojistik, sağlık, finans ve diğer sektörlerdeki birikmiş bilgisini biriktirmiştir. Genel verilerin %70'ini ve JD'nin orijinal tedarik zinciri verilerinin %30'unu eğitim için entegre ederek ürün tavsiyeleri, finansal politikalar getirir. , Finansal yönetim kuralları ve lojistik deneyimi gibi alanlardaki yetenekler. JD Bulut Bölümü Başkanı Cao Peng, tek bir büyük ölçekli model teknolojinin kendisinin doğrudan değer üretemeyeceğine ve teknolojinin yalnızca sahneye konulduğunda gerçek değer üretebileceğine inanıyor.

Ctrip'in büyük seyahat modeli, Ctrip'in mevcut yapısal gerçek zamanlı verilerinin yanı sıra Ctrip'in tarihsel olarak eğitilmiş robotları ve arama algoritmalarıyla birlikte 20 milyar yapılandırılmamış turizm verisini taramasını istedi, kendi geliştirdiği dikey model eğitimini gerçekleştirdi ve çok fazla insan gücü yatırımı yaptı. seyahatin genel yanıt içeriğini doğrulayın. Ctrip'in kurucusu ve yönetim kurulu başkanı Liang Jianzhang, Ctrip'in büyük modellere yatırım yapmak için hiçbir çabadan kaçınmayacağını ve yatırım miktarında bir sınırlama olmadığını söyledi.

Baidu, uygulamalar açısından yakın zamanda Lenovo ile AIGC alanında bir işbirliğine ulaştı. Lenovo'nun özel özelleştirme işi, Baidu Wenxin Yige'yi tamamen tanıttı. Tüketiciler, resmi web sitesinde AIGC temalı boyama etkinlikleri aracılığıyla dizüstü bilgisayarların görünümünü özelleştirebilirler. Huawei Cloud Pangu Büyük Model ve Meitu Visual Büyük Model MiracleVision, giyim ürünlerinin e-ticaret verimliliğini etkin bir şekilde artırabilen AI model uydurma işlevini ortaklaşa başlattı.

Dikey büyük model, genel büyük model gibi parametreler ve bilgi işlem gücü için yüksek gereksinimlere sahip olmasa da, senaryolar ve veriler için daha yüksek gereksinimlere sahiptir ve geliştiricilerin profesyonel bilgiye, zengin endüstri uygulama pratiği birikimine ve hata toleransına sahip olmasını gerektirir. ayrıca daha düşük, yapay zekanın süper kararlılığa ve güvenilirliğe sahip olmasını gerektiriyor. Bu nedenle, dikey endüstriye ne kadar yakınsa, dikey modelin avantajları o kadar fazladır.

"Genel büyük ölçekli model, 100 senaryoda sorunların %70-80'ini çözebilir ancak işletmenin belirli bir senaryosunun ihtiyaçlarını %100 karşılayamayabilir. büyük ölçekli endüstri modeli ve kendi verileri, yüksek düzeyde kullanılabilir bir akıllı hizmet oluşturmak için özel bir model oluşturabilir ve model parametreleri genel büyük modelden daha azdır, eğitim ve muhakeme maliyeti daha düşüktür ve model optimizasyonu daha düşüktür. daha kolay." Tencent Group Kıdemli Başkan Yardımcısı, Bulut ve Akıllı Endüstri İş Grubu CEO'su Tang Daosheng söyledi.

Bu açıdan bakıldığında, "küçük modeller" daha seksi olabilir ve belirli sorunları daha iyi çözebilir.

SenseTime, 100 milyar parametreli büyük bir modeli piyasaya sürdü ve ayrıca farklı dikey alanlar için 10 milyar parametreli küçük bir modeli piyasaya sürüyor. Büyük bir modelin avantajı, yeni çözümler bulabilmesi ve yeni sorunların çözülmesine yardımcı olabilmesidir.Çözüldükten sonra, dar bir alanda büyük miktarda veri üretebilir ve küçük bir modeli yeniden eğitebilir. Hatta bazı küçük modeller terminalde daha düşük bir maliyetle çalışabilir. Ancak küçük model, büyük model olmadan var olamazdı.

02 Büyük üreticiler tüm kazananları alır, start-up şirketler için fırsatlar nerede?

Sektörde ChatGPT'nin Çince sürümünün yalnızca beş şirkette üretileceğine dair bir görüş var: Baidu, Ali, Tencent, Byte ve Huawei.

İnternet çağında tipik bir "721" dir.Birincisi lezzetli ve baharatlı, ikincisi zar zor ayakta, üçüncüsü tehlikede.

Şu anda yüz model birbiriyle yarışıyor ve herkes büyük modelden pay almak istiyor. Ancak çok gerçek bir sorun var ki, büyük fabrikalar yeni kurulan şirketlerin büyük ölçekli modeller ürettiklerinde yakalayamayacakları avantajlara sahip. Küçük ve güzel bir start-up şirket için, sadece üç veya beş kişiyle büyük bir fabrikayı devirmek istemesi muhtemelen sadece bir yanılsamadır.

Büyük modeller bulut platformundan ayrılamaz. Büyük modellerin indirilmesi, tümü bulut platformunda çalıştırılması gereken sürekli ince ayar ve eğitim gerektirir. Baidu, Ali, Tencent, Byte ve Huawei'nin hepsinin kendi bulut işletmeleri var. Baidu ve Huawei ayrıca çiplerden uygulamalara kadar düzeni tamamladı. Baidu "Kunlun Core + Flying Paddle Platform + Wenxin Büyük Model", Huawei "Shengteng chip" + MindSpore çerçevesi + Pangu büyük modeli", yeni başlayan şirketlerin karşılayamayacağı avantajlar.

Ayrıca büyük şirketler, sermaye rezervleri, insan kaynakları, kullanım senaryoları ve veri birikimi açısından doğal avantajlara sahiptir. Başlangıçlar için bir açılış senaryosu olmadan teknoloji yinelenemez, sürekli optimize edilemez ve veri ağı etkileri oluşturulamaz.

Yani küçük şirketlerin hiç şansı yok mu?

Altına hücum dönemi metaforunu tekrar gözden geçirelim: "Bu dönem altına hücum dönemine çok benziyor. O dönemde Kaliforniya'ya altın aramak için gitseydiniz, birçok insan ölürdü. Ama kaşık ve kürek satanlar para kazanabilir." Bu da doğru.Qiji Chuangtan'ın kurucusu ve CEO'su Lu Qi, geçtiğimiz günlerde girişimcilerle paylaştı. Lu Qi, Çinli girişimcilerin bu tarihi dönüm noktasını fark etmelerine, günümüzün koordinatlarını belirlemelerine ve kendi konumlarını bulmalarına yardımcı olmayı umuyor.

Temmuz ayı başlarında, California Üniversitesi, Berkeley'de bilgisayar bilimi profesörü ve "Artificial Intelligence—A Modern Approach" kitabının yazarı Stuart Russell, ChatGPT gibi yapay zeka destekli robotların yakında "evrendeki metinlerinin tükenebileceği" konusunda uyardı. ." "ve büyük miktarda metin toplayarak botları eğitme tekniği "zorluklarla karşılaşmaya başlıyor."

Geçen hafta 8.500'den fazla yazar, OpenAI, Microsoft, Meta ve Alphabet dahil olmak üzere şirketlerin liderlerinden çalışmalarını izinsiz veya ödemesiz AI sistemlerini eğitmek için kullanmamalarını isteyen ve Bu yapay zeka şirketlerinin telif hakkı kayıplarını tazmin etmesini isteyen bir mektup imzaladı.

İnternet veri stoğu tükenmek üzere ve yüksek kaliteli veri giderek azalıyor. Bir modelin iyi ya da kötü olduğunu, %20'sini algoritma belirler ve %80'ini verinin kalitesi belirler. Veri, bilgi işlem gücü ve algoritmaların "troykasında", veriler çekirdek, en uzun vadeli ve en temel öğedir. Büyük modellerin sürekli olarak optimize edilmesi ve yinelenmesi için büyük miktarda veri ile beslenmesi gerekir.

Ardından, gerçek değer, sürdürülebilir yüksek kaliteli veriler olacaktır. Yasal, uyumlu ve iş mantığına uygun veri kaynaklarının sürekli olarak nasıl elde edileceği, büyük modellerin performansını iyileştirmede önemli bir faktör olacaktır. Bu nedenle, veri operatörleri, büyük modellerin gelişimini kısıtlayan önemli bir rol haline gelebilir.

İdeal olarak, model sürekli olarak kullanıcılara hizmet sağlar ve kullanıcılar sürekli olarak model için yeni veriler üretir. Bir sonraki adıma gelince, özel veriler hecelenecek. Daha kişiselleştirilmiş hizmetler, daha fazla özel veri anlamına gelir ve insanların özel verileri büyük modele çekincesiz göstermesi pek olası değildir.

Her devirde “su satıcısı” her zaman hayırlı bir iştir. İlginç bir şekilde, ister öncü, ister kaşif, ister altın avcısı olun, susuz yapamazsınız. Tabii ki kaşık ve kürek de satabilirsiniz.

03 Sonuç

Geçtiğimiz aylarda sosyal platformlarda çokça konuşulan bir yazı vardı:

AI'yı bir çocuk olarak düşünün. Avrupa ve Amerika Birleşik Devletleri'ndeki AI seçkin eğitim rotasına aittir.Doğduktan sonra ailesi, doktora yapana kadar okuması için tüm yol boyunca para harcadı.

Çin'in AI'sı faydacı eğitim hattına aittir.Doğduğunda hayatta kalmak için yetiştirilir ve 15 yaşındayken ailesi için para kazanmanın yollarını bulmaya ve becerilerini nasıl pazarlayacağını öğrenmeye zorlanır.

Özenle tadılan, lezzet dolu birkaç kelime.

Her zaman doğru olmasa da bu, OpenAI ve ChatGPT'nin neden Çin'de görünmediğini bir dereceye kadar açıklayabilir. Hatta bazı yerli yatırımcılar ve girişimciler başlangıçta özgüvenle doluydu ve OpenAI'nin Çince versiyonu olmak istediler. Birkaç aylık savurganlıktan sonra, hâlâ bir kâr modeli bulmam, iş uygulama senaryolarını ve ticarileştirme yeteneklerimi keşfetmem gerektiğini fark ettim.

Bazı C-end kullanıcılarının yakın zamanda ChatGPT-4'ün belirli görevlerdeki performansının çok düşük olduğunu algıladıklarını belirtmekte fayda var. Bu, OpenAI tarafından maliyetleri düşürmek ve verimliliği artırmak için bir karma uzman modelinin (MOE) kullanılması olarak kabul edilir. ve odağını kurumsal düzeyde hizmetlere kaydırmak için eylemlerden biri.

Etrafına bakıldığında, Apple aynı zamanda kendi büyük dil modeli Apple GPT'yi geliştiriyor ve Qualcomm, 10 milyar ila 15 milyar parametre düzeyine sahip modelin çevrimdışı çalışabilmesi için bu yılın sonuna kadar bunu nasıl gerçekleştireceğini şimdiden araştırıyor. bulut işleme olmadan cep telefonu.

Büyük modeller üretkenliğin yeniden şekillendirilmesi, bir paradigma değişimidir. 200 yıl önce, insanlar ilk kez termal enerjiyi kinetik enerjiye dönüştürmek için buhar makinelerini kullandılar ve sanayileşme çağı başladı. Günümüzde insanlar elektrik enerjisini beyin gücüne ve genel zekaya dönüştürmek için büyük modeller kullanıyor ve yeni bir çağ açılıyor.

Elbette çok fazla tekerleğe ihtiyacımız yok ama yine de iyi tekerleğe ihtiyacımız var.

Gidilecek uzun bir yol var.

View Original