Dachang, ChatGPT'yi geçti

Orijinal: Luozhi Magnolia

Kaynak: Yeni Alıntı İşletme İncelemesi

Resim kaynağı: Unbounded AI aracı tarafından oluşturulmuştur

ChatGPT'nin başlatılmasından bu yana geçen iki yüz gün içinde, yerli büyük ölçekli modellerin geliştirilmesi bir "kasırga" modu başlattı.

Çin'de 1 milyardan fazla parametre ölçeğine sahip 79 büyük ölçekli modelin piyasaya sürüldüğü söyleniyor.

Büyük ölçekli model evrimi alanı, yüz modelden oluşan bir yakın dövüşe odaklanıyor: Baidu Wenxin'in büyük ölçekli modeli 3.5'e yükseldi, Ali Tongyi Qianwen bir aile modeli oluşturdu, JD Yanxi'nin büyük ölçekli modeli, kendisi için "kişiye özel" bir endüstriyel büyük ölçekli model;

Büyük fabrikaların büyük ölçekli modellerinin evrim teorisi acımasız ve gerçekçidir ve ya yetişmeleri ya da ortadan kaldırılmaları gerekir.

Hızla koşan ve sıkı antrenman yapan Baidu Wenxin Büyük Model 3.5, yakın zamanda Wenxin'in Yiyan yeteneğinin en son sürümünün ChatGPT 3.5'i geçtiğini duyurdu.

Doğal seçilim, güçlü olanın hayatta kalması, büyük üreticiler ve büyük modeller ChatGPT'yi geride bıraktı.

Büyük fabrika modeli, ChatGPT3.5'ten daha fazlası

Düzgün kısa saçları olan siyah iç ve dış beyaz takım elbise ceketi giyen AI Büyük Model Teknik Yetenek Değerlendirme Raporu Konferansı'na katıldı.

Bir iş gezisinden yeni dönen Baidu Group başkan yardımcısı Wu Tian, toplantıda şunları söyledi: "Wenxin Yiyan'ın yeni sürümü ChatGPT 3.5'i geride bıraktı. Bu, Çin'de ilgili teknik çalışmaları yürütmemiz için de önemli bir kilometre taşı."

Bu, HKBTÜ Xunfei'den Liu Qingfeng'in Spark'ın büyük modelinin ChatGPT'yi geçmek üzere olduğunu söylemesinin ardından, büyük modelin ChatGPT'yi geçtiğini resmen onaylayan başka bir büyük üreticidir.

Bu yılın Mart ayında, Baidu'nun bilgiyle zenginleştirilmiş yeni nesil büyük ölçekli dil modeli "Wenxin Yiyan" test için halka açık bir şekilde davet edildi. Bu model, Wenxin büyük ölçekli modelinin 3.0 sürümüne dayanmaktadır. 3 aydan uzun bir süre sonra, Wenxin modeli 3.5 sürümüne yükseltildi ve etkileri, işlevleri ve performansı kapsamlı bir şekilde iyileştirildi.

Wenxin Yiyan 3.5, büyük olasılıkla işlevler açısından yeni eklenti mekanizması nedeniyle ChatGPT3.5'i geride bıraktı Wenxin Büyük Model 3.5, eklentiler aracılığıyla büyük modelin yetenek sınırını genişletti.

Büyük model, büyük modelin teknik gücünü ve temel kapasitesini vurgular. Bu yılın Mayıs ayında, Baidu tarafından piyasaya sürülen yeni büyük tabanlı model Wenxin Büyük Model 3.5'tir.Bu model, Wenxin Yiyan sisteminin temel modelidir.

Temel model eğitiminde sürüm 3.5'in aynı zamanda en gelişmiş uyarlanabilir hibrit paralel eğitim teknolojisini ve modelin yineleme hızını büyük ölçüde hızlandıran FlyPaddle'ın karma hassas hesaplama stratejisini benimsediğini belirtmekte fayda var.

Hepimizin bildiği gibi Baidu, toplam dört katmanla tam yığın yapay zeka teknolojisinin araştırma ve geliştirmesini derinlemesine geliştiriyor: çip katmanı, çerçeve katmanı, model katmanı ve uygulama katmanı.

Çip katmanı Kunlun Core'a sahiptir; çerçeve katmanı, büyük modellerin verimli eğitimini ve akıl yürütmesini güçlü bir şekilde destekleyen derin öğrenme platformu Paddle'a sahiptir; model katmanı, Wenxin büyük modeline sahiptir; uygulama katmanında, şu anda 150.000 şirket Wenxin Yiyan testine erişim için başvuruda bulunmaktadır.

Bunların arasında, Flying Paddle platformu, Çin'deki 8 ila 10 milyon yazılım uygulayıcısına kıyasla 7,5 milyon geliştiriciye sahiptir.Yazılım uygulayıcıları ve derin öğrenme geliştiricileri tam olarak aynı olmasa da, yetenek sayısındaki avantaj, Ultrain'in varlığına benzer şekilde Wenxin 3.5'in ChatGPT'yi yakalaması için büyük kapasiteli bir düşünce kuruluşu sağlar.

Yabancı şirketlerle karşılaştırıldığında, Çinli şirketlerin Çin külliyatını ve Çin kültürünü anlamada doğal avantajları vardır.Çin'in imalat endüstrisi en eksiksiz kategorilere sahiptir ve AIGC'yi gerçek endüstriler için eğitmek için elverişli koşullara sahiptir.

Promosyona birçok faktör katkıda bulunmuştur. Wenxinyiyan'a dayalı Wenxin Big Model 3.0, 100 günden daha uzun bir süre önce piyasaya sürüldü. FlyPaddle ve Wenxin'in işbirlikçi optimizasyonu altında, Wenxin Big Model 3.5 hızla büyüdü. En son model etkisi %50 arttı, eğitim hızı 2 kat arttı ve muhakeme hızı 30 kat arttı. ChatGPT'yi başarıyla geçti.

Baidu, temel teknolojinin yanı sıra üç ek geliştirme teknolojisi geliştirdi: bilgi geliştirme, geri alma geliştirme ve diyalog geliştirme.

Büyük modeli insanlarla karşılaştırırsak, eğer insanlar bilgi yapısı ve bilgi sistemi yoluyla öğrenirlerse, öğrenme verimliliği daha yüksektir. Ardından, arama yapmak için araçları kullanmayı öğrenin, uçtan uca son derece basitleştirilmiş erişimi gerçekleştirin ve güncelliği artırın.

Büyük model kendi kendine öğrenmeyi bitirdikten sonra, geri bildirim yoğun eğitimi öğrenmesi gerekir.Diyalog geliştirme, büyük modelin soruları sürekli yapmasına izin vermek, büyük modele diyalogda neyin doğru neyin yanlış olduğunu söylemek ve yönlendirme yoluyla büyük modelin hafıza mekanizmasını güçlendirmesine izin vermek, soruları istediğimiz şekilde etkili bir şekilde yanıtlamasına izin vermek ve çocuğa nasıl daha iyi cevap vereceğini öğretmek gibidir.

Teknik güce ek olarak, büyük modellerin topraklanması gerekir.

Endüstri uygulamaları açısından, Baidu Wenxin'in büyük ölçekli modeli endüstriyel uygulamalardan doğmuştur ve endüstriyel uygulamaya hizmet etmektedir. Halihazırda büyük ölçekli model endüstri uygulaması için temel yolu keşfetmiştir ve ayrıca endüstrilerin akıllı dönüşümünü hızlandırmak için birçok endüstri ve alanı kapsayan büyük ölçekli modeller yayınlamıştır.

Şu anda State Grid, Pudong Development, Taikang, Geely, Harbin, Shenzhen Gas, TCL ve Baidu Wenxin gibi işletmeler birbirleriyle işbirliği yaptı.

Ayrıca Baidu, son on yılda araştırma ve geliştirmeye 100 milyar yuan'dan fazla yatırım yaptı ve temel araştırma ve geliştirme yatırımı 2021'de %23'ten fazla olacak. Yapay zeka ana dalları için başvuru ve yetkilendirme sayısı art arda beş yıl Çin'de birinci oldu ve derin öğrenme patent başvurularının sayısı dünyada birinci sırada yer aldı. Baidu'nun AI büyük ölçekli modeller alanındaki atılımı, Baidu'nun element kaynaklarına yaptığı güçlü yatırımla da yakından ilgilidir.

Büyük fabrikaların ve büyük modellerin araştırma ve geliştirme için mücadele etme zamanının geldiği görülmektedir.

Büyük fabrikalardan ve büyük modellerden hangisi daha iyi?

Bu yılın ilk yarısında, büyük ölçekli modeller yapacağını resmen açıklayan yüze yakın şirket vardı ve her büyük ölçekli model kıyasıya bir savaşın içindeydi. Bunlar arasında Ali, Baidu, Tencent, JD.com ve ByteDance gibi büyük İnternet oyuncularının yanı sıra HKUST Xunfei ve SenseTime gibi yapay zeka şirketleri ve diğer "isimsiz birlikler" de var.

Yarım yıl içinde, büyük ölçekli model pist, konseptten inişe kadar olan süreci tamamladı ve bu, herhangi bir pistte çok patlayıcı.

Ancak şu ana kadar kimin büyük ölçekli modelinin daha iyi olduğunu doğrulayacak net göstergeler veya yönergeler yok.Birbiri ardına "Wang Po kavun satıyor, kavun satıyor ve böbürleniyor" öz değerlendirmesi göz kamaştırıcı ve pek tarafsızlık yok.

Peki yüz modelin savaşında kim daha iyi?

IDC tarafından yayınlanan en son "AI Büyük Ölçekli Model Teknik Yetenek Değerlendirme Raporu, 2023"te, ilk kez AI büyük ölçekli model teknik yetenek değerlendirme çerçevesi önerilmiştir.

Değerlendirme modelinde üç boyut vardır: ürün teknolojisi, hizmet ekolojisi ve endüstri uygulaması.

12 adede kadar özel alt bölüm göstergesi vardır: algoritma modeli, hizmet yeteneği, genel yetenek, yenilik yeteneği, platform yeteneği, güvenlik ve açıklanabilirlik, ekolojik işbirliği, endüstri kapsamı, finans, endüstri, tıbbi bakım ve enerji.

Bunların arasında, algoritma modeli ve endüstri kapsamı, büyük modellerin yeteneğini ölçmek için en önemli iki göstergedir.Özellikle, ikisi sürekli yinelemeli iyileştirme için bir çark oluşturabilir.

Ürünlerin teknik yetenekleri arasında "algoritma modeli" boyutu, büyük model yeteneğinin temel unsurudur ve aynı zamanda büyük modelin uygulama etkisini belirleyen köktür.

Bunun nedeni, yalnızca algoritma modeli teknolojisinin atılımı ve genel etki avantajlarına sahip büyük bir model tabanının gerçekleştirilmesi yoluyla daha geniş bir endüstri kapsamını destekleyebilmesi, hayatın her kesiminin teknolojik atılımların getirdiği temettülerden tam olarak yararlanabilmesini sağlayabilmesi ve yapay zeka uygulaması için yüksek eşik ikilemini çözebilmesidir.

Endüstri uygulama yetenekleri açısından, uygulama kapsamının genişliği, büyük ölçekli model üreticileri için en endişe verici göstergedir ve büyük ölçekli model efektlerinin ve endüstriyi birleştirme yeteneklerinin evrensel liderliğinin kapsamlı bir yansımasıdır.

Bu nedenle, "endüstri kapsamı", endüstriyel uygulamadaki büyük modelin gücünü, kurumsal düzeydeki müşterilerin sayısı ve çıkarma endüstrilerinin sayısı aracılığıyla yansıtır.

Bu değerlendirmeye aralarında Baidu, Ali, Tencent, Huawei, iFlytek, 360, SenseTime ve 4Paradigm'in de bulunduğu 14 üreticinin de bulunduğu yerli ana akım büyük ölçekli modeller katıldı.

Büyük üreticiler ve büyük modeller yüksek derecede rekabete sahiptir. Baidu, "çip-çerçeve-model-uygulama" dört katmanlı teknoloji yığınının eksiksiz bir düzeninin benzersiz avantajına sahiptir: çip katmanı-Kunlun çekirdeği, çerçeve katmanı-uçan kürek, model katmanı-Wenxin büyük modeli ve çeşitli AI uygulamaları. Bunların arasında, Baidu'nun kendi geliştirdiği derin öğrenme platformu Flying Paddle, büyük modellerin verimli eğitimi ve akıl yürütmesi için güçlü destek sağlar.

Aliyun ayrıca 12 göstergeden 6'sının tam not almasıyla çok dikkat çekici ve "hizmet kabiliyeti" konusunda tam puan alan tek satıcı. Temel bir model sağlayıcı olarak, büyük model üreticilerinin platform kabiliyeti, hizmet kabiliyeti ve ekolojik işbirliği düzeyi, endüstrinin gelişimi için çok önemlidir. Alibaba Cloud, her üç göstergede de tam not aldı.

Halihazırda, Alibaba Cloud'un genel amaçlı büyük model ailesi metin, ses, resim ve diğer modaliteleri işleme veya oluşturma yeteneğine sahiptir. Son üç ayda Alibaba Cloud, temel model "Tongyi Thousand Questions"ı, ses ve video büyük ölçekli model ürünü "Tongyi Tingwu"yu ve yapay zeka resim oluşturma büyük ölçekli modeli "Tongyi Wanxiang"ı arka arkaya piyasaya sürdü. Tongyi büyük ölçekli model ailesi hala sürekli yineleme ve gelişim içindedir.

Her ikisi de büyük İnternet şirketleri olan Tencent Cloud ve JD Cloud, endüstri tarafına odaklanmayı ve kendi özelliklerine göre endüstrinin büyük ölçekli modellerini yayınlamayı seçti.

Tencent Cloud, büyük bir endüstri modeli oluşturma temelinde, daha yüksek veri doğruluğuna ve daha güçlü gizlilik ve güvenliğe sahip özel bir model oluşturmak için ince ayar yapmak için kendi verilerini kullanır.

Birkaç yıldır tedarik zincirini geliştiren JD.com için uzun bir süre e-ticaret işine ve lojistik işine odaklanarak tedarik zincirine odaklanmak daha doğru bir tercih. JD.com'un Yanxi'nin büyük ölçekli modeliyle ilgili basın toplantısında söylediği gibi, "Yalnızca tedarik zincirini gerçeğe dönüştürerek büyük modeli gerçeğe dönüştürebiliriz."

HKUST iFLYTEK gibi yapay zeka üreticileri de dikey yolda tam not aldılar.Bu oyuncular dikey sektöre girme fırsatına sahipler.Üreticiler arasındaki rekabette, dikey alanda bariz avantajları olan işletmeler liderlik edecek.

Örnek olarak IFLYTEK'i ele alalım.IFLYTEK, 20 yılı aşkın süredir yapay zeka alanına odaklanıyor ve birçok temel teknoloji uluslararası lider seviyede.Spark Big Modeli, büyük modelin dil anlama yeteneğini ve genel ifade yeteneğini, yeni bilgileri güncellemenin zorluğu ve gerçeklerin soru ve cevaplarının "fark yaratmanın" kolay olması gibi sektör sorunlarını etkin bir şekilde çözen bir arama eklentisi ile birleştiriyor.

Büyük modelleri eğitmenin son derece yüksek maliyeti nedeniyle, sıradan geliştiricilerin ve küçük ve orta ölçekli işletmelerin başlama şansı yok. Bu, rapor sonuçlarından da görülebilir: diğer fabrikalar da çok çalışıyor, ancak gelecek uzun. Acımasızca söylemek gerekirse, masada yemek yemek için bile çok az fırsat olabilir.

Gelecekte büyük model nereye gidiyor?

Kısa bir süre önce WAIC konferansında, büyük modele giren oyuncular çoktan kilit noktaları çizmişti: önce teknik sorunları çöz, sonra sahneyi uygula ve son olarak işi gerçekleştir ve ölçeklendir.

Şu anda büyük modellerin senaryolar ve endüstriler ile derinlemesine entegre olmaya başladığını gördük.Örneğin kod üretimi ve protein yapı tahmini gibi alanlardaki büyük modeller, büyük modellerin sadece teknoloji şirketlerinde uygulanmadığını, hayatın her alanına yönelik adımlar attığını doğruladı.

Yerli büyük ölçekli model, büyük ölçekli konsept stokları aşamasını hızla aştı ve AI büyük ölçekli modeli, bir parametre rekabetinden bir uygulama yarışmasına dönüştü.

Örneğin, Huawei'nin Pangu büyük modeli meteoroloji, tıbbi araştırma ve geliştirme, elektrik gücü ve diller gibi alanlarda uygulanmış ve yüz milyarlarca parametreye sahip çok sayıda büyük model sunmuştur. Tencent Cloud'un büyük ölçekli endüstri modeli yetenekleri, akıllı uygulamaların verimliliğini artıran finansal risk kontrolü, etkileşimli çeviri ve dijital akıllı müşteri hizmetleri gibi senaryolara uygulanacak ve tek duraklı MaaS hizmeti, işletmelerin yükünü azaltıyor.

Uygulama senaryosuna özel olarak, finans alanını örnek alarak, büyük ölçekli endüstri modeli, eskiye kıyasla verimliliği 10 kat artan finansal risk kontrol çözümlerini destekleyebilir.

Büyük ölçekli model, yılların birikmiş dolandırıcılıkla mücadele deneyimini ve binlerce gerçek iş senaryosunu bir araya getiriyor.Geleneksel modelle karşılaştırıldığında, genel dolandırıcılıkla mücadele etkisi yaklaşık %20 arttı. Kuruluşlar, tüm süreçte sıfır manuel katılım elde etmek için numune toplama, model eğitiminden devreye alma ve başlatmaya kadar modellere dayalı risk kontrol yeteneklerini yineleyebilir ve modelleme süresi 2 haftadan yalnızca 2 güne düşürülür.

Sınırlı numune birikimiyle bile hızlı yapım tamamlanabilir ve "soğuk başlatma" işlemi atlanabilir.

Nasıl karaya çıkarılacağı ve ticarileştirileceği, üreticilerin odak noktası haline geliyor.

Bu, yapay zekanın büyük ölçekli tekrarlanabilir endüstriyel uygulama aşamasına girdiği ve iyi sonuçların yalnızca küçük örnek veya sıfır örnek öğrenimi kullanılarak elde edilebileceği ve böylece yapay zeka geliştirme maliyetinin düşürülebileceği anlamına gelir. Baidu Wenxin büyük modeli yükseltildikten sonra, maliyet başarıyla geçmişin %10'una düşürüldü.

Herhangi bir endüstri sonunda bir oligopol oluşturacaktır ve büyük modeller de istisna değildir.

Son birkaç ayda, çok sayıda yeni büyük ölçekli model ortaya çıktı.İster fırsatı değerlendirmek için çılgın bir istek ve geride kalma korkusu, ister uzun vadeli bir pist düzeni ve özel araştırma olsun, her oyuncu bunu çok iyi bilir.

Yüz modelin yakın dövüşü yalnızca aşamalı bir fenomen olacak ve nihai sonuç hala az sayıda büyük model üzerinde yoğunlaşıyor. Nedenler şunlardan başka bir şey değildir:

İlk olarak, evrim sürecinde, çeşitli işletmeler ve kurumlar yavaş yavaş kendi konumlarını buldular, kademeli olarak alt bölümlere doğru ilerlediler ve sonunda daha eksiksiz büyük ölçekli modele dahil oldular.

İkincisi, yıllarca birikim gerektirir. Gerçekten sıfırdan inşa edilen büyük ölçekli model çok pahalıdır, çok kapsamlı yetenekler gerektirir ve zihniyette mutlak uzun vadeliliğe sahip olmalıdır, bu da mutlak ekonomik güce sahip olmayan oyuncuların yarı yolda bırakılacağı veya ışığa giden yolda "öleceği" anlamına gelir.

Üçüncüsü, uygulama düzeyinde büyük modellerin geleceğinde hayal gücüne çok yer var. Her endüstrinin geliştirme için büyük bir alana sahip olduğunu varsayarsak, verimliliği artırmak için yeni AI teknolojisi kullanılabilir ve uygulama düzeyindeki değer kesinlikle başka yöne çekilecektir.Birkaç büyük başlı modele güvenmek çok geniş bir uygulama ekolojisine sahip olacaktır.

Gelecekte tüm işletmelerin büyük modellere güçlü bir şekilde güveneceği ve tüm ürünlerin büyük modellere dayalı olarak geliştirileceği inkar edilemez.

Endüstri penetrasyon oranı ve pazar payı, büyük bir işletme modelinin bir oligopol haline gelmesi için en önemli zorluk unsurları haline geldi.

View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • Comment
  • Share
Comment
0/400
No comments
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate app
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)