Disenchantment AI: yarım yıllık model, hala gökyüzünde uçuyor

2023-08-04 06:52:59

Kaynak: "Photon Planet" (ID: TMTweb), yazar: Wu Kunyan, editör: Wu Xianzhi

Görsel kaynağı: Unbounded AI tarafından oluşturuldu

Büyük maketin ateşi yarım yıldır bu topraklarda yanıyor. İnternetin tutarlı paradigmasına göre Huawei, JD.com ve Ctrip'in basın toplantıları akşam bölümlerini yakalarken, yerli büyük ölçekli modellerin "yeni ürünü" de kendi yarı yıl testini başlattı.

Diğer işletmelerin altı aylık incelemelerinden sadece farklıdır. Yeni enerji araçları, cep telefonları ve e-ticaret platformları gibi iş biçimlerinin altı aylık incelemeleri, metinsel analizi kolaylaştırmak için yeterli miktarda kamuya açık veri bilgisi ile desteklenir. kara kutu" durumunda, net bir iş modeli yoktur, bu nedenle sözde veri bilgileri ve diğer argümanlar söz konusu değildir.

Ürün fonksiyonu açısından bakıldığında bile, büyük modelin henüz genel bir değerlendirme yöntemi üretmemiş olması oldukça ironiktir. AGI'nin nihai hedefine bakıldığında, yerli C-son kullanıcılarının büyük modelleri "değerlendirmek" için güvendikleri klasik "sincap mandalina balığı yöntemi" gibi doğal olarak çeşitli değerlendirme yöntemleri vardır.

Ya da bu nedenle, çoğu yerli üretici OpenAI gibi kendi büyük modellerini kullanıma açamıyor, ancak dahili test mekanizmalarını uyguluyor.

Tencent'in endüstri lideri büyük ölçekli modelleri, Huawei'nin Pangu 3.0, Jingdong Lingxi vb. gibi büyük ölçekli modellerin keşfi daha çok B tarafına ve G tarafına odaklanmıştır. En iyi oyuncuların odaklandığı güncel parça olarak, büyük modeli, temel hedef olarak ticarileştirme ile mümkün olduğunca olgun ürün formlarını göstermeye odaklanır. Örneğin, bu tür büyük modelin ticarileştirilmesini hızlı bir şekilde yaygınlaştırmak ve teşvik etmek için, ticari iniş yönelimine ek olarak, yerelleştirilmiş konuşlandırma yetenekleri de önemli referans göstergeler haline geldi.

Buna rağmen sektördekilerin gözünde "kaseyi cepheye teslim eden" büyük ölçekli sanayi modeli, onu satın alan firmalardan hala yoksun. Şimdiye kadar büyük ölçekli bir ticari işbirliği olmadı.

Dolayısıyla günümüz yatırım piyasasında büyük modellerle ilgili yatırımların birincil piyasadan ziyade ikincil piyasada yoğunlaştığını görmek zor değil. Wang Huiwen'in büyük inek seviyesi pazara girse bile, kamu kaynakları, yuvarlak finansmanının 230 milyon ABD dolarından çok daha yüksek olduğunu ve finansman kabiliyetinin on milyarlarca dolar alan OpenAI ile aynı olmadığını söylüyor. Microsoft'tan zaman zaman.

Yatırım piyasası nitelikli bir barometredir. Açıkçası, yerli büyük ölçekli modeller tarafından altı aylık sınav zamanı düğümünde sunulan cevap kağıtları tatmin edici değil ve "hikayenin" gerçekleşmesi için bir uyku hali ve cilalama dönemi gerekecek.

İş modeli olmayan büyük model mi?

Yerli büyük ölçekli modellerin pazar şüphelerine cevap vermesi gerektiğinde, iş modelleri ilk sıraya yerleştirilmelidir.

Halihazırda kullanıcıların zihninde ilk sıralarda yer alan ChatGPT'nin popülaritesinde önemli bir düşüş görüldü.Yurt içinde piyasaya sürülen ilk genel amaçlı büyük modeller olan Baidu ve Ali de çok sayıda oyuncunun ardından "sessizliğe" düştü. yukarı. Bunun nedeni, genel büyük modelin iş modelinin çalışmamasıdır. Kamuoyu alanında kullanıcıların beğenisini kazanmış olsa da ticari kapalı döngü hiçbir zaman karşımıza çıkmadı.

Baidu'nun geniş bir test yelpazesine sahip büyük ölçekli modelini örnek alarak, ticari uygulaması Wenxin Qianfan'ın ödeme modeli, arama yoluyla üretilen jeton sayısına dayanmaktadır, standart, bin jeton başına 0,012 yuan'dır ve maliyeti 0,12 yuan'dır. bin karakterlik bir el yazması çıkarmak için.

Kurtarma maliyetinin hızı ne olursa olsun, 0,012 yuan/bin jeton ücreti ucuz görünüyor, ancak metin oluşturma genellikle istenen sonuçları elde etmek için birden fazla etkileşim gerektirir.Birden fazla etkileşim, gizli maliyeti sonsuza kadar artıracaktır. gelen ve giden personel türü.

Benzer bir senaryo, soru-cevap topluluğudur.Bir akademisyen olan Sun Quan (takma ad), Photon Planet'e model uygulamaları kullanma deneyiminin, soru-cevap topluluğunda yüksek kaliteli yanıtlar aramaya benzer olduğunu söyledi. kullanıcının düşüncesi, sorunun ayrıntı düzeyidir ve ödeme isteği genellikle yalnızca yüksek kaliteli yanıtlarda bulunur. KALİTELİ CEVAPLAR sonrasında üretilecektir. Bu nedenle Baidu, ödeme standardı olarak çıkarım metinlerinin sayısını seçti, ancak yine de ticari kullanımın gizli maliyetlerini karşılayamıyor.

B tarafının görmeyi çok sevdiği aylık ödemeyi benimserseniz, bu yalnızca maliyet harcamalarını kullanıcılardan kendinize kaydıracaktır ki bu da uzun vadeli bir çözüm olmadığı açıktır. Bunun en iyi kanıtı, ChatGPT'nin C-end kullanıcıları için aylık 20 ABD Doları'nın altında bir fiyatla köşeleri kıstığından şüpheleniliyor olmasıdır.

Şu anda, ister B tarafında ister C tarafında olsun, genel amaçlı büyük modellerin ticarileştirilmesinde bir başa baş dengesi elde etmek zordur.Aynı zamanda, yapay zeka etiği gibi uyumluluk riskleriyle karşılaşması muhtemeldir. ve denetim. Bu nedenle, büyük modellerin sanayileşmesi ve dikeyleşmesi, iniş talebi altında bir paradigma kayması haline geldi.

Büyük ölçekli sanayi modelinin aksine ürün formu iniş talebiyle başlasa da asıl inişte ortaya çıkan sorunların hala çözülmesi gerekiyor.

Zhihu'nun daha önce üründe dahili testler yapacağını duyurduğu Zhihaitu AI ve kısa bir süre sonra piyasaya sürülen Ctrip.com gibi, kendi ürün ekolojisi temelinde inşa edilen dikeyden C'ye geçiş modeli, değinmeye değer bir örnektir. evvel.

Büyük ölçekli model yoluna giren ikilinin avantajları aynıdır; bunlar kendi topluluk ekolojilerinde ve bundan elde edilen yüksek kaliteli topluluk içeriğinde yatar. İçerik, endüstri verileri olarak, basit bir temizlikten sonra büyük modellerin eğitim külliyatı haline gelebilir. İkisi arasındaki ince fark, Zhihu'nun başından beri bir içerik topluluğu olması, Ctrip'in ise içeriğe yalnızca son yıllarda odaklanmaya başlamasıdır.

Ancak şu anki bakış açısıyla ister Zhihu ister Ctrip olsun, büyük modelinin ürün formu kullanıcıların sıkıntılarını gideremediği gibi mevcut fonksiyonları da yeterince iyileştiremiyor.

Zhihaitu AI'nin şu anda duyurulan ürünü "Hot List Summary", yüksek kaliteli soruları ve yanıtları yakalamak ve kullanıcılara sunmak için özeti parlatıp yeniden yazmak için AI'yı kullanırken, başka bir uygulama olan "Search Aggregation", kullanıcı edinme bilgilerini iyileştirmek için kendi yanıtlarından fikirleri toplar ve karar vermede verimlilik.

Kendi kendine tavsiye ve sıcak liste gibi toplama işlevleri, Zhihu'nun "geleneksel sanat becerileridir" ve büyük model yetkilendirmenin performansı, kullanıcı düzeyinde bir sıçramaya neden olmadı. Ayrıca, AI yeniden yazma ve cilalama süreci, popüler yanıtların kişiselleştirilmiş özelliklerini de kapsar.Kullanıcılar için bu uygulamanın işlevi, içerik topluluğu tarafından savunulan farklılaştırılmış ve kişiselleştirilmiş iletişime ters düşen yalnızca bilgileri hızlı bir şekilde anlamaktır.

OTA'ya dayanarak Ctrip, Ctrip'in yönetim kurulu başkanı Liang Jianzhang'ın görüşüne göre bunun turizm endüstrisi için "güvenilir bir yanıt kitaplığı" olduğunu sordu. Ürünlerinin etkinliğini test etmek zaman alacak, ancak konumlandırma açısından "temelleri feda edip sonuncuyu kovalamaktan" da şüpheleniliyor.

Genç kullanıcıların gözünde turizmin standart bir cevabı yok, "özel kuvvetler", "yumruklama" ve "daldırma" gibi çeşitlendirilmiş turizm biçimlerinin ortaya çıkması bunu kanıtlıyor. Örneğin, çok sayıda kullanıcının seyahat rota planlamasını formüle etmek için AI kullandığını varsayarsak, aynı rota planlaması aslında topluluk iletişimini ve atmosferi etkileyecek ve hatta kullanıcının kalma süresinde bir azalmaya neden olacaktır.

Genel olarak konuşursak, C ucundaki dikey modelin iniş girişimi pürüzsüz değildir ve hatta bir "batık maliyet" haline gelebilir. Belki de büyük modelin kendisinin "verimliliği artırma" efsanesinden etkilenen ürün konumlandırma, çoğunlukla "verimlilik" kelimesiyle sınırlıdır, ancak verimlilik, kullanıcı deneyiminde yalnızca temel olmayan bir boyuttur.

Aynı paradigma B'ye alanında da gösterildi ve verimliliği hedefleyen B tarafında, endüstrinin büyük modelinin iş modeli ve uygulama sorunları daha derinlemesine gösterildi.

Belirsiz kara kutu

"Yapay zeka fizik değildir. Teoride çok az önemli teknolojik atılım vardır, ancak model yapısı ve veri kalitesi boyutlarında daha fazla ince ayar ve küçük optimizasyon vardır. Çoğu durumda, model çıktısı daha da iyidir, ancak ekip bunu yapamaz. sebebini bul."

Sektör içinden bir kişinin görüşüne göre, sektör dışındaki büyük modellerde çok büyük bir bilişsel önyargı var ve bunun nedeni, büyük model eğitiminin ve yapay zeka endüstrisinin dış dünya için bir "kara kutu" olması ve zor olmasıdır. büyük modelleri incelemek Çıktıyı üreten muhakeme süreci görünmez ve soyuttur.

Bu durum, ChatGPT'nin getirdiği çılgınlık döneminden sonra sakinleşen dış dünyanın büyük modelin "kara kutusuna" karşı temkinli bir tavır almasına neden oldu. Bu da yerdeki büyük model ikilemine yol açacaktır ve bu olgu B rotasına geçiş sürecinde daha belirgindir.

Tencent Cloud tarafından piyasaya sürülen MaaS teknolojisi çözümü ve Huawei Cloud tarafından piyasaya sürülen Pangu büyük modeli dahil olmak üzere artık B'ye giden yolu açıkça tanımlayan büyük üreticiler tarafından üretilen ürünleri örnek olarak alın. Etkileşim, operasyon ve ardından yeni endüstri verileri yinelemeli optimizasyonun eklenmesinde de başarılar var.İniş uğruna, büyük modeller için eşiğin son derece düşük bir seviyeye düşürüldüğü söylenebilir.

Ancak "ihtiyatlılığın" getirdiği bilişsel duvar yıkılmadı ChatGPT altı aydır esiyor olsa da, birçok şirketin büyük modellerin nasıl ithal edileceğini incelemek için hiçbir motivasyonu veya ilgisi yok.

Benzer bir mantık birkaç yıl önce bulut bilişim sektöründe de görülebiliyor. Bulut bilişim, verinin değerinin tanınmasına dayalı bir hizmet ve türevidir.Büyük modellerin işletmeler için değerine gelince, verinin değerinin göreceli olarak arttığı söylenebilir. Aynı zamanda kurumsal müşterilerin sahip olmadığı teknik yeteneklerdir.Yerli işletmelerde bulut bilişimin yaygınlaştırılması bile, büyük modelden bahsetmeye gerek yok, hala sondan çok uzak.

Endüstri modelinin yararlı olup olmadığı aslında artık önemli değil, sonuçta ürünün kullanım değerinin kullanıcı tarafından keşfedilmesi gerekiyor. Ayrıca dış dünya, "sincap mandalina balığı yöntemi" veya son zamanlarda iniş yerini ve yoğunluğunu tahmin etmedeki hatalar nedeniyle sorgulanan Huawei Pangu gibi belirli testler ve performanslarla modelin seviyesini kabaca ölçecek. süper tayfun "Dusuri" Hava durumu modeli.

Belki de bu nedenle, yakın zamanda piyasaya sürülen Jingdong Lingxi büyük ölçekli modeli kendi iş senaryolarını uygulamaya öncelik vermeyi seçti ve önümüzdeki yılın başlarında "dış ciddi iş senaryolarına" açık olması bekleniyor.

Daha da belirtmekte fayda var ki, "endüstri trendi" altında, ticarileştirme odaklı sözde endüstri modeli, büyük modelin orijinal "evrensel" anlatısının yerini almış ve aynı zamanda birçok insanın "kaybetmesine" neden olmuştur. ".

Sözde endüstri modelinin tanımı belirsizdir. Büyük modelin (Temel Model) çağrışımı, parametre sayısında değil, genel veri eğitiminden ortaya çıkan genel yeteneklerde yatmaktadır. Aynı model mimari benimsenir, ancak veriler üzerinde tek bir alan verisi kullanılırsa, yalnızca genel yetenek kaybolmaz, aynı zamanda ortaya çıkan indirimler nedeniyle alan sorunları bile çözülemez.

Endüstri verileri, orijinal büyük model temelinde ikincil ön eğitim için kullanılıyorsa, orijinal modelde ince ayar yapmaya eşdeğerdir, o zaman ürünün kendisi hala endüstri büyük modeli olarak adlandırılabilecek model katmanındadır. ; etki alanı bilgisi veya harici veritabanı aracılığıyla eklenirse, Bu yalnızca orijinal modelin yeteneklerini canlandırmak içindir ve ürün ayrıca modelin üzerindeki uygulama katmanına ait olmalıdır.Buna endüstri modeli demek abartı olur.

Şu anda, büyük fabrikalardaki büyük ölçekli endüstri modellerinin çoğu, Tencent, Jingdong, Huawei ve benzeri gibi eskidir. İkincisi, bir süre önce hararetli tartışmalara yol açan büyük bir yasal model olan ChatLaw gibi, daha hafif yatırım ve modelin performansının hızlı bir şekilde iyileştirilmesi nedeniyle açık kaynak topluluğunda daha fazla görünecek.

Sektör içinden bir kaynak, "Birincisiyle karşılaştırıldığında, ikincisi, model yeteneklerinin hızlı bir şekilde oluşturulmasını kolaylaştıran ürün formu açısından daha olgun, ancak ikincisi genellikle alan bilgisi aşılama sürecini tamamladıktan sonra daha yüksek bir üst sınıra sahip oluyor" dedi.

Açık Kaynak Tehditleri

Son zamanlarda Meta, en son açık kaynaklı büyük modeli Llama2'yi açık ticari lisans altında ücretsiz olarak sunarak Microsoft'un Azure platformuna tanıttı.Bu hamle, açık kaynaklı LLM için önemli bir kilometre taşı olarak selamlandı ve hatta kapalı kaynağın statüsünü tehdit etmeye başladı. lider üretici OpenAI.

Büyük model sponsoru Microsoft aracılığıyla Meta, OpenAI'ye daha açık bir tavırla meydan okuyor.

Aslında, "açık kaynak fraksiyonu" üçüncü taraf olarak bundan çok önce sessizce yükseldi. Mayıs ayında yanlışlıkla sızdırılan dahili bir Google belgesi, "Hendekimiz yok, OpenAI de yok" dedi. Genel fikir, yüzeyde, OpenAI ve Google'ın büyük modelde birbirini yakaladığı, ancak asıl kazanan bu ikisinden gelmeyebilir.Bu yargının nedeni, giderek zenginleşen açık kaynak ekolojisinde yatmaktadır.

Açık kaynak ekolojisi giderek daha aktif hale geliyor ve hatta model kabiliyetini temsil eden Llama2 ve Finetune (model fine-tuning) paradigmasının temsili teknolojisi LORA ortaya çıktı. "mucizeler için çabalamak" için çabalıyorsanız, net bir ürperti hissedin.

Açık kaynak teknoloji paylaşımı ve yetenek transferi gibi faktörler de büyük modelin kara kutusunu daha "vitrifiye" hale getiriyor.Engellerin olmamasının kaçınılmaz sonucu, büyük fabrikaların büyük meblağlarla yatırım yaptığı Konw How ve zaman, açık kaynak topluluğu tarafından kolayca alt üst edilir. .

Önde gelen yerli üreticilerin çoğu buna "iki eliyle kavrayarak" yanıt veriyor. Sol el "bir araba yapmak için kapıyı kapatır", ürün formunu ve yeteneklerini küçük ölçekli dahili testler şeklinde sürekli parlatır ve sağ el "beyin fırtınası" yaparak ekoloji içinde buluta dayalı bir açık kaynak topluluğu oluşturur geliştirici ekolojisi, ancak bu yalnızca üreticinin kendi bilgi işlem gücü katmanını ve model katmanını gerektirir. Alibaba Cloud, büyük ölçekli açık kaynak topluluğu GPT'yi başlattı ve Huawei Cloud, Baidu Cloud ve Tencent Cloud da planlar yaptı.

Genel olarak konuşursak, ister endüstri ister GM, ister C'ye ister B'ye, büyük modelin yarı yıl testi bize doğrudan uygulamanın zor olduğu hissini veriyor ve kar beklentisi sürekli olarak geriye doğru hareket ediyor; risk giderek artıyor. daha güçlü ve teknik engeli söylemek zor. Peki, mevcut durumu kırmanın yolu nerede?

Şimdilik iki ilginç yön var. Biri "AI çağında Bellek" olarak bilinen vektör veri tabanı, diğeri ise model zekasının sağladığı akıllı donanım.

Sözde vektör, bugün LLM eğitiminde en önemli olan metin, resimler, videolar ve sesler dahil her şeyi temsil edebilen çok boyutlu verileri ifade eder. Bu içerik biçimleri, veri tabanında açıkça temsil edilir ve anlamsal geri getirmeyi, yani benzerlik yoluyla geri getirmeyi destekler, örneğin erkek vs erkek. Başka bir deyişle, büyük modeller için vektör bulma, büyük modellerin SEO'sudur.

Yukarıda bahsedildiği gibi, alan bilgisi vektör veritabanı yetenekleri, ince ayar veya eklentiler yoluyla endüstri modellerinin yapımını ve kullanımını iyileştirebilir.Büyük üreticiler için doğal olarak bir sonraki aşamanın odak noktasıdır. Mayıs ayından bu yana, vektör verileriyle ilgili yollara sermaye akıyor.Daha kesin bir beklentiye sahip bir uygulama katmanı ürünü olarak, vektör verileri de birçok VC'den yakın ilgi gördü.

Yerleşik akıllı donanım modeline gelince, "siri" ve "Xiaoai" gibi önceki akıllı asistanlara kıyasla yeteneklerde bir sıçrama ve aynı zamanda gerçek akıllı cihazların (cep telefonları, bilgisayarlar) bir uzantısıdır. Açık kaynak topluluğunda, MAC'lerde büyük parametreli modeller oluşturmak için girişimlerde bulunulurken, büyük üreticiler geçmiş mobil İnternet çağında belirli bir miktarda donanım üretim kapasitesi biriktirmiştir ve görece konuşursak, ilk hamle avantajları daha açıktır. .

PR tarzı ilkbahar ve sonbahar tarzı yazı olmadan, temel gereksinimler haline gelen büyük ölçekli modeller artık gizemli olmaktan çıkıyor ve hikayeler gittikçe azalıyor. "Derin dalışa" başlayan pist oyuncuları hala çok çalışmak. Sektörün, dalgıçların ortaya çıkıp onlarla kafa kafaya karşılaşmasını görmeden önce bir sonraki "ChatGPT" anına ihtiyacı var.

View Original

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

1 Likes