Dikey bir modeli indirmek ne kadar zor?

Question

Orijinal kaynak: İnternetteki o şeyler![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e08b39ed63-dd1a6f-1c6801) Görsel kaynağı: Unbounded AI‌ tarafından oluşturulduBüyük ölçekli model parkurunun mevcut durumu: **Bir yandan start-up şirketler açık kaynaklı büyük ölçekli modellere dayalıyken, diğer yandan büyük üreticiler çeşitli büyük ölçekli model parametrelerini dahil ediyor* *.> Kuruluşun eksik istatistiklerine göre, şu anda Çin'de 1 milyardan fazla parametre ölçeğine sahip 79 büyük ölçekli model bulunmaktadır. Büyük parametre evrimi sürecinde, piyasada başka bir ses ortaya çıkmaya başladı, "geliştirme yönü olmadan parametre iyileştirme anlamsızdır."Bu nedenle, geliştirme yönü açısından, bazı büyük modeller dikey alanların uygulanmasına odaklanmıştır. Binlerce modelin gelişimine göre baz değişebilir ama dikkatli düşünürseniz dikey sektörden kaçabilecek birileri her zaman olacaktır.Aynı zamanda, geliştirmenin ilk aşamasında, kapalı kaynaklı büyük modeller kalite açısından daha iyi ve nispeten güvenli olsa da, büyük ölçekli model ekolojisi, sonuçta belirli bir derecede evrime ihtiyaç duyar ve açık kaynak aslında refahı artırabilir. büyük modeller. Başka bir bakış açısıyla, açık kaynağa dayalı olarak, birçok şirket parkura katılacak niteliklere sahiptir, ancak her zaman kolayca birinci seviyeye düşen bazı insanlar vardır - bilgi işlem gücü eksikliği.Sonuçta büyük modellerin sayısı katlanarak artıyor ama artan büyük modellere tek taraflı bakarsak, o zaman büyük modellerin arkasındaki bazı firmaların seçimlerini, mücadelelerini ve hatta sorunlarını bir dereceye kadar görmezden geleceğiz. modeller Seçtikten sonra vazgeçme olasılığı.Hepimizin bildiği gibi, yapay zekanın üç unsuru şunlardır: **işlem gücü, algoritma ve veri**. Açık kaynak sadece algoritma aşamasındadır, bundan sonra işletmelerin çok fazla bilgi işlem gücü desteğine ve veri eğitimine ihtiyacı vardır, bunun arkasındaki maliyet yüksektir.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-6f845a3753-dd1a6f-1c6801)## 01 Dikey model, start-up şirketler için hala umut var mı?Açık kaynak kodlu büyük modellerin seçiminde, maliyet ve özel geliştirme nedenlerine bağlı olarak, küçük parametreli modelleri seçen az sayıda girişimci işletme yoktur ve hatta bu tür işletmelerin ilk tercihidir.**Biri, eğitim öncesi maliyet sorunudur. **> Guosheng Securities bir zamanlar GPT-3 eğitiminin maliyetinin yaklaşık 1,4 milyon ABD doları olduğunu ve bazı daha büyük LLM modelleri için eğitim maliyetinin 2 milyon ABD doları ile 12 milyon ABD doları arasında olduğunu tahmin etmişti.Bu yılın Ocak ayı da dahil olmak üzere, her gün ortalama yaklaşık 13 milyon tekil ziyaretçi ChatGPT kullanıyor. Buna karşılık gelen çip talebi, 30.000'den fazla NVIDIA A100 GPU'dur. İlk yatırım maliyeti yaklaşık 800 milyon ABD doları ve günlük elektrik maliyeti yaklaşık 50.000 ABD dolarıdır. Amerikan doları.Dahası, çok para yatırılmadan önce, model eğitimini desteklemek için çok fazla veri kaynağına ihtiyaç vardır. Bunun bir diğer nedeni de ön eğitim gereklilikleri konusudur.Sektördeki bazı kişiler de bu konuda görüşlerini dile getirdiler: "Büyük modelin genelleme yeteneği, verilerle sınırlıdır."![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-4eec942c67-dd1a6f-1c6801) Çünkü büyük modelin yüksek kaliteli verileri çok az taranıp eğitildiğinde, büyük modelin çıktı kalitesi sorunu aşikar olacak ve kullanıcı deneyimi, deneyim açısından büyük ölçüde azalacaktır.Ön eğitim sürecinde sadece veri biriktirmek için çok para ve zaman harcandığı söylenebilir.Dahası, büyük ölçekli model yolunda, çoğu girişim endüstrinin dikey alanı etrafında gelişiyor Çaba nispeten küçük olsa da, kolay olmasa gerek.Spesifik olarak, büyük bir model endüstrinin iş modelini değiştirmek istiyorsa, bunu yargılamak için en basit kriter, bu türdeki büyük modelin yeterli endüstri verisine sahip olup olmadığıdır, örneğin, içinde gizlenmiş siyah ürünleri analiz etmek gerekir. karanlık, ancak yeterli anlayışla siyah ürünler tarafından kullanılmayabilir ve güvenli ve pasif bir durumda olabiliriz.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-2fd8165013-dd1a6f-1c6801) ** Değerlendirme için başka bir kriter, çalışırken büyük model tarafından işlenen verilerin nihai çıktısının kalitesidir. **Sonuçta, açık kaynak modeline dayalı model tekelini kırmak istiyorsanız, büyük miktarda veriyi optimize etmeniz ve iyileştirmeniz ve yeterli altyapıya yatırım yapmanız gerekir.Günümüzün açık kaynak modeli aslında internet çağında daha çok Android'e benziyor.Yeni kurulan şirketlerin büyük üreticilerin iniş senaryoları ve veri birikimi avantajları olmadan geliştirmesi kolay değil ama yine de fırsatlar var.Aslında, Bodhidharma Enstitüsü bir zamanlar "büyük ve küçük modellerin işbirlikçi gelişimini" geleceğin trendlerinden biri olarak görüyordu.Başlangıç şirketi Zhuiyi Technology bile "Amerika kıtasının keşfinin bir kişiden çok daha fazlası olması gibi, dikey büyük modelin sağlam bir fırsat olduğuna" inanıyor.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-93333c8386-dd1a6f-1c6801) Şimdi, Momo Zhixing, Innovation Qizhi ve Yuanyu Intelligence gibi AI girişimleri tarafından başlatılan DriveGPT Xuehu Hairuo, Qizhi Kongming ve ChatYuan Yuanyu dahil olmak üzere birçok girişimin büyük ölçekli model yoluna girmeyi seçmeye başladığını görebiliriz. büyük modeller.Ancak C-end için yerli ürün olmamasına rağmen, B-end bazında büyük üreticiler ilk uygulama sürecini başlattı.Büyük üreticilerin şu anda büyük modelleri bulut aracılığıyla dışa aktarmayı planladıkları bildiriliyor. Bulut bilişim, büyük bir modeli uygulamanın en iyi yolu haline geldi. Hizmet olarak model (MaaS) giderek daha fazla ilgi gördü ve bu aynı zamanda büyük modellerin maliyeti azalır.Peki startuplar için hala umut var mı?![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-183a1d49c5-dd1a6f-1c6801)## 02 Ürün deneyimi pazar talebiyle eşleşiyor mu?> Yetkili "Fast Company" dergisinin tahminine göre, OpenAI'nin 2023'teki geliri, API veri arayüzü hizmetlerinin sağlanması, sohbet robotu abonelik hizmet ücretleri vb. dahil olmak üzere 200 milyon ABD dolarına ulaşacak.Açıkçası, çeşitli endüstrilerde büyük modeller için bir talep var, ancak güvenlik hususları ve B'nin büyük modellere karşı tutumuna bağlı olarak, büyük modellerin mevcut güvenlik faktörü sınırlıdır. Bu nedenle, nispeten temel bir temelde, büyük İnternet şirketleri de yüksek talep gören diyaloglara, belge içeriği oluşturmaya ve işbirlikçi ofisteki diyaloglar, belge oluşturma ve diğer birçok senaryo dahil soru-cevap senaryolarına öncelik veriyor.Örneğin, artık insanların yapay zekaya yalnızca ürün bilgilerini söylemesi, yapay zekanın otomatik olarak çeşitli ürün teslim komut dosyaları ve stilleri oluşturmasına izin vermesi ve ardından şirketlerin malları satmasına yardımcı olmak için dijital bir insan çapa ataması gerekiyor. Baidu'ya göre, canlı yayın ile karşılaştırıldığında, dijital canlı yayın 7\*24 saat kesintisiz canlı yayın elde edebiliyor ve dönüşüm oranı insansız canlı yayın odalarının iki katı.Büyük ölçekli girişimcilik için gerekli temel olan bulut altyapısıyla, bulut bilişime sahip internet devlerinin belirli avantajları vardır.> IDC tarafından yayınlanan 2022 küresel bulut bilişim IaaS pazar izleme verilerine göre, ilk 10 pazar payına sahip oyuncular, ABD'de Amazon, Google, Microsoft ve IBM ve Ali dahil olmak üzere Çin ve ABD'deki büyük şirketlerdir. Çin'de Huawei, Tencent ve Baidu.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-53326b8418-dd1a6f-1c6801) Büyük modellerin açık kaynak ve kapalı kaynak anlaşmazlıkları bir veya birkaç ürünün ortaya çıkmasıyla bitmeyecek olsa da, daha fazla üst düzey yetenek katılımı, teknik yineleme ve finansal desteğe ihtiyaç vardır.Ancak yatay olarak karşılaştırıldığında, birçok AI start-up şirketi aynı zamanda startup unicorn şirketi MiniMax'in şansından yoksundur. (Fark, MiniMax'in genel büyük modellere odaklanmasıdır)20 Temmuz'da Tencent Cloud, MiniMax'in büyük modeller geliştirmesine yardımcı olan en son ilerlemeyi açıkladı. Şu anda Tencent Cloud, MiniMax'in kilokalori seviyesindeki görevlerini %99,9 kullanılabilirlik oranıyla Tencent Cloud üzerinde uzun süre istikrarlı bir şekilde çalıştırmak için destekliyor.Haziran 2022'den itibaren, Tencent Cloud'un bilgi işlem güç kümeleri, yerel bulut, büyük veri ve güvenlik gibi ürün özelliklerine dayalı olarak MiniMax için kaynak katmanı, veri katmanı ve iş katmanından bir bulut mimarisi oluşturduğu bildiriliyor.Gerçek, giriş biletini almanın ilk adım olduğunu ve bir sonraki testin piyasa oyuncularının ticarileştirme ve teknoloji yükseltmelerini keşfetme becerisi olduğunu bir kez daha kanıtlıyor gibi görünüyor. Açıkça söylemek gerekirse, AI start-up şirketleri yolda sonuna kadar koşmak istiyor ve her adımı kaçırmamalılar.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-82f1a392c9-dd1a6f-1c6801) Yeni kurulan şirketler, büyük modellerin geliştirilmesinde bir dereceye kadar avantajlıdır.Bazı büyük İnternet şirketleri şimdiden ilk senaryoları gerçekleştirmiş veya gelir elde etmek için hizmet satmaya başlamış olsa da, büyük şirketlerin ve MiniMax'ın gözleri daha çok genel amaçlı büyük modellere odaklanmış durumda.Dikey model hala bir boşluktur. Özellikle geleneksel işletme grupları için, kendi işletmelerinin düşük BT nitelikleri ve düşük girdi-üretim oranı dikkate alındığında, kendi geliştirdikleri büyük bir modeli seçme olasılığı düşüktür.Örneğin, Chuangxin Qizhi, endüstriyel büyük ölçekli model ürünü "Qizhi Kongming"e odaklanır; belirli bir veri avantajına sahiptir ve ChatYuan'da büyük ölçekli bir dil modeli geliştirir; ana kendi kendine çalışan üretken büyük ölçekli model DriveGPT Xuehu · Hairuo .Ancak söylenecek bir şey var, eğitim verileri ve yönü farklı ve maliyeti büyük ölçüde değişiyor.İlk olarak, büyük bir üst dil modelini sıfırdan eğitmenin maliyeti on milyonlarca RMB'ye ulaşabilir. Üretken otonom sürüş alanında, ChatGPT'den daha yeni bir dil tasarlamak ve ardından tüm gerçek yol sürüş verilerini maliyet girişi için birleşik bir dile "çevirmek" gerekir.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-485a9bccae-dd1a6f-1c6801) Yapay zekaya yeni başlayan şirketler, bir dereceye kadar büyük modellere büyük miktarda yatırım gerçekleştirebilir ve ChatGPT'nin iş ve pazarlamadaki başarısından daha fazla yararlanabilir, bu da insanların devam etmek yerine büyük modellerin fizibilitesine anında tanık olmalarını sağlayabilir. Uzun teknik yinelemede gizleyin.Bu nedenle, mevcut uygulamayı gerçekleştirmenin ilk adımı, büyük modelin eğitim maliyetinin ve muhakeme maliyetinin aramaya göre daha düşük olması ve yakınlığın da garanti edilebilmesidir.## 03 Konseptten uygulamaya geçmek ne kadar zor?Tükenebilen Çinli büyük ölçekli start-up şirketlerinin dikey olarak entegre olmalarının muhtemel olduğu görüşü var.> Basitçe söylemek gerekirse, temel büyük modeli yaparken, bir modelin nihai ana uygulama senaryosunu belirleyin, kullanıcı verilerini toplayın ve hızlı iterasyonlar yapın.Görsel olarak, üst dil zekası bu kategoriye daha yatkındır. Özetlemek gerekirse, uzun bir süredir meta-dil zekası, büyük doğal dil modellerinin işine odaklanmıştır.Yuanyu COO'su Zhu Lei ayrıca, "Görüntü ve video işini sırf buna uymak için körü körüne genişletmeyeceğiz. İşe iyi odaklanmak önemlidir."Bununla birlikte, otonom sürüş ve endüstriyel üretim gibi büyük ölçekli dikey modellere dönüşen diğer start-up şirketler için, bazı özel sektör verileri hakkında bilgi sahibi olmayabilirler.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-d213e0ad86-dd1a6f-1c6801) Ne de olsa, dikey büyük ölçekli model yolunda, gelecekteki kurumsal rekabetin temel faktörü özel veriler ve özel deneyimdir.Tek bir şirketin süreci büyük ölçekli modelciler tarafından bilinmediğinde, benzersiz bir rekabet gücüne sahip olabilir.Ayrıca iş odaklılık sürecinde kaynaktan ön eğitime ve çıktıya kadar verilerin doğruluğu da istenmektedir.Üretken yapay zeka da şu anda daha fazla düzenleyici ilgi görüyor. Son zamanlarda Çin, ayrımcılık yapılmamasını, üretilen içeriğin doğru ve doğru olmasını ve yanlış bilgilerin önlenmesini açıkça öngören "Üretken Yapay Zeka Hizmet Yönetim Tedbirleri (Yorum Taslağı)" yayınladı. Optimizasyon için içerik filtrelemeye ek olarak, model optimizasyonu vb.Ancak, üretici yapay zekanın doğasında olan bir kusursa, bunu garanti altına almak ve tamamen çözmek teknik olarak zordur.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5c42394c68-dd1a6f-1c6801) Ek olarak, daha iyi bir açık kaynak modelinin ortaya çıkmasıyla, denemeye hevesli daha fazla şirket akını olacak Yeni kurulan şirketler için bu rekabet değil mi?Örneğin şu anki Llama 2, 18 Temmuz'da Meta, ilk açık kaynaklı yapay zeka modeli Llama'nın ticari versiyonu olan Llama 2'yi yayınladı. Bazı şirketler, mevcut çeşitli değerlendirme belgelerine göre, zayıf kodlama becerisine ek olarak, aslında birçok yerin ChatGPT'ye yaklaşmaya başladığına inanıyor.Belki de gelecekte açık kaynak topluluğunun çılgınlığı, temel yeteneklere sahip büyük ölçekli modelleri popüler hale getirecek ve özelleştirilmiş büyük ölçekli modeller gelecekte lahana fiyatı olacaktır. Açıkça söylemek gerekirse, şirketler özelleştirme modelini çok ucuza kullanabilirler.Daha da önemlisi, Tang Daosheng bir keresinde şöyle demişti: "Genel büyük modelin güçlü yetenekleri var, ancak birçok işletmenin belirli sorunlarını çözemez. 100 senaryoda sorunların %70-%80'ini çözebilir, ancak çözemeyebilir. birçok işletmenin kendine özgü sorunlarını çözer.Kurumun belirli bir senaryosunun ihtiyaçlarını %100 karşılar.Ancak işletme, sektörün geniş modeline ve kendi verilerine dayalı olarak ince ayar yaparsa, özel bir model oluşturabilir ve yüksek sonuçlar yaratabilir. kullanılabilir akıllı hizmetler."Elbette bu tür bir özelleştirme modeli henüz gelmedi ama parkurdaki girişimlerin hem imkanları hem de zorlukları olmalı.