Bu makalenin ilk taslağı ağustos ayının sonunda bir dinlenme gününde balık tutarken tamamlandı.Aceleyle yayınlandıktan sonra birçok tavsiye aldım, bu yüzden yazar insanları güldürmemek için bazı içerik ekledi, değiştirdi ve sildi.
Bu makalenin içeriği esas olarak yapay zeka sektörünün mevcut durumunu yatırım perspektifinden değerlendirmekte, farklı şirketlerin teknoloji/ürün rotalarını yansıtmakta ve tahmin etmekte ve yapay zeka endüstrisindeki şirketlerin stratejilerini soyut olarak özetlemektedir. Bu nedenle, belirli teknolojiler söz konusu olduğunda kaçınılmaz olarak bazı eksiklikler söz konusudur, bu nedenle lütfen sabırlı olun.
Ancak son tahlilde, makale yayınlayabilen birçok büyük şirket hâlâ parçalanmış durumda ve hiç kimse bu makalenin içeriğinin doğruluğunu değerlendiremeyecek gibi görünüyor. Tıpkı GPT-3.5'i GPT-4 ile puanlamak gibi makul gibi görünse de dikkatli düşündüğünüzde biraz soyut kalıyor.
Bu nedenle yazar, bu makalenin belirsiz endüstriler hakkında bilgi toplandıktan sonra oluşturulmuş bir "karar" olarak değerlendirilmesini önermektedir. Bir hüküm olduğundan, konumun açık olması ve ifadenin anlamlı olması gerekir. Doğru olup olmadığına gelince, zaman içinde test edelim.
Yazar her zaman yeni endüstrilerin gürültülü olduğuna inanmıştır, bu nedenle beyninizi daha fazla kullanmanın ve yargılamaya cesaret etmenin her zaman doğru olduğunu düşünmüştür. Yargı sorusunda kör tahminde bulunma oranı %50, üst üste üç kez yanlış tahmin etme olasılığı ise %12,5'tir. Yazı tura atarak yargılamak bile anlamlıdır. Yargılamak korkunç değil, en korkunç olanı ise yargının doğruluğunun yazı tura atmaktan daha düşük olmasıdır.
Bu makaleye resmi olarak başlamadan önce, bu makale için değerli ilham ve veri kaynakları sağlayan aşağıdaki kişilere çalışmaları için teşekkür etmek istiyorum. Elbette bu makaledeki çıkarımların birçoğu bu eserlere dayandığı için, eğer hata içeriyorsa ya da yazarın yanlış bir anlayışı varsa, bu makaledeki çıkarımlar artık sağlam olmayacaktır.Okuyucuların kendi kararlarını vermeleri rica olunur. Bu makale yatırım tavsiyesi niteliğinde değildir ve neredeyse hiç yatırım tavsiyesi niteliği taşımaz.
•Düşünce Zinciri Merkezi: Büyük Dil Modellerinin Akıl Yürütme Performansını Ölçmeye Yönelik Sürekli Bir Çaba(
•GPT-4 Mimarisi, Altyapı, Eğitim Veri Seti, Maliyetler, Vizyon, MEB(
Tamam, bu makaleye resmi olarak başlayalım.
Büyük Model: Siber Roketi Başlat
2023'te yapay zekayı tartışmanın ilk adımı, büyük ölçekli model girişimciliğin hâlâ yapılıp yapılamayacağını tartışmaktır.
Büyük model (ön eğitim) artık roket fırlatma problemine dönüştürüldü, ateş başlatıldığı ve yönü doğru olduğu sürece herkes bunu yapabilir. Büyük modellerin eğitiminin siber roket fırlatmaya benzediği söylenebilir.
Mantığa aykırı olan şey, yatırımcıların büyük modelleri eğitmenin zorluğunu hafife alması, ancak gerçek roketleri fırlatmanın zorluğunu abartmasıdır. Yatırımcılar, aynı 60 milyon ABD doları tutarındaki maliyetle, başarısız bir roket fırlatması için ikinci bir şansın olduğunu hissedecekler ve büyük bir modeli eğitmedeki başarısızlık, para israfı olarak değerlendirilecek.
GPT-4, OpenAI'nin GPU kullanım verimliliğinde hâlâ 60 milyon ABD doları tüketiyor (yaklaşık %30 olduğu rapor ediliyor). Bu bir {performans=verimlilik×maliyet} meselesidir ve performans bir duvardır. Diğer start-up'lar %30×60 milyon=18 milyon dolardan daha yüksek bir performans etkisi elde edemezse, kullanıcıların doğrudan GPT-4'ü kullanmaları daha iyi olur.
Şu anda büyük modeller yetiştirdiğini iddia eden birçok firmanın finansman turları 1 milyon ila 5 milyon ABD doları aralığında. Bununla birlikte, en büyük fonlara sahip şirketlerin bile yalnızca tek bir fırlatma için yeterli mühimmatı var. Ve bu lansmanın GPU kullanım oranı %100'e ulaşsa bile GPT-4'ü aşmak zor.
Bu açıdan bakıldığında roket fırlatmak daha iyidir, çünkü mevcut roketlerin çoğu uyduları gökyüzüne taşıyan fırlatma araçlarıdır ve tek yük kapasitesi sınırlıdır, bu nedenle küçük roket şirketleri diğerlerinin vakit bulamadığı uydu siparişlerini alabilmektedir. çalıştırmak.
Büyük modeller farklıdır.Büyük modellerin yatay genişlemesinin marjinal maliyeti yalnızca bilgi işlem gücünün maliyetidir ve bilgi işlem gücünün maliyeti elastik olarak genişletilebilir, bu da büyük model şirketler için her siparişin kârının bedava kâr olduğu anlamına gelir. , neredeyse hiçbir ek maliyet yoktur ve taahhüt kapasitesi çok büyüktür. Yeni, kalitesiz, büyük ölçekli bir model firmanın taşma talebi alması zordur.
Eğitim maliyetleri önemli ölçüde azaltılmadığı sürece, GPT-4'ün tüm mimarisi bilinse bile, kısa vadede pazara sürülebilecek büyük modeller yapmak birçok firma için zor olacaktır.
Özelleştirme: "Kazanan her şeyi alır" sorunuyla yüzleşme
Donanım endüstrisinde yaygın bir olgu, özelleştirilmiş gereksinimler yoluyla erken kar elde etmek ve ardından erken kar yoluyla teknolojik atılımlar (veya bağlantılar) elde etmektir. Bununla birlikte, büyük model endüstrisinde kişiselleştirme, yeni girenler için pek bir çıkış yolu değildir.
Bu yargıya ilişkin açıklama çok basit: İnce ayarlı modellerin çoğu GPT-4'e yetişemiyor, daha az veri gereksinimi var. GPT-4 ile diğer modeller arasındaki performans farkı devam ettiği sürece özelleştirme büyük model firmalar için çözüm olamaz.
Bunun çok tipik bir örneği, kurumsal müşterilere hizmet vermek için ince ayarlı GPT-3 kullanan Jasper'dır. Ancak OpenAI, ChatGPT'yi (GPT-3.5) herkese açık hale getirdikten sonra kullanıcıları hızla kaybetti. Çünkü Jasper'ın çıktısı, genelleme yetenekleri zayıf olan ve kurum içi kullanımla sınırlı olan bir "geri sürüm" kullanmaya gerek kalmadan, GPT-3.5'in girilmesiyle kolayca elde edilebilir.
Yeni şirketlerle karşılaştırıldığında Jasper'ın geliştirme için en azından GPT-3'ten GPT-3.5'e kadar bir pencere süresi vardır. Ancak yeni şirketlerin artık düşük maliyetli ve yüksek hızlı GPT-3.5 ile yüksek performanslı GPT-4'ün aynı anda ortaya çıkmasıyla yüzleşmesi gerekiyor.
Bu nedenle, teknolojik atılımlara ulaşmak için kişiselleştirme yoluyla kar biriktirme yolunun hayatta kalma olasılığı çok düşüktür.
İnce ayar: gerekli, batıl inançlara kapılmayın
Mevcut yapay zeka endüstrisinin ince ayar konusunda gerçekçi olmayan beklentileri var ve bu beklenti, spesifik teknik uygulama ve makro teknik ritim açısından olduğundan fazla tahmin ediliyor.
Şu anda sektörde tartışılan ince ayar çoğunlukla "önceden eğitilmiş modele dayalıdır, böylece insan niyetleriyle tutarlı cevaplar üretebilir". Bu tür ince ayarlara "hizalama" adı verilebilir; bu, büyük modele zeka eklemek yerine yanıtları insanın niyetiyle hizalamak anlamına gelir.
Çok sayıda makalenin araştırma sonuçlarına göre, büyük modellere ilişkin bilgilerin esas olarak ön eğitimden gelmesi gerekirken, ince ayar daha çok hizalama için kullanılıyor.
Basit açıklama, ön eğitimin beyin boyutunu belirlemesi ve ince ayarın ana dili belirlemesidir. Önceden eğitilmiş modele ince ayar yapmak, "okuma yazma bilmemeyi ortadan kaldırma" sürecidir.
Ancak ince ayar, sektörde sıklıkla modele "zeka ekleme", yani model performansını iyileştirme ve ince ayar yoluyla model bilgisini artırma yöntemi olarak görülüyor. Bu şekilde "Kutsal Kase"nin ortaya çıktığına inanılıyor. yapay zekaya" ulaşılabilir. Bu düşünce tarzı biraz taraflıdır.
Her şeyden önce, modelin performansı artmamıştır, ancak insan niyetlerini daha iyi hizalayabilir.Görevin karmaşıklığı modelin performansını aşarsa, ince ayar beklenen sonuçları vermeyecektir. Bu, insan beynine kuantum hesaplamaları yaptırmak gibidir, yapılamıyorsa eğitim meselesi değildir.
İkinci olarak, "niyet hizalama" kısmında "bilgi takviyesi" gerçekleştirilir ve etki "papağanlamaya" daha çok benzer. Yani model, anlamını anlamadan uzmanların söylediklerini taklit ediyor. Her ne kadar pek çok sektör "tekrarlayarak" iyi çözümler elde edebilmiş olsa da (sonuçta çoğu sektör karmaşık değildir...), uzun vadede takip etmemiz gereken sonucun bu olmadığı açıktır.
Son olarak, "ek veri setlerinin eklenmesi, model performansının iyileştirilmesi ve model bilgisinin arttırılması" eğitimi, "artımlı öğrenme/sürekli öğrenme" yeteneğine sahip, yani modelin tüm parametrelerinin işlenebilir olduğu model olarak kabul edilmelidir. artımlı veri kümeleri optimizasyonu. Bu, sözde "talimatların ince ayarı" ile aynı kavram değildir.
Genel olarak ince ayar çok önemlidir, ancak mevcut ince ayara, özellikle de mevcut ince ayarı Kutsal Kase olarak mühürleme telaşına karşı "batıl inançlı" bir tutuma sahip olmak yanlıştır. Günümüz fiziğinin "Yüzen yalnızca iki kara bulut var".
Bir adım geri gidersek, eğer "zekayı artırma" talebi gerçekten öğretimin ince ayarıyla çözülebilirse, basit bir vektör araması yapın, bilgiyi doğrudan bağlama yerleştirin ve ardından sadece birkaç şablon yazın, yüksek olasılık var aynı veya hatta daha iyi bir Etkinin olacağını.
Herkes ince ayarı sever, belki de bu, modern zamanlarda simya becerilerinin bir tür canlanışıdır...
Büyük Model Görünümü: Dört Aritmetik İşlem
(İçeriğin bu kısmının tamamen Dylan Patel tarafından açıklanan verilere dayandığını ve güvenilirliğinin henüz doğrulanamayacağını unutmayın)
GPT-4'ün eğitimi A serisi N kartlarına dayanmaktadır. Eğitim verimliliği %30'dur. Eğitim süresi yaklaşık 2 aydır. Maliyeti yaklaşık 60 milyondur. Toplam parametre miktarı {1,7 trilyon = 110 milyar × 16 uzman model}. Tek bir problemi çözebilir. Parametreler 280 milyar civarındadır.
Başka bir deyişle, büyük model eğitim modelinde değişikliklere yol açacak birkaç temel parametre vardır.
•Eğitim verimliliği: %30'dan %60'a çıkmak, süreyi doğrudan iki katına çıkarabilir
•Artırılmış bilgi işlem gücü yoğunluğu: A serisinden H serisine ve ardından AI özel karta geçiş yapıldıktan sonra bilgi işlem gücü yoğunluğu arttı ve verimliliği etkileyen birçok mimari sorun çözülebilir.
• Bilgisayar gücü maliyetlerinde düşüş: Lao Huang (Nvidia'nın kurucusu) grafik kartında indirim yaptı ve maliyet önemli ölçüde düştü
• Parametre verimliliği iyileştirme: Modelin parametre verimliliğinde iyileştirmeye yer vardır. Önceki modele göre eski modelin parametre verimliliği genellikle birçok kez arttırılabilir. %30 oranında kullanmak mümkündür. benzer bir etki elde etmek için GPT-4 parametrelerinin kullanılması
Özetlemek gerekirse, GPT-4 düzeyinde performansa sahip bir modeli sıfırdan eğitmenin maliyeti, optimizasyon için 10 ila 20 kat daha fazla alana sahip olabilir, bu da 3 milyon ABD Dolarından 6 milyon ABD Dolarına düşürülür.Bu maliyet, startuplar için oldukça uygun maliyetlidir. ve büyük şirketler daha kabul edilebilirdir.
Ve bu değişikliğin tamamlanması yaklaşık 2 yılı bulabilir.
Şu anda ana akım büyük model teknolojisi hala transformatöre dayanıyor, altyapı değişmedi ve mucizeler yaratmak için simyayı geliştirme ve parametreler ekleme fikri tükenmedi. GPT-4'ün eğitimi yüksek hesaplama gücü sınırlamaları esas alınarak gerçekleştirilmekte ve eğitim süresi yeterince uzun olmamaktadır.
Parametreler eğitim süresiyle doğrusal olarak büyüyorsa, GPT-4 benzeri mimariye sahip bir model için parametrelerin üst sınırı 10 trilyon civarında olabilir, yani eğitim süresinin (x2) iki katı, eğitim süresinin (x2) iki katı kadar uzun olabilir. Paralel grafik kartı (×2) ile eğitim verimliliği yarısı kadar hızlı (×1,5), parametre verimliliği yarısı kadar yüksek (×1,5) ve nihai sonuç on kat daha iyi. Silikon Vadisi'nin risk iştahı tarzına göre, performansın iyileşip iyileşmediğine bakılmaksızın bu parametreye büyük olasılıkla bir yıl içinde ulaşılacak.
Ancak 10 trilyon parametreye ulaştıktan sonra LLM'nin hala mucizeler yaratmak için parametreleri artırma fikrini kullanıp kullanamayacağı tamamen bilinmiyor.
Parametrelerin sayısı model performansını azalan bir oranda artırırsa, o zaman 10 trilyonun bir engel teşkil etmesi muhtemeldir. Bununla birlikte, parametre sayısının marjinal bir artışla model performansını iyileştirdiğine dair bir varsayım da vardır; "bir kişi yeterince akıllıysa, her şeyi hızlı bir şekilde öğrenebilir." İlki sorun değil, ancak ikincisi gerçekleşirse modelin performansı katlanarak artabilir ve bundan sonra ne olacağı tamamen tahmin edilemez.
İksiri tahmin etmek zordur ama bir şirketin stratejik ritmini tahmin etmek kolaydır. Toplam parametresi 10 trilyon olan bir model, ister Google/MS/APPL gibi bir dev ister daha küçük bir OpenAI olsun, çoğu kuruluş için dönüm noktası düzeyinde bir son noktadır ve bazı teknik araştırmaların durdurulup yapılması mümkündür.
İşletmelerin/sermayenin risk tercihi “dayanıklılık süresine” dönüştürülebilir, dayanma süresinin tamamı yoğun bir şekilde masraf yakıyorsa 6 ayı aşmak zor olacaktır. İnsan işçiliği, genellikle 5 yıl veya daha uzun bir döngüde yeterince hızlı büyümüyor. Dolayısıyla 5 yıl içerisinde modelin limit parametre miktarı tahmin edilebilecektir ki bu da 20 trilyondan 50 trilyona kadar olmalıdır. Süreç/mimaride yeniden büyük bir atılım gerçekleşmediği sürece bu büyüklük mertebesini aşma olasılığı çok düşüktür.
Çok yöntemli: Odadaki Fil
Multimodalite odadaki fildir ve yarış pistinin manzarasını derinden etkileyebilir.
Multimodal'ın basit tanımı şudur: birden fazla modal bilginin girişi ve çıkışı için destek. Bu tanım oldukça gevşektir, örneğin piyasada çok modlu giriş yapabildiğini iddia eden bazı ürünler aslında ChatBot'un dışında bulunan bir OCR katmanıdır. Multimodalite tanımını tam olarak karşılayan modeller de mevcut ancak performansları pek de gurur verici değil. Hatta GPT-4'ün görüntü multi-modal giriş yeteneği henüz geniş bir şekilde açılmamıştır ve bu fonksiyonun pek stabil olmadığı görülmektedir.
Ancak çok modluluğun piyasaya sürülmesi çok uzakta değil. GPT-5'in çoklu modaliteyi doğal olarak destekleme olasılığı yüksektir, yani yapıyı yeniden tasarlaması ve yeniden eğitmesi gerekir. Yukarıdaki mantığa göre, büyük modelin parametrelerinin hala 10 ila 50 kat büyüme payı vardır ve buna çok modlu yeteneklerin dahil edilmesi yeterli olmalıdır. Dolayısıyla 2 yıl içinde yüksek kullanılabilirliğe ve yüksek performansa sahip multimodal bir modelin ortaya çıkması beklenebilir, iyimser olarak 1 yıla yakın bir süre.
Multimodalite odadaki fildir, herkes eninde sonunda böyle bir şeyin olacağını biliyor, ancak birçok ürün/araştırma/strateji bunun varlığını görmezden geliyor, dolayısıyla kilit kısımlarda yanlış kararlar veriliyor.
Örneğin, tek imajlı modeller teorik olarak çok modlu modeller tarafından ciddi şekilde baskı altına alınabilir, ancak çoğu araştırma/yatırım şu anda bu konuyu göz ardı ediyor ve bu da bazı imaj odaklı şirketlerin aşırı değerlenmesine yol açıyor. Bu şirketlerin gelecekte teknik engelleri aşıp hizmet sağlayıcılara dönüşmeleri muhtemeldir.Değerleme sistemleri teknoloji şirketleri yerine hizmet sağlayıcıları referans almalıdır.
"Yatırım insana bağlıdır, aynı ekip işi dönüştürebilir" hikayesini anlatmak istiyorsanız, bunu ben söylememiş gibi davranın. Efsaneler her zaman vardır ama araştırma yaparken onlara inanamazsınız.
GPT-4'ü kim eğitebilir: Evet, ancak gerekli değil
İksirlerin rafine edilmesi o kadar uzun sürmüyor ve büyük şirketler grafik kartları satın alıyor. Çok açık olan bir şey şu ki, bir yıl içinde büyük şirketler GPT-4 düzeyindeki modelleri eğitebilecektir. Ancak antrenman yapıp yapmama başka bir sorudur.
Oyun alanında, "Yuanshin Yuanshen oynuyor" adı verilen klasik bir öneri vardır, yani: oyuncular Yuanshen'i veya Yuanshen'in rakip bir ürününü oynamayı tercih edebildiğinde, eğer rakip ürün Yuanshen kadar iyi değilse, o zaman Orijinal Tanrı'yı oynayın .
Bu "kazanan her şeyi alır" yaklaşımı büyük ölçekli model endüstrisi için de geçerlidir. Bir şirket OpenAI'yi takip ederse, altı aylık bir araştırma ve geliştirme sürecinin ardından, GPT-4'ün %90'ına benzer bir performansa sahip kendi büyük ölçekli modelini pazara sunmayı umarak piyasaya sürer. Bu durumda şirket aşağıdaki sorunlarla karşı karşıya kalacaktır:
• OpenAI, bulut kaynaklarının ölçek avantajına ve daha düşük maliyete sahiptir
•OpenAI'nin API'si ürün kodlarında yaygın olarak kullanılmaktadır ve yerini alması zordur.
•Şirketin ürün performansı hala GPT-4'ü geçmiyor
•OpenAI'nin yeni nesil ürünü (muhtemelen GPT-5) piyasaya sürülmek üzere
Şirketin ciddi bir baskı altında olduğu görülüyor. GPT-4'ü eğitmek yerine doğrudan yeni nesil modele bahis oynamak (GPT-5'e kıyasla) daha iyidir. O zaman sorun "benzer rakip ürün sorunu"ndan "teknolojik yenilik sorunu"na dönüşecektir. Bu küçük şirketler için dayanılmaz bir yüktür.
Dolayısıyla "GPT-4'ü kim eğitebilir" tartışması stratejik açıdan ölü bir sorudur. Bu konuyu düşünmek yerine daha kesin ve daha fazla fırsat içeren bir yön bulmak daha iyidir.
Yapay zeka girişimlerine yönelik tavsiyeler: Performansa öncelik verin, kalmaktan kaçının
Yazar, langchain'den şikayetçi birçok makale yazmıştır. Bunun temel nedeni, langchain'in geliştiricilere performansı artırmasına yer bırakmamasıdır. Buna örtmeceli bir şekilde "evrensel çerçeve" denir. Evrenselliği sağlamak amacıyla, çok yönlü diyalog ve ince ayar yoluyla uygulanan format kontrolü gibi büyük modellerin performansının iyileştirilmesine yönelik birçok alan terk edilir. Benzer şekilde, rehberlik/Auto-GPT/BabyAGI vb.'nin hepsi "ömür boyu kullanılabilecek bir çerçeve" olmak istiyor.
Nesnel bir gerçek şu ki, OpenAI Mayıs ayında İşlev Çağrısı'nı yayınladı ve koddaki pek çok sorunlu yer daha iyi uygulama çözümlerine sahip ve daha iyi bir çözümü uygulamanın maliyeti, ürün kodunun önemli bölümlerini yeniden düzenlemektir. Ağustos ayında OpenAI, GPT-3.5'te ince ayar yapma izinlerini yayınladı ve çıktının hassas kontrolünü gerektiren birçok bağlantının yeni potansiyel çözümleri var.
Bu nedenle startup'ların önemli bir seçimle karşı karşıya kalması gerekiyor: ① performansı iyileştirmeyi ve ürünleri sürekli olarak yeniden düzenlemeyi mi, yoksa ② yeni özelliklerin kullanımını azaltıp geliştirme için her zaman eski özellikleri mi kullanmayı seçmeliler?
Yeni teknoloji uygulamalarının girişimciliği için "geliştirme" sadece kod yazma sürecini değil, aynı zamanda ürün fonksiyonlarının/stratejilerinin "üst sınırını" da temsil eder. Kontrol edilebilen performans ne kadar yüksek olursa, ürünün teorik işlevleri de o kadar fazla olur ve stratejik esneklik de o kadar yüksek olur.
Teknolojinin gelişimi önceden tahmin edilemez ve küçük teknolojik yenilikler rekabet ortamında oldukça hassas değişiklikler getirebilir.Start-up şirketlerinin teknolojinin gelişimine karşı kırılgan olmama becerisine sahip olmaları gerekir.
——İnsan deyimiyle: Performansa öncelik verilmeli ve kalmaktan kaçınılmalıdır. Geliştirme düzeyinde daha fazla yeni özellik kullanın; ürün tarafında yeni özelliklerin hangi işlevleri yapabileceğini düşünün; stratejik tarafta yeni özelliklerin strateji üzerindeki etkisini düşünün.
"Qin Geçidi Üzerine"de, Qin Hanedanlığı'nın kurulmasından sonra, sivil ayaklanma olasılığını ortadan kaldırmak için dünyanın her yerinden gelen metal silahlara el konulduğu ve on iki bronz figüre döküldüğü belirtildi. Ancak Qin Hanedanlığı herkesin bildiği gibi kısa ömürlüydü. Değişime dikkat etmek, onu görmezden gelmekten daha faydalıdır.
Yeni kurulan yapay zeka şirketlerine tavsiyeler: uygulamaları güvenle yapın
Yeni kurulan şirketlerin başvurularında çok yaygın bir gizli tehlike var: Büyük şirketlerin girişi. Buradaki büyük şirketler arasında yalnızca Meta/Byte/Tencent gibi uygulama devleri değil, aynı zamanda OpenAI gibi yapay zeka endüstrisinin yukarı akışı da yer alıyor.
Büyük şirketlerin pazara girmesinin genellikle iki nedeni vardır: ürün fırsatlarını geliştirmek ve yukarı ve aşağı hareket etmek.
"Ürün fırsatlarının planlanması" gerçek anlamdadır. Büyük şirketler bu yönün takip edilmeye değer olduğunu düşünüyor ve bunu yapıyorlar.
"Üst ve alt akışı kesmek" çoğunlukla çaresiz bir harekettir. Bunun nedeni OpenAI ile karşılaştırılabilecek büyük bir model geliştirmiş olmam olabilir. Ancak büyük modellerde kazanan her şeyi alır sorunu nedeniyle hiç kullanıcı yok ve bu da sonuç olarak yakma maliyetlerinde, gelir yok ve veri yok; bu da Performansın giderek geride kalmasına yol açıyor. Şu anda, alt akışa geçmek, özel uygulamalar geliştirmek ve kendi teknolojinizi kullanmak tek seçenektir.
Tarihsel deneyime göre, organizasyonel yapı sorunları nedeniyle bir şirket alt kesime ne kadar yakınsa teknolojisinin geride kalma olasılığı da o kadar yüksek olur ve teknolojisi ne kadar geride kalırsa alt tarafta o kadar fazla çalışmak zorunda kalır. Bu sözde teknoloji şirketleri eninde sonunda uygulama katmanı şirketleriyle aynı ekolojik niş için rekabet edecek.
Ancak uygulama katmanının savaş alanında yapay zeka teknolojisi kısa bir süreden beri ortalıkta olmadığından etkili ve yeniden kullanılabilir ölçek avantajlarına sahip değil.Büyük şirketlerin ve startupların başlangıç noktaları benzer. Büyük şirketlerle karşılaştırıldığında startup'lar daha verimlidir ve daha derin içgörülere sahiptir, bu da avantajlardan yararlanmayı kolaylaştırır.
MS Azure için hemen hemen tüm tanıtım materyallerinin artık OpenAI etrafında dönmesi, dikkat edilmesi gereken bir nokta, ancak Microsoft kadar büyük bir şirket, platform olarak tamamen OpenAI'ye güveniyor ve bu da startup'ların yapay zeka alanında doğal avantajlara sahip olduğunu kanıtlıyor.
Elbette bazı bulut satıcıları start-up'ların liderliğini kabul edemeyip tüm pazarı tek başına yemek isteyebilir. Pahalıdır, yavaştır ve acil bir tehdit değildir.
Gerçek şu ki, çok kısa ömürlü olan bazı yapay zeka uygulama yolları var, ancak hala keşfedilmemiş birçok uzun ömürlü yol var ve yapay zeka uygulamaları kazananların hepsini almıyor. Uygulamalardan platformlara veya teknolojilere doğru genişlemek de daha uygun bir yoldur.
Bu nedenle büyük şirketlerin uygulama katmanını istila etme kabiliyetine rasyonel bir bakış açısıyla bakmalıyız. Bizim önerimiz AI startuplarının güvenle başvuru yapabilmesidir.
Yapay zeka girişimlerine tavsiyeler: Ürün yaşam hatlarına dikkat edin
Daha önce de belirttiğimiz gibi AI start-up'ları güvenli bir şekilde başvuru yapabilir ancak AI modelinin performansını dikkate almalı ve kalmaktan kaçınmalıdırlar. Bu durum, yapay zeka ürünlerinin talep tabanını kaybedip birkaç ay içinde yavaş yavaş sönmesiyle doğrudan ortaya çıkıyor ve bu durum sıklıkla yaşanabiliyor.
Yapay zeka uygulamalarının büyük ölçekli model hizmetlerini kullanması gerekiyor ve büyük ölçekli modellerin performansı artmaya devam ediyor. Bu iyileştirme, "hız" gibi tek boyutlu bir iyileştirme değil, çıktı kalitesinde, çıktı uzunluğunda ve çıktı kontrol edilebilirliğinde genel bir değişikliktir. Teknolojideki her önemli yükseltme, mevcut uygulama katmanı ürünlerinin teknolojisinin geride kalmasına ve yeni fırsatlar ve rakipler yaratmasına neden olacaktır.
Yapay zeka uygulamalarının strateji/ürün/teknoloji açısından avantajlarını ve gerekliliğini sürdürdüğü zamana "yaşam çizgisi" adını veriyoruz.
•Office365 Copilot'u desteklediğinde, PPT çizmek için yapay zeka kullanan ürünler avantajlarını kaybedecek
• GPT-3.5 ortaya çıktığında Jasper gerekliliğini yitirdi
**Yapay zeka sektörünün hızla geliştiği göz önüne alındığında, sınırlı yaşam hatları normaldir. Bu nedenle yaşam çizgisinin sınırlı olduğu gerçeğini kabul edip, yaşam çizgisi daha uzun olan bir yön seçmeye çalışmak, uzun vadeli avantajların ve ürün gerekliliğinin korunmasına yardımcı olacaktır. **
Genel olarak yaşam hatları basitçe 3/6/12 aylık seviyelere bölünebilir.
•3 ay: Büyük şirketlerin yapmaya vakit bulamadığı işlevler (ofis/ChatGPT'nin yapmaya zaman bulamadığı işlevler gibi)
•6 ay: Uygulanması zordur ve mevcut çözümlere entegre edilemez, ancak yapay zeka performansı geliştikçe (genel yapay zeka çerçevesi gibi) avantajlar/gereklilik ortadan kalkacaktır.
•12 ay: Avantajlar/ihtiyaçlar uzun süre var olabilir ve büyük şirketlerden/teknolojik gelişmelerden (Hugging Face gibi) kolay kolay etkilenmez.
*Platform ürünlerinin yaşam döngüsü mutlaka uzun değildir. Sonuçta mağazalar da platformlardır.
Yeni kurulmuş bir şirket yönünü belirlediğinde sadece 6 aylık bir cankurtaran halatına ihtiyaç duyar, 12 aylık bir cankurtaran halatına ulaşmak zordur.
Ürün yaşam çizgisi sona erdiğinde genellikle iki durumla karşılaşılır. İlk durum, avantajların ortadan kalkması ve ürün yükseltme teknolojisinin yeniden yapılandırılmasının gerekmesidir. Lütfen yukarıdaki "Önce performans" bölümüne bakın; ikinci durum ise gerekliliğin ortadan kalkması ve ürünün kademeli olarak değiştirilmesidir. Şu anda ürün, hala birkaç aylık "operasyon" ömrü var, yeni başlayanların bir sonraki yönü seçmesi için yeterli.
Yapay zeka girişimlerine tavsiyeler: Web3+AI bunu yapabilir
Şu anda Web3+AI teması etrafında birçok girişimci proje mevcut ancak teknoloji gelişiminin belirsizliği ve pazarın erken aşamaları göz önüne alındığında, Web3+AI konusu gelecekte hala birçok değişkene sahip olacak.
Bu makale, belirsizlikler arasında doğru olma olasılığı yüksek olan kesinlikleri bulmayı amaçlamaktadır.Bu nedenle, yazar hala biraz ilham almayı ve yeni kurulan şirketler ve ilgili araştırmacılar için referans fırsatı olabilecek bazı konu ve yönler önermeyi umuyor.
• Egemenliğin ortadan kaldırılması/merkezi olmayan yönetim
Şu anda yapay zeka sektörünün liderleri yalnızca kapalı kaynak modelleri sağlıyor ve sürekli hizmet sunumunun istikrarı, şeffaflığı ve tarafsızlığı kontrol edilemez. Egemenliğin ortadan kaldırılması/merkezi olmayan yönetim, yapay zeka endüstrisinde önemli bir tema haline gelebilir; yani, egemenlikten uzaklaşma/merkezsizleştirmenin temel mimarisine dayanan istikrarlı, şeffaf ve tarafsız yapay zeka hizmetleri sağlanabilir.
Egemenliğin ortadan kalkması/merkezi olmayan yönetim, merkezi/egemen yapay zeka şirketlerinin ahlak dışı maliyetlerini önemli ölçüde artırabilecek ve onların askeriye, tarikatlar, siyaset ve diğer alanlarda yapay zeka modellerini kullanmalarını engelleyebilecek bir “alternatif” ve “caydırıcılık”tır.
Aşırı durumlarda, merkezi/egemen yapay zeka hizmetleri herhangi bir nedenden dolayı artık mevcut/güvenilir olmadığında, egemenlikten arındırılmış/merkezi olmayan yapay zeka, tek tek ülkelerin/bölgelerin ve hatta insanlığın yapay zekayı kaybetmesini önlemek için yüksek düzeyde kullanılabilir hizmetler sağlamaya devam edebilir.
•Bilgisayar gücünün pratik kullanımı
ETH'nin PoW'dan PoS'a geçişinin arkasında eleştirilen "madencilik değer yaratmaz" ikilemi yatıyor. Web3 ve yapay zekanın birleşimi, stok bilgi işlem gücünün sindirilmesini gerçekleştirmek ve bilgisayarların büyümesini teşvik etmek için bilgi işlem gücü için pratik bir senaryo sağlayabilir. toplam bilgi işlem gücü vb. Etki.
•Sanal Varlıklaştırma
Yapay zeka, bilgi işlem gücü ve depolamaya özgü bir varlıktır. Web3 ve yapay zekanın birleşimi, yapay zekayı sanal varlıklara dönüştürmek için bir kanal sağlayabilir ve yapay zeka endüstrisinin değer somutlaştırmasını gerçekleştirirken Web3 için gerçek yerel sanal varlıklar oluşturabilir.
•Web3 uygulamalarına yönelik değişkenler
Web3 ve yapay zekanın birleşimi, Web3 uygulamalarına yeni işlevsel noktalar ve büyüme fırsatları getirebilir ve mevcut Web3 uygulamaları tamamen yeniden yapılabilir.
Sonunda yazılmıştır: Eylül ayındayız, yapay zeka hâlâ iş kurmaya değer mi?
Önce sonuçtan bahsedeyim: Değerlidir ve bu sonucun Çin Yeni Yılı'na kadar kullanılması yüksek bir ihtimaldir.
İnsanların durumlara ilişkin algıları genellikle önyargılıdır ve ben de bir istisna değilim. Bazıları aşırı iyimser, bazıları ise aşırı kötümser. Yazar bir zamanlar iki ekiple iletişim kurmuştu. Bir ekip gelecek yılın ilk çeyreğinde AI Agent üretebileceğini düşünüyor, diğer ekip ise AI'nın yalnızca bilgi tabanı yönetimi için uygun olduğunu düşünüyor. Açıkçası ilki çok iyimser, diğer ekip ise AI'nın yalnızca bilgi tabanı yönetimi için uygun olduğunu düşünüyor. ikincisi çok kötümser.
Uzun vadeli planlar yaparken, fazla iyimser ya da fazla kötümser olmak tuzaklara yol açacaktır ve yaygın olarak dolaşan açıklamalar genellikle bu son derece önyargılı açıklamalardır ve bağımsız düşünmeyi son derece değerli kılar. Dolayısıyla okuyucunun bu makalenin görüşlerini kabul edip etmemesine bakılmaksızın, okuyucu okuma sürecinde bağımsız düşünme ve yargılamaya sahip olduğu sürece yazar son derece memnun olacaktır.
Son olarak reklam verin. Eğer iyi bir yapay zeka başlangıç fikriniz varsa veya zaten tamamlanmış bir projeniz varsa, lütfen NGC arkadaşlarınızla (benim gibi) iletişim kurmaktan çekinmeyin.
Sorunları basitlik, uygun maliyet, hız, benzersizlik ve etkileyici bir ürün pazarı uyumu ile karakterize edilen çözümlerle çözmeyi amaçlayan, yıkıcı inovasyona sahip projeleri belirliyoruz.
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
NGC Ventures: Mevcut yapay zeka yolu bir iş kurmaya değer mi?
Yazar: Cherry, Yatırım Müdürü, NGC Ventures
Önsöz
Bu makalenin ilk taslağı ağustos ayının sonunda bir dinlenme gününde balık tutarken tamamlandı.Aceleyle yayınlandıktan sonra birçok tavsiye aldım, bu yüzden yazar insanları güldürmemek için bazı içerik ekledi, değiştirdi ve sildi.
Bu makalenin içeriği esas olarak yapay zeka sektörünün mevcut durumunu yatırım perspektifinden değerlendirmekte, farklı şirketlerin teknoloji/ürün rotalarını yansıtmakta ve tahmin etmekte ve yapay zeka endüstrisindeki şirketlerin stratejilerini soyut olarak özetlemektedir. Bu nedenle, belirli teknolojiler söz konusu olduğunda kaçınılmaz olarak bazı eksiklikler söz konusudur, bu nedenle lütfen sabırlı olun.
Ancak son tahlilde, makale yayınlayabilen birçok büyük şirket hâlâ parçalanmış durumda ve hiç kimse bu makalenin içeriğinin doğruluğunu değerlendiremeyecek gibi görünüyor. Tıpkı GPT-3.5'i GPT-4 ile puanlamak gibi makul gibi görünse de dikkatli düşündüğünüzde biraz soyut kalıyor.
Bu nedenle yazar, bu makalenin belirsiz endüstriler hakkında bilgi toplandıktan sonra oluşturulmuş bir "karar" olarak değerlendirilmesini önermektedir. Bir hüküm olduğundan, konumun açık olması ve ifadenin anlamlı olması gerekir. Doğru olup olmadığına gelince, zaman içinde test edelim.
Yazar her zaman yeni endüstrilerin gürültülü olduğuna inanmıştır, bu nedenle beyninizi daha fazla kullanmanın ve yargılamaya cesaret etmenin her zaman doğru olduğunu düşünmüştür. Yargı sorusunda kör tahminde bulunma oranı %50, üst üste üç kez yanlış tahmin etme olasılığı ise %12,5'tir. Yazı tura atarak yargılamak bile anlamlıdır. Yargılamak korkunç değil, en korkunç olanı ise yargının doğruluğunun yazı tura atmaktan daha düşük olmasıdır.
Bu makaleye resmi olarak başlamadan önce, bu makale için değerli ilham ve veri kaynakları sağlayan aşağıdaki kişilere çalışmaları için teşekkür etmek istiyorum. Elbette bu makaledeki çıkarımların birçoğu bu eserlere dayandığı için, eğer hata içeriyorsa ya da yazarın yanlış bir anlayışı varsa, bu makaledeki çıkarımlar artık sağlam olmayacaktır.Okuyucuların kendi kararlarını vermeleri rica olunur. Bu makale yatırım tavsiyesi niteliğinde değildir ve neredeyse hiç yatırım tavsiyesi niteliği taşımaz.
•Düşünce Zinciri Merkezi: Büyük Dil Modellerinin Akıl Yürütme Performansını Ölçmeye Yönelik Sürekli Bir Çaba(
•LIMA: Uyum için Daha Az Daha Fazladır(
•Haziran 2023, Talimat Ayarlamasının Aşama İncelemesi(
•GPT-4 Mimarisi, Altyapı, Eğitim Veri Seti, Maliyetler, Vizyon, MEB(
Tamam, bu makaleye resmi olarak başlayalım.
Büyük Model: Siber Roketi Başlat
2023'te yapay zekayı tartışmanın ilk adımı, büyük ölçekli model girişimciliğin hâlâ yapılıp yapılamayacağını tartışmaktır.
Büyük model (ön eğitim) artık roket fırlatma problemine dönüştürüldü, ateş başlatıldığı ve yönü doğru olduğu sürece herkes bunu yapabilir. Büyük modellerin eğitiminin siber roket fırlatmaya benzediği söylenebilir.
Mantığa aykırı olan şey, yatırımcıların büyük modelleri eğitmenin zorluğunu hafife alması, ancak gerçek roketleri fırlatmanın zorluğunu abartmasıdır. Yatırımcılar, aynı 60 milyon ABD doları tutarındaki maliyetle, başarısız bir roket fırlatması için ikinci bir şansın olduğunu hissedecekler ve büyük bir modeli eğitmedeki başarısızlık, para israfı olarak değerlendirilecek.
GPT-4, OpenAI'nin GPU kullanım verimliliğinde hâlâ 60 milyon ABD doları tüketiyor (yaklaşık %30 olduğu rapor ediliyor). Bu bir {performans=verimlilik×maliyet} meselesidir ve performans bir duvardır. Diğer start-up'lar %30×60 milyon=18 milyon dolardan daha yüksek bir performans etkisi elde edemezse, kullanıcıların doğrudan GPT-4'ü kullanmaları daha iyi olur.
Şu anda büyük modeller yetiştirdiğini iddia eden birçok firmanın finansman turları 1 milyon ila 5 milyon ABD doları aralığında. Bununla birlikte, en büyük fonlara sahip şirketlerin bile yalnızca tek bir fırlatma için yeterli mühimmatı var. Ve bu lansmanın GPU kullanım oranı %100'e ulaşsa bile GPT-4'ü aşmak zor.
Bu açıdan bakıldığında roket fırlatmak daha iyidir, çünkü mevcut roketlerin çoğu uyduları gökyüzüne taşıyan fırlatma araçlarıdır ve tek yük kapasitesi sınırlıdır, bu nedenle küçük roket şirketleri diğerlerinin vakit bulamadığı uydu siparişlerini alabilmektedir. çalıştırmak.
Büyük modeller farklıdır.Büyük modellerin yatay genişlemesinin marjinal maliyeti yalnızca bilgi işlem gücünün maliyetidir ve bilgi işlem gücünün maliyeti elastik olarak genişletilebilir, bu da büyük model şirketler için her siparişin kârının bedava kâr olduğu anlamına gelir. , neredeyse hiçbir ek maliyet yoktur ve taahhüt kapasitesi çok büyüktür. Yeni, kalitesiz, büyük ölçekli bir model firmanın taşma talebi alması zordur.
Eğitim maliyetleri önemli ölçüde azaltılmadığı sürece, GPT-4'ün tüm mimarisi bilinse bile, kısa vadede pazara sürülebilecek büyük modeller yapmak birçok firma için zor olacaktır.
Özelleştirme: "Kazanan her şeyi alır" sorunuyla yüzleşme
Donanım endüstrisinde yaygın bir olgu, özelleştirilmiş gereksinimler yoluyla erken kar elde etmek ve ardından erken kar yoluyla teknolojik atılımlar (veya bağlantılar) elde etmektir. Bununla birlikte, büyük model endüstrisinde kişiselleştirme, yeni girenler için pek bir çıkış yolu değildir.
Bu yargıya ilişkin açıklama çok basit: İnce ayarlı modellerin çoğu GPT-4'e yetişemiyor, daha az veri gereksinimi var. GPT-4 ile diğer modeller arasındaki performans farkı devam ettiği sürece özelleştirme büyük model firmalar için çözüm olamaz.
Bunun çok tipik bir örneği, kurumsal müşterilere hizmet vermek için ince ayarlı GPT-3 kullanan Jasper'dır. Ancak OpenAI, ChatGPT'yi (GPT-3.5) herkese açık hale getirdikten sonra kullanıcıları hızla kaybetti. Çünkü Jasper'ın çıktısı, genelleme yetenekleri zayıf olan ve kurum içi kullanımla sınırlı olan bir "geri sürüm" kullanmaya gerek kalmadan, GPT-3.5'in girilmesiyle kolayca elde edilebilir.
Yeni şirketlerle karşılaştırıldığında Jasper'ın geliştirme için en azından GPT-3'ten GPT-3.5'e kadar bir pencere süresi vardır. Ancak yeni şirketlerin artık düşük maliyetli ve yüksek hızlı GPT-3.5 ile yüksek performanslı GPT-4'ün aynı anda ortaya çıkmasıyla yüzleşmesi gerekiyor.
Bu nedenle, teknolojik atılımlara ulaşmak için kişiselleştirme yoluyla kar biriktirme yolunun hayatta kalma olasılığı çok düşüktür.
İnce ayar: gerekli, batıl inançlara kapılmayın
Mevcut yapay zeka endüstrisinin ince ayar konusunda gerçekçi olmayan beklentileri var ve bu beklenti, spesifik teknik uygulama ve makro teknik ritim açısından olduğundan fazla tahmin ediliyor.
Şu anda sektörde tartışılan ince ayar çoğunlukla "önceden eğitilmiş modele dayalıdır, böylece insan niyetleriyle tutarlı cevaplar üretebilir". Bu tür ince ayarlara "hizalama" adı verilebilir; bu, büyük modele zeka eklemek yerine yanıtları insanın niyetiyle hizalamak anlamına gelir.
Çok sayıda makalenin araştırma sonuçlarına göre, büyük modellere ilişkin bilgilerin esas olarak ön eğitimden gelmesi gerekirken, ince ayar daha çok hizalama için kullanılıyor.
Basit açıklama, ön eğitimin beyin boyutunu belirlemesi ve ince ayarın ana dili belirlemesidir. Önceden eğitilmiş modele ince ayar yapmak, "okuma yazma bilmemeyi ortadan kaldırma" sürecidir.
Ancak ince ayar, sektörde sıklıkla modele "zeka ekleme", yani model performansını iyileştirme ve ince ayar yoluyla model bilgisini artırma yöntemi olarak görülüyor. Bu şekilde "Kutsal Kase"nin ortaya çıktığına inanılıyor. yapay zekaya" ulaşılabilir. Bu düşünce tarzı biraz taraflıdır.
Her şeyden önce, modelin performansı artmamıştır, ancak insan niyetlerini daha iyi hizalayabilir.Görevin karmaşıklığı modelin performansını aşarsa, ince ayar beklenen sonuçları vermeyecektir. Bu, insan beynine kuantum hesaplamaları yaptırmak gibidir, yapılamıyorsa eğitim meselesi değildir.
İkinci olarak, "niyet hizalama" kısmında "bilgi takviyesi" gerçekleştirilir ve etki "papağanlamaya" daha çok benzer. Yani model, anlamını anlamadan uzmanların söylediklerini taklit ediyor. Her ne kadar pek çok sektör "tekrarlayarak" iyi çözümler elde edebilmiş olsa da (sonuçta çoğu sektör karmaşık değildir...), uzun vadede takip etmemiz gereken sonucun bu olmadığı açıktır.
Son olarak, "ek veri setlerinin eklenmesi, model performansının iyileştirilmesi ve model bilgisinin arttırılması" eğitimi, "artımlı öğrenme/sürekli öğrenme" yeteneğine sahip, yani modelin tüm parametrelerinin işlenebilir olduğu model olarak kabul edilmelidir. artımlı veri kümeleri optimizasyonu. Bu, sözde "talimatların ince ayarı" ile aynı kavram değildir.
Genel olarak ince ayar çok önemlidir, ancak mevcut ince ayara, özellikle de mevcut ince ayarı Kutsal Kase olarak mühürleme telaşına karşı "batıl inançlı" bir tutuma sahip olmak yanlıştır. Günümüz fiziğinin "Yüzen yalnızca iki kara bulut var".
Bir adım geri gidersek, eğer "zekayı artırma" talebi gerçekten öğretimin ince ayarıyla çözülebilirse, basit bir vektör araması yapın, bilgiyi doğrudan bağlama yerleştirin ve ardından sadece birkaç şablon yazın, yüksek olasılık var aynı veya hatta daha iyi bir Etkinin olacağını.
Herkes ince ayarı sever, belki de bu, modern zamanlarda simya becerilerinin bir tür canlanışıdır...
Büyük Model Görünümü: Dört Aritmetik İşlem
(İçeriğin bu kısmının tamamen Dylan Patel tarafından açıklanan verilere dayandığını ve güvenilirliğinin henüz doğrulanamayacağını unutmayın)
GPT-4'ün eğitimi A serisi N kartlarına dayanmaktadır. Eğitim verimliliği %30'dur. Eğitim süresi yaklaşık 2 aydır. Maliyeti yaklaşık 60 milyondur. Toplam parametre miktarı {1,7 trilyon = 110 milyar × 16 uzman model}. Tek bir problemi çözebilir. Parametreler 280 milyar civarındadır.
Başka bir deyişle, büyük model eğitim modelinde değişikliklere yol açacak birkaç temel parametre vardır.
•Eğitim verimliliği: %30'dan %60'a çıkmak, süreyi doğrudan iki katına çıkarabilir
•Artırılmış bilgi işlem gücü yoğunluğu: A serisinden H serisine ve ardından AI özel karta geçiş yapıldıktan sonra bilgi işlem gücü yoğunluğu arttı ve verimliliği etkileyen birçok mimari sorun çözülebilir.
• Bilgisayar gücü maliyetlerinde düşüş: Lao Huang (Nvidia'nın kurucusu) grafik kartında indirim yaptı ve maliyet önemli ölçüde düştü
• Parametre verimliliği iyileştirme: Modelin parametre verimliliğinde iyileştirmeye yer vardır. Önceki modele göre eski modelin parametre verimliliği genellikle birçok kez arttırılabilir. %30 oranında kullanmak mümkündür. benzer bir etki elde etmek için GPT-4 parametrelerinin kullanılması
Özetlemek gerekirse, GPT-4 düzeyinde performansa sahip bir modeli sıfırdan eğitmenin maliyeti, optimizasyon için 10 ila 20 kat daha fazla alana sahip olabilir, bu da 3 milyon ABD Dolarından 6 milyon ABD Dolarına düşürülür.Bu maliyet, startuplar için oldukça uygun maliyetlidir. ve büyük şirketler daha kabul edilebilirdir.
Ve bu değişikliğin tamamlanması yaklaşık 2 yılı bulabilir.
Şu anda ana akım büyük model teknolojisi hala transformatöre dayanıyor, altyapı değişmedi ve mucizeler yaratmak için simyayı geliştirme ve parametreler ekleme fikri tükenmedi. GPT-4'ün eğitimi yüksek hesaplama gücü sınırlamaları esas alınarak gerçekleştirilmekte ve eğitim süresi yeterince uzun olmamaktadır.
Parametreler eğitim süresiyle doğrusal olarak büyüyorsa, GPT-4 benzeri mimariye sahip bir model için parametrelerin üst sınırı 10 trilyon civarında olabilir, yani eğitim süresinin (x2) iki katı, eğitim süresinin (x2) iki katı kadar uzun olabilir. Paralel grafik kartı (×2) ile eğitim verimliliği yarısı kadar hızlı (×1,5), parametre verimliliği yarısı kadar yüksek (×1,5) ve nihai sonuç on kat daha iyi. Silikon Vadisi'nin risk iştahı tarzına göre, performansın iyileşip iyileşmediğine bakılmaksızın bu parametreye büyük olasılıkla bir yıl içinde ulaşılacak.
Ancak 10 trilyon parametreye ulaştıktan sonra LLM'nin hala mucizeler yaratmak için parametreleri artırma fikrini kullanıp kullanamayacağı tamamen bilinmiyor.
Parametrelerin sayısı model performansını azalan bir oranda artırırsa, o zaman 10 trilyonun bir engel teşkil etmesi muhtemeldir. Bununla birlikte, parametre sayısının marjinal bir artışla model performansını iyileştirdiğine dair bir varsayım da vardır; "bir kişi yeterince akıllıysa, her şeyi hızlı bir şekilde öğrenebilir." İlki sorun değil, ancak ikincisi gerçekleşirse modelin performansı katlanarak artabilir ve bundan sonra ne olacağı tamamen tahmin edilemez.
İksiri tahmin etmek zordur ama bir şirketin stratejik ritmini tahmin etmek kolaydır. Toplam parametresi 10 trilyon olan bir model, ister Google/MS/APPL gibi bir dev ister daha küçük bir OpenAI olsun, çoğu kuruluş için dönüm noktası düzeyinde bir son noktadır ve bazı teknik araştırmaların durdurulup yapılması mümkündür.
İşletmelerin/sermayenin risk tercihi “dayanıklılık süresine” dönüştürülebilir, dayanma süresinin tamamı yoğun bir şekilde masraf yakıyorsa 6 ayı aşmak zor olacaktır. İnsan işçiliği, genellikle 5 yıl veya daha uzun bir döngüde yeterince hızlı büyümüyor. Dolayısıyla 5 yıl içerisinde modelin limit parametre miktarı tahmin edilebilecektir ki bu da 20 trilyondan 50 trilyona kadar olmalıdır. Süreç/mimaride yeniden büyük bir atılım gerçekleşmediği sürece bu büyüklük mertebesini aşma olasılığı çok düşüktür.
Çok yöntemli: Odadaki Fil
Multimodalite odadaki fildir ve yarış pistinin manzarasını derinden etkileyebilir.
Multimodal'ın basit tanımı şudur: birden fazla modal bilginin girişi ve çıkışı için destek. Bu tanım oldukça gevşektir, örneğin piyasada çok modlu giriş yapabildiğini iddia eden bazı ürünler aslında ChatBot'un dışında bulunan bir OCR katmanıdır. Multimodalite tanımını tam olarak karşılayan modeller de mevcut ancak performansları pek de gurur verici değil. Hatta GPT-4'ün görüntü multi-modal giriş yeteneği henüz geniş bir şekilde açılmamıştır ve bu fonksiyonun pek stabil olmadığı görülmektedir.
Ancak çok modluluğun piyasaya sürülmesi çok uzakta değil. GPT-5'in çoklu modaliteyi doğal olarak destekleme olasılığı yüksektir, yani yapıyı yeniden tasarlaması ve yeniden eğitmesi gerekir. Yukarıdaki mantığa göre, büyük modelin parametrelerinin hala 10 ila 50 kat büyüme payı vardır ve buna çok modlu yeteneklerin dahil edilmesi yeterli olmalıdır. Dolayısıyla 2 yıl içinde yüksek kullanılabilirliğe ve yüksek performansa sahip multimodal bir modelin ortaya çıkması beklenebilir, iyimser olarak 1 yıla yakın bir süre.
Multimodalite odadaki fildir, herkes eninde sonunda böyle bir şeyin olacağını biliyor, ancak birçok ürün/araştırma/strateji bunun varlığını görmezden geliyor, dolayısıyla kilit kısımlarda yanlış kararlar veriliyor.
Örneğin, tek imajlı modeller teorik olarak çok modlu modeller tarafından ciddi şekilde baskı altına alınabilir, ancak çoğu araştırma/yatırım şu anda bu konuyu göz ardı ediyor ve bu da bazı imaj odaklı şirketlerin aşırı değerlenmesine yol açıyor. Bu şirketlerin gelecekte teknik engelleri aşıp hizmet sağlayıcılara dönüşmeleri muhtemeldir.Değerleme sistemleri teknoloji şirketleri yerine hizmet sağlayıcıları referans almalıdır.
"Yatırım insana bağlıdır, aynı ekip işi dönüştürebilir" hikayesini anlatmak istiyorsanız, bunu ben söylememiş gibi davranın. Efsaneler her zaman vardır ama araştırma yaparken onlara inanamazsınız.
GPT-4'ü kim eğitebilir: Evet, ancak gerekli değil
İksirlerin rafine edilmesi o kadar uzun sürmüyor ve büyük şirketler grafik kartları satın alıyor. Çok açık olan bir şey şu ki, bir yıl içinde büyük şirketler GPT-4 düzeyindeki modelleri eğitebilecektir. Ancak antrenman yapıp yapmama başka bir sorudur.
Oyun alanında, "Yuanshin Yuanshen oynuyor" adı verilen klasik bir öneri vardır, yani: oyuncular Yuanshen'i veya Yuanshen'in rakip bir ürününü oynamayı tercih edebildiğinde, eğer rakip ürün Yuanshen kadar iyi değilse, o zaman Orijinal Tanrı'yı oynayın .
Bu "kazanan her şeyi alır" yaklaşımı büyük ölçekli model endüstrisi için de geçerlidir. Bir şirket OpenAI'yi takip ederse, altı aylık bir araştırma ve geliştirme sürecinin ardından, GPT-4'ün %90'ına benzer bir performansa sahip kendi büyük ölçekli modelini pazara sunmayı umarak piyasaya sürer. Bu durumda şirket aşağıdaki sorunlarla karşı karşıya kalacaktır:
• OpenAI, bulut kaynaklarının ölçek avantajına ve daha düşük maliyete sahiptir
•OpenAI'nin API'si ürün kodlarında yaygın olarak kullanılmaktadır ve yerini alması zordur.
•Şirketin ürün performansı hala GPT-4'ü geçmiyor
•OpenAI'nin yeni nesil ürünü (muhtemelen GPT-5) piyasaya sürülmek üzere
Şirketin ciddi bir baskı altında olduğu görülüyor. GPT-4'ü eğitmek yerine doğrudan yeni nesil modele bahis oynamak (GPT-5'e kıyasla) daha iyidir. O zaman sorun "benzer rakip ürün sorunu"ndan "teknolojik yenilik sorunu"na dönüşecektir. Bu küçük şirketler için dayanılmaz bir yüktür.
Dolayısıyla "GPT-4'ü kim eğitebilir" tartışması stratejik açıdan ölü bir sorudur. Bu konuyu düşünmek yerine daha kesin ve daha fazla fırsat içeren bir yön bulmak daha iyidir.
Yapay zeka girişimlerine yönelik tavsiyeler: Performansa öncelik verin, kalmaktan kaçının
Yazar, langchain'den şikayetçi birçok makale yazmıştır. Bunun temel nedeni, langchain'in geliştiricilere performansı artırmasına yer bırakmamasıdır. Buna örtmeceli bir şekilde "evrensel çerçeve" denir. Evrenselliği sağlamak amacıyla, çok yönlü diyalog ve ince ayar yoluyla uygulanan format kontrolü gibi büyük modellerin performansının iyileştirilmesine yönelik birçok alan terk edilir. Benzer şekilde, rehberlik/Auto-GPT/BabyAGI vb.'nin hepsi "ömür boyu kullanılabilecek bir çerçeve" olmak istiyor.
Nesnel bir gerçek şu ki, OpenAI Mayıs ayında İşlev Çağrısı'nı yayınladı ve koddaki pek çok sorunlu yer daha iyi uygulama çözümlerine sahip ve daha iyi bir çözümü uygulamanın maliyeti, ürün kodunun önemli bölümlerini yeniden düzenlemektir. Ağustos ayında OpenAI, GPT-3.5'te ince ayar yapma izinlerini yayınladı ve çıktının hassas kontrolünü gerektiren birçok bağlantının yeni potansiyel çözümleri var.
Bu nedenle startup'ların önemli bir seçimle karşı karşıya kalması gerekiyor: ① performansı iyileştirmeyi ve ürünleri sürekli olarak yeniden düzenlemeyi mi, yoksa ② yeni özelliklerin kullanımını azaltıp geliştirme için her zaman eski özellikleri mi kullanmayı seçmeliler?
Yeni teknoloji uygulamalarının girişimciliği için "geliştirme" sadece kod yazma sürecini değil, aynı zamanda ürün fonksiyonlarının/stratejilerinin "üst sınırını" da temsil eder. Kontrol edilebilen performans ne kadar yüksek olursa, ürünün teorik işlevleri de o kadar fazla olur ve stratejik esneklik de o kadar yüksek olur.
Teknolojinin gelişimi önceden tahmin edilemez ve küçük teknolojik yenilikler rekabet ortamında oldukça hassas değişiklikler getirebilir.Start-up şirketlerinin teknolojinin gelişimine karşı kırılgan olmama becerisine sahip olmaları gerekir.
——İnsan deyimiyle: Performansa öncelik verilmeli ve kalmaktan kaçınılmalıdır. Geliştirme düzeyinde daha fazla yeni özellik kullanın; ürün tarafında yeni özelliklerin hangi işlevleri yapabileceğini düşünün; stratejik tarafta yeni özelliklerin strateji üzerindeki etkisini düşünün.
"Qin Geçidi Üzerine"de, Qin Hanedanlığı'nın kurulmasından sonra, sivil ayaklanma olasılığını ortadan kaldırmak için dünyanın her yerinden gelen metal silahlara el konulduğu ve on iki bronz figüre döküldüğü belirtildi. Ancak Qin Hanedanlığı herkesin bildiği gibi kısa ömürlüydü. Değişime dikkat etmek, onu görmezden gelmekten daha faydalıdır.
Yeni kurulan yapay zeka şirketlerine tavsiyeler: uygulamaları güvenle yapın
Yeni kurulan şirketlerin başvurularında çok yaygın bir gizli tehlike var: Büyük şirketlerin girişi. Buradaki büyük şirketler arasında yalnızca Meta/Byte/Tencent gibi uygulama devleri değil, aynı zamanda OpenAI gibi yapay zeka endüstrisinin yukarı akışı da yer alıyor.
Büyük şirketlerin pazara girmesinin genellikle iki nedeni vardır: ürün fırsatlarını geliştirmek ve yukarı ve aşağı hareket etmek.
"Ürün fırsatlarının planlanması" gerçek anlamdadır. Büyük şirketler bu yönün takip edilmeye değer olduğunu düşünüyor ve bunu yapıyorlar.
"Üst ve alt akışı kesmek" çoğunlukla çaresiz bir harekettir. Bunun nedeni OpenAI ile karşılaştırılabilecek büyük bir model geliştirmiş olmam olabilir. Ancak büyük modellerde kazanan her şeyi alır sorunu nedeniyle hiç kullanıcı yok ve bu da sonuç olarak yakma maliyetlerinde, gelir yok ve veri yok; bu da Performansın giderek geride kalmasına yol açıyor. Şu anda, alt akışa geçmek, özel uygulamalar geliştirmek ve kendi teknolojinizi kullanmak tek seçenektir.
Tarihsel deneyime göre, organizasyonel yapı sorunları nedeniyle bir şirket alt kesime ne kadar yakınsa teknolojisinin geride kalma olasılığı da o kadar yüksek olur ve teknolojisi ne kadar geride kalırsa alt tarafta o kadar fazla çalışmak zorunda kalır. Bu sözde teknoloji şirketleri eninde sonunda uygulama katmanı şirketleriyle aynı ekolojik niş için rekabet edecek.
Ancak uygulama katmanının savaş alanında yapay zeka teknolojisi kısa bir süreden beri ortalıkta olmadığından etkili ve yeniden kullanılabilir ölçek avantajlarına sahip değil.Büyük şirketlerin ve startupların başlangıç noktaları benzer. Büyük şirketlerle karşılaştırıldığında startup'lar daha verimlidir ve daha derin içgörülere sahiptir, bu da avantajlardan yararlanmayı kolaylaştırır.
MS Azure için hemen hemen tüm tanıtım materyallerinin artık OpenAI etrafında dönmesi, dikkat edilmesi gereken bir nokta, ancak Microsoft kadar büyük bir şirket, platform olarak tamamen OpenAI'ye güveniyor ve bu da startup'ların yapay zeka alanında doğal avantajlara sahip olduğunu kanıtlıyor.
Elbette bazı bulut satıcıları start-up'ların liderliğini kabul edemeyip tüm pazarı tek başına yemek isteyebilir. Pahalıdır, yavaştır ve acil bir tehdit değildir.
Gerçek şu ki, çok kısa ömürlü olan bazı yapay zeka uygulama yolları var, ancak hala keşfedilmemiş birçok uzun ömürlü yol var ve yapay zeka uygulamaları kazananların hepsini almıyor. Uygulamalardan platformlara veya teknolojilere doğru genişlemek de daha uygun bir yoldur.
Bu nedenle büyük şirketlerin uygulama katmanını istila etme kabiliyetine rasyonel bir bakış açısıyla bakmalıyız. Bizim önerimiz AI startuplarının güvenle başvuru yapabilmesidir.
Yapay zeka girişimlerine tavsiyeler: Ürün yaşam hatlarına dikkat edin
Daha önce de belirttiğimiz gibi AI start-up'ları güvenli bir şekilde başvuru yapabilir ancak AI modelinin performansını dikkate almalı ve kalmaktan kaçınmalıdırlar. Bu durum, yapay zeka ürünlerinin talep tabanını kaybedip birkaç ay içinde yavaş yavaş sönmesiyle doğrudan ortaya çıkıyor ve bu durum sıklıkla yaşanabiliyor.
Yapay zeka uygulamalarının büyük ölçekli model hizmetlerini kullanması gerekiyor ve büyük ölçekli modellerin performansı artmaya devam ediyor. Bu iyileştirme, "hız" gibi tek boyutlu bir iyileştirme değil, çıktı kalitesinde, çıktı uzunluğunda ve çıktı kontrol edilebilirliğinde genel bir değişikliktir. Teknolojideki her önemli yükseltme, mevcut uygulama katmanı ürünlerinin teknolojisinin geride kalmasına ve yeni fırsatlar ve rakipler yaratmasına neden olacaktır.
Yapay zeka uygulamalarının strateji/ürün/teknoloji açısından avantajlarını ve gerekliliğini sürdürdüğü zamana "yaşam çizgisi" adını veriyoruz.
İşte daha kısa yaşam çizgilerine bazı örnekler:
•ChatGPT/Claude dosya yüklemeyi desteklediğinde ChatPDF gerekliliğini kaybeder
•Office365 Copilot'u desteklediğinde, PPT çizmek için yapay zeka kullanan ürünler avantajlarını kaybedecek
• GPT-3.5 ortaya çıktığında Jasper gerekliliğini yitirdi
**Yapay zeka sektörünün hızla geliştiği göz önüne alındığında, sınırlı yaşam hatları normaldir. Bu nedenle yaşam çizgisinin sınırlı olduğu gerçeğini kabul edip, yaşam çizgisi daha uzun olan bir yön seçmeye çalışmak, uzun vadeli avantajların ve ürün gerekliliğinin korunmasına yardımcı olacaktır. **
Genel olarak yaşam hatları basitçe 3/6/12 aylık seviyelere bölünebilir.
•3 ay: Büyük şirketlerin yapmaya vakit bulamadığı işlevler (ofis/ChatGPT'nin yapmaya zaman bulamadığı işlevler gibi)
•6 ay: Uygulanması zordur ve mevcut çözümlere entegre edilemez, ancak yapay zeka performansı geliştikçe (genel yapay zeka çerçevesi gibi) avantajlar/gereklilik ortadan kalkacaktır.
•12 ay: Avantajlar/ihtiyaçlar uzun süre var olabilir ve büyük şirketlerden/teknolojik gelişmelerden (Hugging Face gibi) kolay kolay etkilenmez.
*Platform ürünlerinin yaşam döngüsü mutlaka uzun değildir. Sonuçta mağazalar da platformlardır.
Yeni kurulmuş bir şirket yönünü belirlediğinde sadece 6 aylık bir cankurtaran halatına ihtiyaç duyar, 12 aylık bir cankurtaran halatına ulaşmak zordur.
Ürün yaşam çizgisi sona erdiğinde genellikle iki durumla karşılaşılır. İlk durum, avantajların ortadan kalkması ve ürün yükseltme teknolojisinin yeniden yapılandırılmasının gerekmesidir. Lütfen yukarıdaki "Önce performans" bölümüne bakın; ikinci durum ise gerekliliğin ortadan kalkması ve ürünün kademeli olarak değiştirilmesidir. Şu anda ürün, hala birkaç aylık "operasyon" ömrü var, yeni başlayanların bir sonraki yönü seçmesi için yeterli.
Yapay zeka girişimlerine tavsiyeler: Web3+AI bunu yapabilir
Şu anda Web3+AI teması etrafında birçok girişimci proje mevcut ancak teknoloji gelişiminin belirsizliği ve pazarın erken aşamaları göz önüne alındığında, Web3+AI konusu gelecekte hala birçok değişkene sahip olacak.
Bu makale, belirsizlikler arasında doğru olma olasılığı yüksek olan kesinlikleri bulmayı amaçlamaktadır.Bu nedenle, yazar hala biraz ilham almayı ve yeni kurulan şirketler ve ilgili araştırmacılar için referans fırsatı olabilecek bazı konu ve yönler önermeyi umuyor.
• Egemenliğin ortadan kaldırılması/merkezi olmayan yönetim
Şu anda yapay zeka sektörünün liderleri yalnızca kapalı kaynak modelleri sağlıyor ve sürekli hizmet sunumunun istikrarı, şeffaflığı ve tarafsızlığı kontrol edilemez. Egemenliğin ortadan kaldırılması/merkezi olmayan yönetim, yapay zeka endüstrisinde önemli bir tema haline gelebilir; yani, egemenlikten uzaklaşma/merkezsizleştirmenin temel mimarisine dayanan istikrarlı, şeffaf ve tarafsız yapay zeka hizmetleri sağlanabilir.
Egemenliğin ortadan kalkması/merkezi olmayan yönetim, merkezi/egemen yapay zeka şirketlerinin ahlak dışı maliyetlerini önemli ölçüde artırabilecek ve onların askeriye, tarikatlar, siyaset ve diğer alanlarda yapay zeka modellerini kullanmalarını engelleyebilecek bir “alternatif” ve “caydırıcılık”tır.
Aşırı durumlarda, merkezi/egemen yapay zeka hizmetleri herhangi bir nedenden dolayı artık mevcut/güvenilir olmadığında, egemenlikten arındırılmış/merkezi olmayan yapay zeka, tek tek ülkelerin/bölgelerin ve hatta insanlığın yapay zekayı kaybetmesini önlemek için yüksek düzeyde kullanılabilir hizmetler sağlamaya devam edebilir.
•Bilgisayar gücünün pratik kullanımı
ETH'nin PoW'dan PoS'a geçişinin arkasında eleştirilen "madencilik değer yaratmaz" ikilemi yatıyor. Web3 ve yapay zekanın birleşimi, stok bilgi işlem gücünün sindirilmesini gerçekleştirmek ve bilgisayarların büyümesini teşvik etmek için bilgi işlem gücü için pratik bir senaryo sağlayabilir. toplam bilgi işlem gücü vb. Etki.
•Sanal Varlıklaştırma
Yapay zeka, bilgi işlem gücü ve depolamaya özgü bir varlıktır. Web3 ve yapay zekanın birleşimi, yapay zekayı sanal varlıklara dönüştürmek için bir kanal sağlayabilir ve yapay zeka endüstrisinin değer somutlaştırmasını gerçekleştirirken Web3 için gerçek yerel sanal varlıklar oluşturabilir.
•Web3 uygulamalarına yönelik değişkenler
Web3 ve yapay zekanın birleşimi, Web3 uygulamalarına yeni işlevsel noktalar ve büyüme fırsatları getirebilir ve mevcut Web3 uygulamaları tamamen yeniden yapılabilir.
Sonunda yazılmıştır: Eylül ayındayız, yapay zeka hâlâ iş kurmaya değer mi?
Önce sonuçtan bahsedeyim: Değerlidir ve bu sonucun Çin Yeni Yılı'na kadar kullanılması yüksek bir ihtimaldir.
İnsanların durumlara ilişkin algıları genellikle önyargılıdır ve ben de bir istisna değilim. Bazıları aşırı iyimser, bazıları ise aşırı kötümser. Yazar bir zamanlar iki ekiple iletişim kurmuştu. Bir ekip gelecek yılın ilk çeyreğinde AI Agent üretebileceğini düşünüyor, diğer ekip ise AI'nın yalnızca bilgi tabanı yönetimi için uygun olduğunu düşünüyor. Açıkçası ilki çok iyimser, diğer ekip ise AI'nın yalnızca bilgi tabanı yönetimi için uygun olduğunu düşünüyor. ikincisi çok kötümser.
Uzun vadeli planlar yaparken, fazla iyimser ya da fazla kötümser olmak tuzaklara yol açacaktır ve yaygın olarak dolaşan açıklamalar genellikle bu son derece önyargılı açıklamalardır ve bağımsız düşünmeyi son derece değerli kılar. Dolayısıyla okuyucunun bu makalenin görüşlerini kabul edip etmemesine bakılmaksızın, okuyucu okuma sürecinde bağımsız düşünme ve yargılamaya sahip olduğu sürece yazar son derece memnun olacaktır.
Son olarak reklam verin. Eğer iyi bir yapay zeka başlangıç fikriniz varsa veya zaten tamamlanmış bir projeniz varsa, lütfen NGC arkadaşlarınızla (benim gibi) iletişim kurmaktan çekinmeyin.
Sorunları basitlik, uygun maliyet, hız, benzersizlik ve etkileyici bir ürün pazarı uyumu ile karakterize edilen çözümlerle çözmeyi amaçlayan, yıkıcı inovasyona sahip projeleri belirliyoruz.