OpenAI'nin GPT-4 eğitim detayları "ölümden bahsetmemek" yayınlandı, benim yorumum bu

2023-07-17 05:58:58

Orijinal Kaynak: Azınlık

Görsel kaynağı: Unbounded AI tarafından oluşturuldu

Birkaç gün önce sıradan bir sabahtı. Her gün tuğlaları hareket ettiriyordum ve birdenbire her türlü bilgi sel gibi aktı: "Acele edin, GPT-4 model yapısı sızdırıldı ve yerli üretim büyük model yine onu geçecek!"

Sosyal medyayı açın bakın tamam ingilizce konuşmanıza gerek yok yerliler internete girmiş bile bu hıza gerçekten ikna oldum. Ancak kaynağın izini sürmek ve bilginin ne kadar güvenilir olduğunu görmek için gittiğimde bir anda eğlence çemberinden teknoloji çemberinin dışına çıktığımı hissettim.

"Sahte Haberlerin" tüm gökyüzünde uçuştuğu internetin mevcut durumu göz önüne alındığında, bu haberi gördükten sonra yaptığım ilk şey kaynağın izini sürmek oldu.

▍Girişler ve çıkışlar

Bilgi madenciliğimin başlangıç noktası, Hacker News'te paylaşılan ve Thread Reader aracılığıyla çıkarılan (11 Temmuz'da arşivlenmiş) bir tweet dizisiydi. Açmak için tıklayın ve iki cümle var:

GPT-4'ün detayları sızdırıldı. bitti.

Bu manşet partisinin seviyesi Çin'dekinden aşağı değil.

Hepimizin bildiği gibi OpenAI, GPT-4'ü piyasaya sürerken açılma taahhüdünü bozdu, herhangi bir ağırlık veya teknik ayrıntı açıklamadı ve endüstri tarafından geniş çapta eleştirildi. Muhtemelen bu nedenle blog yazarı, "olay örgüsünün tersine çevrilmesinin" dramatik etkisini oluşturmak için Bitti sapını kullanıyor.

İçeriğe tekrar bakıldığında, OpenAI'nin ağzı sıkı GPT-4 eğitim detaylarıdır. Bu bilgi hakkında çok fazla spekülasyon yapıldı, ancak yetkili bunu açıklamadı, bahsedildiğinde çok belirsiz (orijinal metin nispeten belirsiz, çok fazla kısaltma ve jargon kullanıyor, bazıları daha sonra açıklanacak) :

Model parametrelerinin miktarı: 1,8 trilyon, GPT-3,5'ten (175 milyar) yaklaşık 10 kat daha büyük.
Model Katman Derinliği: 120 katman.
Model Mimarisi: Karma Uzman Modeli (MoE, açıklama için aşağıya bakın), her biri 111 milyar parametreye sahip toplam 16 "uzman". Çıkarımın her ileri geçişi (belirteçli bir çıktı oluşturur) iki uzman seçer.
Eğitim verileri: Toplam 13T (13 trilyon) token verisi. Metin verileri 2 kez yeniden eğitilir ve kod verileri 4 kez yeniden eğitilir. Bu veriler aslında çok önemlidir ve daha sonra detaylı olarak incelenecektir.
Paralel strateji: 8 yollu tensör paralelliği + 16 yollu boru hattı paralelliği. Aynı anda eğitim veren farklı veri merkezlerinde bulunan birden fazla GPU kümesi vardır, her kümede 128 GPU bulunur.
Eğitim öncesi bağlam: 8K. 32K versiyonunda 8K'dan ince ayar yapılmıştır.
Eğitim maliyeti: Yaklaşık 2,15e25 başarısızlık oranında yaklaşık 25.000 A100'de 90 ila 100 gün boyunca sürekli eğitim. A100 saati başına 1 dolardan, yaklaşık 63 milyon dolara mal olur. (Bugün yaklaşık 55 günde yaklaşık 8192 H100 kullanılarak 21,5 milyon $ tahmini maliyetle yapılabilir.)

Soru şu ki, bu bilgi nasıl ortaya çıktı ve güvenilir mi?

"Kavuna" dokunmak için asmayı takip edin ve bu tweet dizisinin yayıncısını buldum - Yam Peleg.

Bu yaşlı adamın hesabını takip etmesem de önceki yazılarını okudum. İsrail'de bir "startup şirketi"nin CEO'su (ancak 15 yıldır kurulmuş ve ona startup şirketi demek uygun olmayabilir); zengin mühendislik deneyimim var ve büyük dil modellerini anlıyorum. crack GPT-4 ve ChatGPT kod yorumlayıcısını tersine çevirmek için. Bu yılın haziran ayında OpenAI üyeleri İsrail'i ziyaret ettiğinde, Peleg de tartışma ve iletişime katılmak için gitti ve ayrıca CEO Sam Altman ile bir fotoğraf çektirdi.

Bu yaşlı adamın makalesini okurken, İsrail'de tanıştığım bir öğrenci irtibat subayı olan ve herhangi bir şey söylerseniz kanınızı kaynatabilen Tom'u düşünmeden edemiyorum.

Soldan: Sam Altman, Yam Peleg (Kaynak: @Yampeleg)

Bu yaşlı adamın OpenAI araştırdığını ve OpenAI içindeki birçok insanı tanıdığı düşünülürse, bu yüzden bazı dahili bilgiler alırsa, güvenilirliğinin aslında oldukça yüksek olduğunu düşünüyorum.

Ama gece onun paylaşımlarını dikkatlice incelemek üzereyken, bir anda tüm önceki paylaşımlarını sildiğini fark ettim. İlk başta OpenAI tarafından korunduğumu düşündüm ama dosyayı sakladığım için mutluydum. Daha yakından baktıktan sonra, bunun OpenAI'nin silme talebinde bulunmasından değil, aynı zamanda bir ödeme sütunundan bildirmesinden ve telif hakkı ihlalinden şikayet edilmesinden kaynaklandığını gördüm.

Bunun orijinal kaynağı SemiAnalysis adlı bir Substack sütunu.Daha önce bir ödeme duvarının arkasında GPT-4 Architecture, Infrastructure, Training Dataset, Costs, Vision, MoE başlıklı bir makale yayınlamışlardı.

Kontrol ettikten sonra şunu öğrendim:

SemiAnalysis, IP ve strateji tasarlamak için kimyasal hammaddeden fabrikaya kadar yarı iletken tedarik zincirine odaklanan butik bir yarı iletken araştırma ve danışmanlık firmasıdır. Şirket, yarı iletken endüstrisinde uzun yıllara dayanan deneyime sahip bir analist ve mühendis olan Dylan Patel tarafından kuruldu. Patel, Intel, AMD, Qualcomm ve daha pek çok şirkette tasarım mühendisinden pazarlama müdürüne kadar çeşitli roller üstlendi. SemiAnalysis ekibi ayrıca bir dizi profesyonel yarı iletken analisti ve danışmanı içerir. Her birinin AI, bulut bilgi işlem, ağ oluşturma, depolama, elektrikli araçlar, radyo frekansı, Nesnelerin İnterneti vb. gibi farklı uzmanlık alanları vardır. Müşterilere, IP ve strateji tasarlamak için kimyasal hammaddelerden fabrikalara kadar kapsamlı yarı iletken tedarik zinciri analizi ve danışmanlık hizmetleri sunarlar.

Daha önce SemiAnalysis ayrıca, Google mühendislerinin dahili iletişimde "Bizde Hendek Yok, OpenAI de Yok" (Hendek Yok, OpenAI de Yok) dediğini açıklayan bir makale yayınladı ve bu çok tartışmaya neden oldu. Bu makalenin doğruluğu daha sonra doğrulandı.

Bu bakış açısına göre, Dylan Patel Kardeş gerçekten de içeriden bazı bilgilere sahip olabilir ve verdikleri bilgilerin güvenilirliği yine de kabul edilebilir olmalıdır.

Brother Yam'a tweet'leri silmesi için neden bu kadar istekli olduklarına gelince - çünkü bu "içeriden alınan bilgiler" gerçekten değerli ve SemiAnalysis'in ücretli makalelerine aboneliklerin maliyeti yılda 500 dolardır. Brother Yam'ın elit sürüme aboneliğinin maliyeti 1.000 dolardır.

▍Kart Analizi

Bu girdi ve çıktılara göre, bence bu söylentinin hala belirli bir inandırıcılığı var. Aşağıda, tartışma için önerdiğim bu bilgilere dayalı analizlerimden bazıları yer almaktadır.

Özel modeller için rekabet paralelliğe odaklanacak

Bu rivayete göre bir GPT-4 yarışmacısını eğitmek isterseniz, yaklaşık 8.192 H100 çip kullanarak, saati 2$ ücretle, ön eğitimin yaklaşık 55 günde tamamlanabileceği ve maliyetinin ise yaklaşık 21,5 milyon dolar (150 milyon RMB).

Bu maliyet, mevcut çalkantılı LLM piyasası için gerçekten çok büyük değil. Mevcut büyük yerli oyuncular, birkaç antrenman seansını kolayca üstlenebilir. Dolayısıyla, bu sefer dürüst olmak gerekirse, GPT-4'ü model yetenekleriyle (en azından parametre ölçeğinde) yarım yıl içinde kıyaslamak gerçekten övünme olmayabilir.

Eğitim maliyeti sorun değilse, eğitim verileri sorun olur mu? Ben de öyle düşünmüyorum. GPT-4'ün eğitim verisinin toplam 13T (13 trilyon) token olduğu söyleniyor. Karşılaştırma için, hem CommonCrawl hem de RefinedWeb genel veri kümelerinde 5T belirteçleri var.Geri kalanının Twitter, Reddit ve YouTube'dan geldiği söyleniyor; bazı davalar ayrıca OpenAI'nin LibGen ve SciHub gibi "gölge kitaplıklardan" korsan veriler kullandığını iddia ediyor.

Bu nedenle, bu verilerin ölçeğinin ulaşılamaz olmadığını düşünüyorum, ayrıca ülkenin kendisi çok fazla Çin kaynağı biriktirdi, bu nedenle eğitim verileri büyük bir sorun olmamalı.

Ön eğitim, ince ayar ve Çince kodlama ve kod çözme gibi diğer konular için aslında çok fazla teknik sır yoktur ve yöntemler nispeten açıktır. Yeterli kaynak verildiğinde, altı ay içinde çözülmelidir.

Yani, kalan son eşik paralelliktir. Aslında, bu söylentide ilgili içeriği tanıtmak için çok büyük bir alan kullanılmış ve profesyonel seviye hala nispeten yüksektir, burada sadece bazı yüzeysel açıklamalar yapabilirim.

Kabaca söylemek gerekirse, sözde paralel sorun, büyük bir modeliniz olması, onu aynı anda en düşük maliyetle en çok kişinin kullanmasına nasıl izin vereceğinizdir. Bu, birçok profesyonel tasarım sorununu içerir.Sabit bilgi işlem kaynakları söz konusu olduğunda, bilgi işlem kaynakları farklı bağlantılarda nasıl tahsis edilir? Eşzamanlılık nasıl ele alınır? Bellek nasıl yönetilir?

Paralel işleme yeteneği, kullanıcı deneyimini doğrudan belirler. Şu anda, GPT-3.5 tabanlı ChatGPT ve API nispeten sorunsuzdur ve bu çok güçlüdür. Buradaki herkes, deneyimlediğim diğer yerli LLM'lerin veya Claude'un GPT-3.5'ten daha hızlı olduğunu söyleyebilir. Bununla birlikte, herkes kullanımın büyüklüğünü düşünmedi.GPT-3.5, bu kadar yüksek bir eşzamanlılık altında böyle bir performansa sahiptir.Diğer üreticiler OpenAI'nin kabiliyetini yakalayamazsa, OpenAI pazarını ele geçiremezler.

Bu nedenle paralel yetenekler, çeşitli OpenAI rakipleri için rekabetin kilit noktalarından biri haline gelebilir.

GPT-5 çoklu modaliteye odaklanır

Daha önce de belirtildiği gibi, GPT-4'ün 16 uzman modelden oluşan bir "uzman karışımı" (MoE) modeli olduğu söyleniyor. Kullanıcının "sorununu" birkaç alt soruna bölmek anlamına gelen "uzman karıştırma"nın ne olduğuna dair kısa bir açıklama buradadır ve her alt sorun daha küçük bir modele (yani bir "uzmana") teslim edilir. çöz ve ardından bir "yönlendirme modeli" seçilir ve birleştirilir ve ardından kullanıcıya çıktı verilir.

Söylentiler ayrıca, GPT-4'ün her bir "uzmanının" GPT-3'e eşdeğer 111 milyar parametreye sahip olduğunu iddia ediyor (bu, Sam Altman'ın daha önce GPT-3.5'ten bile daha küçük olduğunu söylediği GPT-4 parametreleriyle tutarlıdır), bunlardan bazıları 55 milyar Parametre paylaşılıyor. Çıkarımın her ileri geçişi (belirteç çıktısı oluşturur), etkin bir şekilde yaklaşık 280 milyar parametre tüketen iki "uzman" kullanır. Bu sayı, MoE olmadan gereken sayıdan önemli ölçüde daha küçüktür ve aynı zamanda birçok bilim insanının erken aşamadaki tahminlerine benzer.

Söylentilerin, GPT-4 eğitimi için kullanılan metin ve kod verilerinin yeniden kullanıldığını belirttiğini belirtmekte fayda var. MoE çerçevesini kullanma seçimiyle birleştiğinde, kişisel olarak tahmin ediyorum: ya şu anda kolayca elde edilebilen yüksek kaliteli metin verileri tükenmek üzere ya da veri miktarını sınırsız bir şekilde artırarak LLM performansının iyileştirilmesi zaten çok sınırlı.

Ancak, durum ne olursa olsun, GPT-5 büyük bir performans atılımı yapmak istiyorsa, mevcut büyük miktardaki video, resim ve ses verilerini tam olarak kullanabilmelidir, başka bir deyişle, " çok modlu" modeli.

Sorun şu ki, bu söylentiye göre, OpenAI'nin mevcut görsel multimodalitesinin sunabileceği pek bir şey yok. Ön eğitim için girdi olarak metin kullanan ve ardından ince ayar için yaklaşık 2 trilyon Jeton kullanan bağımsız bir görsel kodlayıcıdır. Bu eğitim yöntemi açıkçası mevcut video, resim ve ses verilerinden tam olarak yararlanamaz.

Bu nedenle OpenAI, GPT-5'in eğitilmediğini ve olasılığın doğru olduğunu her zaman vurgulamıştır. GPT-5'i eğitmeden önce, modelin ses ve video verilerinden tam olarak yararlanabilmesi için daha iyi bir çok modlu model mimarisi bulmaları gerekiyordu. GPT-5, ancak bu yüksek kaliteli eğitim verilerini kullanarak yeterli kapasite iyileştirmesi sağlayabilir. (Aynı zamanda GPT-5 gerçekten bu ses ve video verilerinden tam anlamıyla faydalanabiliyorsa, o zaman ister AGI ister OpenAI'nin yakın zamanda önerdiği "Süper Zeka Gövdesi" olsun, o kadar da uzak değil gibi görünüyor.)

OpenAI bu söylentiyi kasten yayınlamış olabilir

Bu çıkarım tamamen kişisel spekülasyondur. Gerçekler yeterli değil, sadece bir göz atın.

Anladığım kadarıyla OpenAI, GPT-4'ün hendeğinin derin olmadığının gayet iyi farkında; günümüzün çılgınlığında, rakiplerin yetişmesi zor değil. Ve yukarıda analiz edildiği gibi, mevcut çok modlu büyük ölçekli model yapıları nihai hale getirilmemelidir.Şu anda, yeni oyuncular gelir ve çok modludan ayrılırsa, OpenAI'nin eğri tarafından geçilme olasılığı da çok yüksektir. .

Yani, bu OpenAI'nin savaşı yavaşlatma planı olabilir - Size bazı GPT-4 bilgilerini ifşa edeceğim, bırakın baş oyuncular önce GPT-4 canlandırma işini yapsın ve OpenAI'nin çoktan yürüdüğü yolda yürüyün.

Bu süreçte OpenAI, GPT-5'in eğitiminin temelini attıysa ve çok modlu büyük modelin ön araştırmasını tamamladıysa, GPT-4'ü diğer büyük dil modelleri geride bıraksa bile OpenAI paniğe kapılmayacak. Şahsen, multimodalitenin muhtemelen son nesil insan katılımı olacağını düşünüyorum ve AGI, gelecekteki model geliştirme ve evriminde ana güç olabilir. Yani bu kez kazanırsanız sonuna kadar kazanabilirsiniz.

View Original

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

Reward
like
Comment
Share

Comment

0/400

No comments

Topic
Pump.Fun Debuts on Gate
22 Popularity
Join Gate VIP to Win MacBook
28k Popularity
Trump Tariff Hikes
14k Popularity
4HK Stablecoin Rules
11k Popularity
5Truth Social Crypto ETF
957 Popularity
6Gate Square Writing Contest Phase 1
5k Popularity
7Altcoin ETF Watch
4k Popularity
8Gate Alpha Trading Share
11k Popularity
9Dr.Han Joins Gate Square
45k Popularity
10Gate Square Creator Spark Program
152k Popularity

sitemap