GPT-4 içeriden bilgi sızdırıldı, 1,8 trilyon devasa parametre, 13 trilyon jeton eğitimi, 63 milyon ABD doları harcandı

Kaynak: "Xinzhiyuan" (Kimlik: AI_era)

Az önce, OpenAI'nin GPT-4'ü yine sektör içindeki kişiler tarafından "açık kaynak" haline getirildi!

Bunlar, GPT-4'ün mimarisi, eğitim ve çıkarım altyapısı, parametre hacmi, eğitim veri seti, belirteç numarası, maliyet ve Uzman Karışımı (MoE) gibi çok özel parametreleri ve bilgileri içerir.

Özellikle farklı projelerin arkasında OpenAI nasıl bir ağırlık taşıyor. Ve büyük model çıkarımında en büyük darboğazın nasıl aşılacağı.

Böylesine ağır bir vahiy kimden geldi?

Makalenin yazarları, Dylan Patel ve Gerald Wong adlı SemiAnalysis'e katkıda bulunan iki kişidir.

Dylan Patel'in daha önce sektörde bir kargaşaya neden olan Google'ın dahili belge sızıntısının ("Hendekimiz yok, OpenAI de yok") yazarlarından biri olduğunu belirtmekte fayda var.

DeepMind CEO'su Hassabis, geçtiğimiz günlerde yabancı medya The Verge ile yaptığı bir röportajda Google mühendislerinden sızan belgelerin gerçekliğini doğruladı.

Dylan Patel'in bugünün ifşasını biraz daha özgün kılan bazı özel kanallara sahip olduğu görülüyor.

Going to ask'ın CEO'su Li Zhifei de bir konuşma yaptı.

Birçok şirket GPT-4 yapabilir

Son dakika haberinin yazarına göre OpenAI'nin açık olmamasının nedeni, insanların yapay zeka tarafından yok edilmemesini sağlamak değil, inşa ettikleri şeylerin tekrarlanabilir olması.

Hatta gelecekte Çin ve Amerika Birleşik Devletleri'ndeki tüm büyük İnternet şirketlerinin veya yapay zeka girişimlerinin GPT-4 ile aynı veya hatta GPT-4'ü aşan bir model oluşturabileceklerini tahmin ediyor.

Ancak GPT-4'ün OpenAI'nin harika bir şaheseri olduğunu da kabul etti. Mühendisin dahiyane tasarımını, karmaşık yapısını ve çeşitli dahiyane mühendislik takaslarını özetler.

OpenAI'nin en dayanıklı hendeği, gerçek kullanıcılardan, sektördeki en iyi mühendislik yeteneklerinden ve ilk hamle avantajının getirdiği sürekli lider konumundan geri bildirim almalarıdır.

Model çerçevesi

Öncelikle haberi veren yazar, GPT-4'ün 120 katmanda toplam 1,8 trilyon parametre içerdiğine, GPT-3'ün ise sadece 175 milyar civarında parametreye sahip olduğuna inanıyor.

Başka bir deyişle, GPT-4'ün ölçeği GPT-3'ün 10 katından fazladır.

Daha önce internette GPT-4'ün parametresinin 1 trilyon olduğu söylendi ki bu gerçek durumdan hafife alınmış gibi görünüyor.

Maliyeti makul tutmak için OpenAI, inşaat için MoE modelini benimser.

Spesifik olarak GPT-4, MLP uzmanı başına yaklaşık 111 milyar parametreye sahip 16 uzman modele sahiptir. Bunlar arasında ileri yayılım için iki uzman model kullanılmaktadır.

Her bir tokenin hangi uzmanları işaret ettiğini seçmeye yönelik gelişmiş algoritmalar hakkında literatürde çok fazla tartışma olsa da OpenAI'nin GPT-4 için kullandığı algoritmanın aslında çok basit olduğu söyleniyor.

Ayrıca modelde dikkat mekanizmasının paylaşımı için kullanılan yaklaşık 55 milyar parametre bulunmaktadır.

Her ileri yayılım muhakemesinde (belirteç oluşturma), GPT-4'ün yalnızca yaklaşık 280 milyar parametre ve 560TFLOP kullanması gerekir.

Bu, ileri geçiş başına yaklaşık 1,8 trilyon parametre ve 3700 TFLOP gerektiren tamamen yoğun birçok modelin tam tersidir.

Veri setinin bileşimi

OpenAI, GPT-4'ü 13 trilyon jetonla eğitti.

Bu veri seti sadece 13 trilyon jeton içermekle kalmıyor, aynı zamanda yüksek kaliteli jetonlar olmadığı için bu veri seti birçok çağ da içeriyor.

Scale AI ve veri kümesi içinde, milyonlarca satırlık talimat ince ayar verileri de dahildir.

Ancak vahyin yazarı, bu RLHF verileri hakkında fazla bilgi bulamadıklarını söyledi.

Eğitim öncesi aşamadaki bağlam uzunluğu 8K'ya (seqlen) ulaştı ve 32k versiyonu, önceden eğitilmiş 8K versiyonuna göre ince ayar yaptı.

Toplu iş boyutu, kümede birkaç gün içinde kademeli olarak artırılır ve OpenAI tarafından kullanılan nihai toplu iş boyutu 60 milyondur.

Tabii ki, her uzman model tüm belirteçleri görmeyeceğinden, bu "yalnızca" her biri 7,5 milyon belirteç olan uzman modelin boyutudur.

Paralel strateji

A100GPU için paralel strateji çok önemlidir.

OpenAI, 8 yollu tensör paralelliği kullanır, çünkü NVLink yalnızca çok fazla destekler.

Ancak ek olarak, son dakika haberlerinin yazarı OpenAI'nin 15 paralel işlem hattı kullandığını duydu.

Teorik olarak, veri iletişimi ve bilgi işlem süresi dikkate alındığında 15 işlem hattı biraz fazladır.

Ancak bellek kapasitesinin sınırlandırılması nedeniyle pek çok ardışık düzen anlamlıdır.

Tamamen ardışık düzende ve tensör paralel olduğunda, FP16 parametresi GPU başına yaklaşık 30 GB'dir.

Ancak KV önbelleği ve maliyeti eklendiğinde, OpenAI tarafından kullanılan GPU'ların çoğu 40GB A100 ise, o zaman böyle bir mimari teoride mantıklıdır.

OpenAI'nin ZeRo Aşama 1 kullanıyor olması ve blok düzeyinde FSDP veya hibrit paylaşılan veri paralelliği kullanıyor olması mümkündür.

Neden FSDP'nin tam modelini kullanmadılar? Muhtemelen yüksek iletişim maliyeti nedeniyle.

OpenAI, çoğu düğüm arasında yüksek hızlı bir ağa sahip olsa da, tüm düğümleri kapsamaz.

Bunlar arasında en azından bazı kümeler diğerlerinden çok daha düşük bağlantı bant genişliğine sahip olacaktır.

Ancak yazar, OpenAI'nin bu kadar yüksek bir boru hattı paralelliği altında her partide "dev baloncuklar" oluşmasını nasıl önlediğini tam olarak anlamadığını söyledi.OpenAI'nin bu maliyetlere direnmesi çok muhtemel.

Eğitim maliyeti

OpenAI, GPT-4'ü yaklaşık 2,15e25 FLOPS ile eğitir, yaklaşık 25.000 A100 üzerinde 90 ila 100 gün boyunca eğitilir ve kullanım oranı %32 ile %36 arasındadır.

Bu son derece düşük kullanım kısmen, eğitimin önceki kontrol noktalarından yeniden başlatılmasını gerektiren çok sayıda arızadan kaynaklanıyordu. Yukarıda belirtilen balon maliyeti gibi.

Bu durumda boşa giden eğitim maliyeti son derece yüksektir.

Diğer bir neden de, bu kadar çok GPU arasında all-reduce'un çok pahalı olmasıdır.

Bu diyagram, her işlemin kaynaştırılamaması, dikkat mekanizması için gereken bellek bant genişliği ve parametre okumalarına eşdeğer donanım ek yükünün verimsizliklere yol açtığını varsayar. Aslında, Nvidia'nın FasterTransformer kitaplığı gibi optimize edilmiş bir kitaplıkla bile toplam ek yük daha da fazla olabilir.

Muhbirin yazarı, bu küme aslında daha zayıf ağ bağlantılarına sahip daha küçük kümelerden oluşan bir grupsa, kümenin farklı bölümleri arasındaki engellenmeyen (engellenmeyen) bağlantı hızının 800G/1.6T olduğundan şüpheleniyor, ancak bu parçalar aralarındaki bağlantı hızı sadece 200G/400G'dir.

OpenAI bulut bilişimin maliyeti yaklaşık 1 $/A100 saat ise, bu durumda eğitim maliyeti yaklaşık 63 milyon $'dır.

Bu, tüm deneyleri, başarısız eğitimi ve veri toplama, RLHF, insan maliyeti vb. diğer maliyetleri içermez.

Az önce bahsedilen faktörleri hesaba katarsanız, gerçek maliyet çok daha yüksektir.

Ayrıca, bu, başkalarının çip/ağ/veri merkezi satın alabileceği, bu sistemleri oluşturmak için sermaye harcaması yapabileceği ve bunları OpenAI'ye kiralayabileceği öncülünde olmalıdır.

Ancak bugün, 2 $/H100 saatte, 21,5 milyon $ maliyetle sadece 55 günde yaklaşık 8.192 H100 üzerinde ön eğitim yapılabilir.

Yukarıdaki şekil, halka açık gelişmiş modellerin bazıları için parametre ve belirteç sayısını göstermektedir. Şekildeki çizgi, Google DeepMind'ın Chinchilla ölçekli gözlemleridir (daha büyük hata çubukları yumuşatılmıştır), çizgi üzerindeki her nokta, modeli o parametreyle ve belirteç sayısıyla eğitmek için gereken teorik FLOPS'u gösterir.

Ancak raporun yazarı, bu yılın sonuna kadar en az dokuz şirketin yukarıda belirtilen boyutu aşan H100 kümelerine sahip olacağını söyledi.

Bu şirketlerin hepsi bireysel model eğitimi için hepsini kullanmayacak olsa da, kullanırlarsa GPT-4'ten daha büyük modellere sahip olacaklardır.

Örneğin Meta, bu yılın sonuna kadar 100.000'den fazla H100'e sahip olacak, ancak bunların önemli bir kısmı çıkarım için kendi veri merkezinde dağıtılacak.

Ancak en büyük tek kümesi yine de 25.000 H100'ü aşacaktır.

Kısacası, bu yılın sonuna kadar birçok şirket, GPT-4 boyutlu modelleri eğitmek için yeterli bilgi işlem kaynağına sahip olacak.

Bu tablo, gerekli insan gücü, Makine Öğrenimi Ops araçları, veri toplama/ön işleme, arıza giderme, tek seferlik/birkaç seferlik öğrenme örnekleri, çıkarım vb. pek çok şey dikkate alınmadan bir Nvidia A100 üzerinde bir modeli eğitmenin teorik olarak en uygun maliyetidir. parça maliyeti

Karma Uzman Modellerde Ödevler

MoE (Mixed Model of Experts), çıkarım sırasında parametre miktarını azaltırken aynı zamanda artırmanın harika bir yoludur.

Ancak bu, her eğitim belirtecinin daha fazla bilgi kodlaması için gereklidir, çünkü yeterince yüksek kaliteli belirteç elde etmek çok zordur.

OpenAI gerçekten en iyi performansı sürdürmek istiyorsa, bunu başarmak için iki kat daha fazla jeton eğitmeleri gerekir.

Bununla birlikte, OpenAI epeyce değiş tokuş yaptı.

Örneğin, çıkarım sırasında MoE ile uğraşmak çok zordur çünkü modelin her parçası her belirteç üretiminde kullanılmaz.

Bu, diğer bölümler çalışırken bazı bölümlerin uykuda olabileceği anlamına gelir.

Bu durum, kullanıcılara hizmet verirken kullanımı önemli ölçüde azaltabilir.

Araştırmacılar, 64-128 uzman model kullanmanın, 16 uzman model kullanmaktan daha iyi kayıp profilleri verdiğini göstermiştir, ancak bu sadece bir araştırmadır.

Nispeten az sayıda uzman modeli kullanmanın birçok nedeni vardır.OpenAI'nin 16 uzmanı seçmesinin nedenlerinden biri, daha fazla uzman modeli birçok görevde genellemenin zor olmasıdır.

Daha uzman modellerle yakınsama sağlamak da daha zordur.

Böylesine büyük bir eğitim sürecinde OpenAI, uzman model sayısında daha muhafazakar olmayı seçti.

Ayrıca, daha az uzman model kullanmak, çıkarım altyapılarına da yardımcı olur. Hibrit bir uzman model çıkarım mimarisine geçerken çeşitli zor takaslar ve takaslar vardır.

Son dakika haberlerinin yazarı, LLM muhakemesinin temel ödünleşimlerinin tartışılmasıyla başlar ve ardından OpenAI'nin karşılaştığı sorunları ve yaptıkları seçimleri tartışır.

Akıl yürütme takasları

Bu arada, çıkarım tavizlerini sunmadan önce, tüm LLM şirketleriyle görüştükten sonra, muhbir, NVIDIA'nın FasterTransformer çıkarım kitaplığının çok kötü olduğunu ve TensorRT'nin daha da kötü olduğunu gördü.

Bu, Nvidia değişiklik yapmazsa, insanların sıfırdan kendi çözümlerini oluşturmaları gerekeceği anlamına gelir.

Büyük dil modelleri, toplu iş boyutu (eşzamanlı olarak işlenen kullanıcı sayısı) boyutu ve kullanılan çip sayısı hakkında akıl yürütmede aşağıdaki gibi üç ana ödünleşim vardır:

1. Gecikme

Model, makul bir gecikme süresi içinde yanıt vermelidir. Hiç kimse çıktı almaya başlamadan önce bir sohbet uygulamasında birkaç saniye beklemek istemez. Ön doldurma (giriş belirteçleri) ve kod çözme (çıktı belirteçleri) için işlem süresi değişir.

2. Verim

Model, saniyede belirli sayıda belirteç çıkarmalıdır. İnsanların saniyede yaklaşık 30 simgeye ihtiyacı vardır. Diğer çeşitli kullanım durumları için hem daha düşük hem de daha yüksek verimler kabul edilebilir.

3. Kullanım oranı

Modeli çalıştıran donanım, yüksek kullanım oranlarına ulaşmalıdır, aksi takdirde maliyet engelleyici olacaktır. Daha yüksek kullanım elde etmek için daha fazla kullanıcı isteğini birleştirmek için daha yüksek gecikme süresi ve daha düşük verim kullanılabilirken, aynı zamanda zorluğu da artırır.

LLM muhakemesinin anahtarı, bellek bant genişliği ve hesaplamanın iki noktasını dengelemektir.

LLM'nin teorik bant genişliği gereksinimleri: iPhone 14'te çalıştırılabilecek maksimum model boyutunun ~1 milyar FP16 parametresi veya ~4 milyar int4 parametresi olduğu varsayılabilir. Bu, akıllı telefonlara dayalı LLM'nin temel sınırıdır. modeller kabul edilmeyecek

Basitçe söylemek gerekirse, her parametrenin okunması gerekir ve onunla ilişkili 2 FLOP vardır.

Bu nedenle, çoğu yonganın oranı (H100 SXM yalnızca 3 TB/s bellek bant genişliğine sahiptir, ancak FP8 2.000 TFLOP/s'ye sahiptir), toplu iş boyutu 1 olan çıkarımda tamamen dengesizdir.

Yalnızca bir kullanıcı varsa (parti boyutu 1), bir belirteç her oluşturulduğunda her parametreyi okumak için gereken bellek bant genişliği çıkarım süresine hakim olurken, hesaplama süresi neredeyse ihmal edilebilir düzeydedir.

Büyük dil modellerini birden çok kullanıcıya verimli bir şekilde ölçeklendirmek için toplu iş boyutunun 1'i geçmesi gerekir. Birden çok kullanıcı parametreleri okuma maliyetini paylaşır. Örneğin, 256/512 toplu iş boyutuyla, okunan bellek baytı başına 512 FLOP/s veya 1024 FLOP/s elde edebilirsiniz.

Bu oran, H100'ün bellek bant genişliği ve FLOPS arasındaki dengesine daha yakın. Bu, daha yüksek kullanım elde edilmesine yardımcı olur, ancak daha yüksek gecikme pahasına.

Çoğu kişi, büyük modeller çıkarım için birden çok yonga gerektirdiğinden ve daha yüksek bellek kapasiteleri, daha az yongaya sığabilecekleri anlamına geldiğinden, bellek kapasitesinin LLM çıkarımı için önemli bir darboğaz olduğunu düşünür.

Bununla birlikte, aslında daha fazla yonga kullanmak daha iyidir, böylece gecikme azalır, iş hacmi artar ve daha yüksek kullanım için daha büyük parti boyutları kullanılabilir.

GPT-4 Çıkarım Dengeleri ve Altyapısı

Yukarıda belirtildiği gibi, GPT-4 muhakemesi için çok zordur. Ancak bir MoE modu olmak yine yepyeni bir dizi zorluk getiriyor.

Belirteç oluşturan her ileri geçiş, farklı bir uzmanlar grubuna yönlendirilebilir. Bu, daha büyük parti boyutlarında verim, gecikme ve kullanım arasındaki değiş tokuşta bir sorun teşkil eder.

OpenAI'nin GPT-4'ünde 16 uzman var ve her biri 2 tanesine giden ileri geçiş yolları.

Bu, parti büyüklüğü 8 ise, okunan her uzmanın parametresinin sadece 1 parti büyüklüğüne sahip olabileceği anlamına gelir.

Daha da kötüsü, bu, bir uzmanın parti büyüklüğünün 8 olduğu, diğer uzmanların ise parti büyüklüğünün 4, 1 veya 0 olduğu anlamına gelebilir.

Oluşturulan her belirteç için, yönlendirme algoritması farklı yönlerde ileri geçişler göndererek, belirteçler ve uzman parti boyutları arasında önemli ölçüde değişiklik gösteren gecikmelere neden olur.

Çıkarım altyapısı, OpenAI'nin daha az sayıda uzmanı seçmesinin ana nedenlerinden biridir. Daha fazla uzman seçerlerse, bellek bant genişliği çıkarım için darboğaz olur.

OpenAI'nin çıkarım kümesi genellikle 4k+ toplu iş boyutuna ulaşabilir; bu, uzmanlar arasındaki en iyi yük dengesiyle bile uzmanların toplu iş boyutunun yalnızca yaklaşık 500 olduğu anlamına gelir. Bu, elde etmek için çok büyük miktarda kullanım gerektirir.

İhbarcıya göre, OpenAI'nin 128 GPU'luk bir küme üzerinde çıkarım gerçekleştirdiğini öğrendik. Birden çok veri merkezinde ve coğrafi konumda bu kümelerden birden çok var.

Çıkarım, 8 yollu tensör paralelliği ve 16 yollu ardışık düzen paralelliği kullanır. 8 GPU'dan oluşan her düğümün yalnızca yaklaşık 130B parametresi vardır veya FP16 altında GPU başına 30GB'tan az ve FP8/int8 altında 15GB'tan azdır.

Bu, tüm gruplar için KV önbellek boyutu çok büyük olmadığı sürece 40GB A100'de çıkarım yapılmasına izin verir.

Farklı düğümlerde farklı uzmanlar içeren katmanlar bölünmez çünkü bu, ağ trafiğinin çok düzensiz olmasına neden olur ve her belirteç üretimi arasında KV önbelleğini yeniden hesaplamak çok pahalı olur.

Gelecekteki MoE model uzantıları ve koşullu yönlendirme için en büyük zorluk, KV önbelleğinin yönlendirmesinin nasıl ele alınacağıdır.

Model 120 katmana sahiptir, bu nedenle 15 farklı düğüme kolayca dağıtılabilirler, ancak ilk düğümün veri yükleme ve yerleştirme yapması gerektiğinden, çıkarım kümesinin ana düğümüne daha az katman koymak mantıklıdır.

Ayrıca, masternode'ların neden daha az katman içermesi gerektiğini açıklayan "spekülatif kod çözme" (aşağıda) hakkında bazı söylentiler var.

Çıkarım maliyeti

175 milyar parametreli Davinchi modeliyle karşılaştırıldığında, GPT-4'ün maliyeti 3 kat, ancak ileri besleme parametreleri yalnızca 1,6 kat artıyor.

Bunun başlıca nedeni, GPT-4'ün daha büyük bir küme gerektirmesi ve daha düşük kullanım sağlamasıdır.

Yazarlar, GPT-4'ün 8k dizi uzunluğunu 128 A100'de çıkarmanın maliyetinin 1.000 jeton başına 0,0049 USD, 128 H100'de GPT-4'ün 8k sekans uzunluğunu çıkarma maliyetinin 1.000 jeton başına 0,0021 USD olduğuna inanıyor.

Bunun oldukça yüksek bir kullanım varsaydığını ve parti boyutunu yüksek tuttuğunu unutmayın.

Ancak OpenAI'nin bazen çok az kullanıldığı açıktır.

Bu bağlamda yazar, OpenAI'nin yoğun olmayan saatlerde kümeyi kapatacağını, düğümleri yeniden yapılandıracağını, daha küçük test modellerini eğitmeye devam edeceğini ve çıkarım maliyetlerini azaltmak için çeşitli yeni teknolojileri deneyeceğini varsaydı.

OpenAI bunu yapmasaydı, kullanımları daha düşük olacak ve maliyetleri iki kattan fazla artacaktı.

Çoklu sorgu dikkati

Ek olarak, OpenAI ayrıca Çoklu Sorgu Dikkatini (MQA) kullanıyor.

Kağıt adresi:

Kısacası, yalnızca bir dikkat başlığı gerekir ve KV önbelleğinin bellek ayak izi önemli ölçüde azaltılabilir.

Buna rağmen, 32k uzunluğundaki GPT-4 kesinlikle 40GB A100'de çalışamaz ve maksimum parti boyutunun 8k olması için bir üst sınır vardır.

Sürekli toplu işleme

OpenAI, değişken parti boyutu ve sürekli toplu işleme uygular.

Bunu yapmak, bir dereceye kadar maksimum gecikme sağlar ve çıkarım maliyetini optimize eder.

Spekülatif Kod Çözme

OpenAI'nin halen %100 belirsizliği bulunan GPT-4'ün muhakeme sürecinde "spekülatif kod çözme" kullandığı ortaya çıktı.

Belirteçten simgeye gecikmedeki değişiklik ve basit alma görevlerini yerine getirirken daha karmaşık görevlere karşı fark, bunun mümkün olduğunu düşündürüyor, ancak yine de emin olunması gereken çok fazla değişken var.

Burada muhbir, DeepMind tarafından hazırlanan "Accelerating LLM Inference with Staged Speculative Decoding" adlı çalışmasında metni açıklamak için uygun değişiklikleri/bazı ayrıntıları yaptı.

LLM'yi kullanmanın genellikle iki aşaması vardır.

Birincisi, ilk çıktının KV önbelleğini ve günlük oranlarını (olası belirteç çıktılarının olasılık dağılımı) oluşturmak için ipucu metninin modele beslendiği önceden doldurmadır. Bu işlem genellikle hızlıdır, çünkü istem metninin tamamı paralel olarak işlenebilmektedir.

İkinci aşama kod çözmedir. Çıktının log oranlarından bir jeton seçin ve bunu, bir sonraki jetonun log oranlarını oluşturacak olan modele besleyin. İstenilen sayıda jeton üretilene kadar bu işlemi tekrarlayın.

Kod çözmenin sırayla gerçekleşmesi gerektiğinden, tek bir belirteç oluşturmak için her seferinde ağırlıkların bilgi işlem biriminden geçirilmesi gerekir. Bu nedenle, bu ikinci aşama, mini gruplar halinde çalışırken hesaplama açısından çok yoğundur (yani, FLOP'ları/bayt bellek bant genişliğini hesaplar). Bu nedenle, kod çözme genellikle otoregresif oluşturmanın en pahalı kısmıdır.

OpenAI'nin API çağrılarında giriş belirtecinin çıkış belirtecinden çok daha ucuz olmasının nedeni budur.

"Spekülatif kod çözmenin" temel fikri, birden çok jetonun kodunu önceden çözmek için daha küçük, daha hızlı bir taslak model kullanmak ve ardından bunları toplu olarak tahmine dayalı modele beslemektir.

Taslak modelin tahminleri doğruysa, yani daha büyük model bu tahminlerle aynı fikirdeyse, çok sayıda bellek bant genişliği ve zamandan tasarruf sağlayan tek bir toplu iş kullanılarak birden fazla jetonun kodu çözülebilir.

Bununla birlikte, daha büyük model, taslak model tarafından tahmin edilen bir belirteci reddederse, kalan yığın atılır ve algoritma doğal olarak standart belirteçten belirteç kod çözmeye geri döner.

"Spekülatif kod çözme", orijinal dağıtımdan örnekleme yapmak için bir ret örnekleme şemasına da eşlik edebilir. Bunun yalnızca bant genişliğinin darboğaz olduğu küçük toplu ayarlarda yararlı olduğunu belirtmekte fayda var.

Hesaplamayı bant genişliğiyle değiştiren spekülatif kod çözme, iki temel nedenden dolayı çekici bir performans mühendisliği hedefidir:

İlk olarak, model kalitesini düşürmez. İkincisi, sunduğu performans iyileştirmeleri, performansları "sıralı yürütmeyi" "paralel yürütmeye" dönüştürmekten geldiği için, genellikle diğer yaklaşımlara diktir.

Geçerli çıkarım yöntemi, toplu tahminlerin ayrı bir dizisidir. Ancak bu yaklaşım, büyük partiler veya düşük draftlı model hizalamaları için iyi ölçeklenemez.

Sezgisel olarak, bitişik uzun jeton dizileri üzerinde anlaşmaya varan iki modelin olasılığı katlanarak düşüktür, bu da spekülatif kod çözmeden elde edilen kazançların aritmetik yoğunluk arttıkça hızla azaldığı anlamına gelir.

Bilgi uçuran, OpenAI "spekülatif kod çözme" kullanırsa, bunu yalnızca yaklaşık 4 jetonluk dizilerde kullanabileceklerine inanıyor.

Bir yana, OpenAI'nin kastrasyonuyla ilgili tüm komplo, daha düşük kaliteli GPT-4 ile sonuçlanıyor olabilir, çünkü tahmine dayalı modellerini "spekülatif kod çözme" modellerinden düşük olasılıklı dizilere tabi tutuyorlar.

Ayrıca Bard'ın "spekülatif kod çözme" kullandığı da tahmin ediliyor çünkü Google, kullanıcıya göndermeden önce tüm dizinin tam olarak oluşturulmasını bekliyor, ancak ihbarcının görüşüne göre bu tahmin tamamen yanlış.

Görsel Çok Modlu

Görsel çok modlu yetenekler, en azından önde gelen araştırmalarla karşılaştırıldığında, GPT-4'ün en az etkileyici kısmıdır.

Tabii ki, henüz hiç kimse multimodal LLM araştırmasının sonuçlarını ticarileştirmedi.

Bilgi uçuran, metin kodlayıcıdan bağımsız bir görsel kodlayıcı olduğunu, bunun yanı sıra çapraz dikkat, mimarinin Flamingo'ya benzediğini ve GPT-4 1.8T'ye daha fazla parametre eklendiğini söyledi.

GPT-4'ün çok modlu kapasitesi, metin ön eğitiminden sonra yaklaşık 2 trilyon belirteçle ince ayarlanmıştır.

Görsel modelde OpenAI'nin başlangıçta sıfırdan eğitim vermeyi umduğu, ancak yeterince olgun olmadığı için metin eğitim modelinden ince ayar yapmaktan başka seçeneği olmadığı söyleniyor.

Ve eğitiminde vizyon modelini sıfırdan eğitmesi ve görüntü üretebilmesi ve hatta ses üretebilmesi gereken yeni nesil model GPT-5.

Bu görsel yeteneğin ana amaçlarından biri, otonom ajanların web sayfalarını okumasını ve görüntüleri, videoları yazıya dökmesini sağlamaktır.

OpenAI tarafından çok modlu modelleri eğitmek için kullanılan verilerin şunları içerdiğini belirtmekte fayda var: "ortak veriler" (LaTeX/metin), web sayfası ekran görüntüleri, YouTube videoları (örnekleme çerçeveleri ve altyazıları almak için Whisper'ı çalıştırmak).

LLM'lerin aşırı optimizasyonuyla ilgili ilginç bir gerçek, görsel modellerin metinsel modellerden farklı bir IO maliyetine sahip olmasıdır. Görsel modelde, veri yükleme IO'su, metin modelinin yaklaşık 150 katıdır.

Görsel modelin IO maliyeti düşüktür

Görsel modeldeki her belirteç 600 bayttır ve metin 4 bayt/belirteçtir.

Dolayısıyla bu, görüntü sıkıştırma açısından çok fazla çalışma gerektiriyor. Bu, donanımı LLM kullanım durumları ve oranları etrafında 2-3 yıl sonra optimize ettikleri için donanım satıcıları için son derece önemlidir.

Kendilerini her modelin güçlü görsel ve işitsel özelliklere sahip olduğu bir dünyada bulabilirler.

Kendilerini mimariye uygun bulmayabilirler.

Genel olarak mimari, bugün gördüğümüz metin tabanlı basitleştirilmiş yoğun modelleri ve MoE modellerini kesinlikle geride bırakacaktır.

Referanslar

View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • Comment
  • Share
Comment
0/400
No comments
  • Pin
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate app
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)