Microsoft'un makalesinin ekran görüntüsü, GPT-3.5'in yalnızca 20 milyar parametreye sahip olduğunu ortaya koydu. Yapay zeka çemberi şok oldu ve netizenler bunun çok çirkin olduğunu haykırdı!

Orijinal kaynak: Yeni Zhiyuan

Görüntü kaynağı: Sınırsız AI tarafından oluşturuldu

GPT-3.5'in yalnızca 20 milyar parametresi mi var?

Bugün, büyük model çemberi Microsoft'un makalesindeki bir ekran görüntüsüyle havaya uçtu, neler oluyor?

Sadece birkaç gün önce Microsoft, arXiv hakkında yalnızca 75M parametreli küçük ölçekli bir difüzyon modeli öneren bir makale yayınladı - CodeFusion.

Performans açısından, CodeFusion'ın 75 milyon parametresi, en iyi 1 doğruluk göstergesi açısından son teknoloji ürünü 350M-175B modeliyle karşılaştırılabilir.

Adres:

Bu makalenin çalışması çok ilginç, ancak herkesin özel ilgisini çeken şey -

Yazar ChatGPT'yi (gpt-3.5-turbo) karşılaştırdığında, nominal parametre sayısı yalnızca 20B'dir!

Bundan önce, herkesin GPT-3.5 parametrelerinin sayısı hakkındaki tahmini 175 milyardı, bu da neredeyse on katlık bir azalmaya eşdeğer!

Bu makalenin ifşaatlarına göre, netizenler GPT-3.5'in tanıtımını güncellemek için Wikipedia'ya da gittiler ve parametre boyutunu doğrudan 20B olarak değiştirdiler.

Haber çıkar çıkmaz, doğrudan Zhihu'nun sıcak aramasında göründü ve netizenler patladı.

Bazı insanlar, acele edin ve incelemek ve incelemek için önceki model damıtma blog yazımı çıkarın dedi.

## **"Oolong" mu yoksa "gerçek" mi? **

Netizenlerin ifşaatları ortaya çıkar çıkmaz, anında hararetli tartışmalara yol açtılar.

Şimdiye kadar 680.000'den fazla kişi izlemeye geldi.

Ağabey, makalenin birkaç yazarının da Twitter kullandığını ve şahsen açıklama yapmalarının çok uzun sürmeyeceğinin tahmin edildiğini söyledi.

Bu gizemli "20B" ye gelince, netizenlerin de farklı görüşleri var.

Bazıları bunun büyük olasılıkla yazarın bir hatası olduğunu düşünüyor. Örneğin, başlangıçta 120B veya 200B idi.

Gerçekte çeşitli değerlendirmelerle birleştiğinde, Mistral-7B gibi ChatGPT ile benzer sonuçlar elde edebilen gerçekten birçok küçük model var.

Belki de bu aynı zamanda GPT-3.5'in gerçekten büyük olmadığının bir yan teyididir.

Birçok netizen de 20B parametrelerinin doğru olabileceğini düşünüyor ve iç çektiler:

"Hayal bile edilemez! Ne Falcon-180B ne de Llama2-70B, 20B modelini yenemez."

Bazı netizenler ayrıca GPT-3.5-Turbo'nun GPT-3.5'in rafine edilmiş bir versiyonu olduğuna inanıyor.

Ve parametrelerin bu "sızıntısı", GPT-3.5-Turbo'nun eski GPT-3.5 kadar iyi olmadığına dair söylentileri doğruluyor.

Ancak OpenAI'nin resmi belgelerine göre, artık kullanılmayan text-davinci ve code-davinci dışında, GPT-3.5 ailesinin tüm üyeleri gpt-3.5-turbo'yu temel alıyor.

## Microsoft, CodeFusion'ı Yayınladı

GPT3.5'in yalnızca 20B parametresine sahip olduğunu ortaya koyan Microsoft makalesi, kod üretimi için bir difüzyon modeli sunmak istiyor.

Araştırmacılar, Bash, Python ve Microsoft Excel koşullu biçimlendirme (CF) kuralları için doğal dil için kod üretme görevi için bir model olan CodeFusion'ı değerlendirdi.

Deneyler, CodeFusion'ın (yalnızca 75M parametreler) top-1 doğruluğu açısından son teknoloji LLM (350M-175B parametreleri) ile karşılaştırılabilir olduğunu ve ilk 3 ve ilk 5 doğruluğu açısından mükemmel performans ve parametre oranına sahip olduğunu göstermiştir.

Model Mimarisi

CODEFUSION, KOD OLUŞTURMA GÖREVLERI IÇIN KULLANILIR VE EĞITIMI IKI AŞAMAYA AYRILIR, ILK AŞAMA DENETIMSIZ ÖN EĞITIM VE IKINCI AŞAMA DENETIMLI INCE AYARDIR.

İLK AŞAMADA CODEFUSION, GÜRÜLTÜ GIDERICIYI VE KOD ÇÖZÜCÜYÜ EĞITMEK IÇIN ETIKETLENMEMIŞ KOD PARÇACIKLARI KULLANIR. Ayrıca, kod parçacıklarını bitişik alanlara gömmek için eğitilebilir bir gömme katmanı olan L'yi kullanır.

İKINCI AŞAMADA, CODEFUSION, METIN KODU ÇIFTLERINDEN GELEN VERILERI KULLANARAK DENETIMLI INCE AYAR GERÇEKLEŞTIRIR. Bu aşamada, kodlayıcı, gürültü giderici ve kod çözücü, görevi daha iyi gerçekleştirmek için ayarlanmıştır.

EK OLARAK, CODEFUSION, KOD ÇÖZÜCÜDEN GELEN GIZLI GÖSTERIM D'YI MODELE KAYNAŞTIRMAK IÇIN METIN DIFÜZYONU ÜZERINE ÖNCEKI ARAŞTIRMALARDAN YARARLANIR. Bu, modelin performansını artırmak içindir. Eğitim sürecinde, farklı adımlarda, model bir miktar gürültü çıkarır ve ardından oluşturulan kod parçacığının beklenen standartla daha uyumlu olmasını sağlamak için kayıp işlevini hesaplar.

ÖZETLE, CODEFUSION, KOD OLUŞTURMA IŞI GERÇEKLEŞTIREN VE IKI AŞAMALI EĞITIM VE GÜRÜLTÜ ALIMI YOLUYLA PERFORMANSINI SÜREKLI OLARAK IYILEŞTIREN KÜÇÜK BIR MODELDIR. Bu model, metin difüzyonu çalışmasından esinlenmiştir ve yüksek kaliteli kod parçacıklarını daha iyi oluşturmak için kod çözücünün gizli temsilini birleştirerek kayıp işlevini geliştirir.

Değerlendirme Sonuçları

Aşağıdaki tablo, CODEFUSION modelinin ve her bir temel modelin ilk 1, ilk 3 ve ilk 5 ayarlarındaki performansını özetlemektedir.

İlk 1'de CODEFUSION'ın performansı, özellikle yalnızca GPT-3'ün (175B) CODEFUSION'dan (75M) biraz daha iyi performans gösterdiği Python görevlerinde karşılaştırılabilir ve bazı durumlarda daha da iyidir. Bununla birlikte, ilk 3 ve ilk 5 açısından CODEFUSION, tüm temel modellerden önemli ölçüde daha iyi performans gösterdi.

Aşağıdaki tablo, her bir kıyaslama görevinde CODEFUSION ve otoregresif modellerin (T5, CodeT5, StarCoder, CodeGen ve GPT-3 dahil) ortalama çeşitlilik sonuçlarını göstermekte ve her modelin ilk 5 nesli tarafından üretilen sonuçları incelemektedir.

OTOREGRESIF MODELLERLE KARŞILAŞTIRILDIĞINDA, CODEFUSION DAHA ÇEŞITLI SONUÇLAR ÜRETIR VE DAHA IYI PERFORMANS GÖSTERIR.

Ablasyon deneyinde, yazarlar gürültü giderme işlemini durdurdular ve t∈[0, T] zaman adımı aralığında mevcut durumun bir kod parçacığını oluşturdular. Dize düzenleme mesafesini normalleştir, her bir zaman adımı için elde edilen sonuçları ölçmek için kullanılır (her 100 adımda bir artışlarla).

BU YAKLAŞIM, AŞAĞIDAKI ŞEKILDE GÖSTERILDIĞI GIBI CODEFUSION MODELININ ADIM ADIM ILERLEMESINI ÖZETLEMEYE VE GÖSTERMEYE YARDIMCI OLUR.

Tüm bunları söyledikten sonra, GPT-3.5'teki parametre sayısı tam olarak nedir? GPT-4 ve GPT-3.5 arasındaki teknik ve diğer bağlantı nedir?

GPT-3.5, küçük uzman modellerden oluşan bir topluluk mu yoksa genel bir model mi? Daha büyük bir model tarafından damıtılmış mı yoksa daha büyük bir veri üzerinde mi eğitilmiş?

Bu soruların cevapları ancak gerçekten açık kaynak olduklarında ortaya çıkacaktır.

Kaynaklar:

View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • Comment
  • Share
Comment
0/400
No comments
  • Pin
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate app
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)