Resim kaynağı: Unbounded AI aracı tarafından oluşturulmuştur, genel model (oyun CG'si)
Bağlam uzunluğu, GPT-3'ün en büyük sınırlamalarından biriydi. GPT-3 en fazla 4000 jeton (3000 kelime, 6 sayfa) kabul edebilir, aksi halde bir hata raporlanır. Bu nedenle, uzun belgeler ve istemlerle () başa çıkmak için, LangChain gibi diğer geri alma tekniklerini tanıtmak gerekir. Bununla birlikte, Databricks tarafından yaklaşık 1,3 milyar dolara satın alınan MosaicML, MPT-7B içeriğini Mayıs ayı başlarında 84.000 belirteç (63.000 kelime, 126 sayfa) ile açarak işlenebilecek metin aralığını büyük ölçüde genişletti. , Anthronpic tarafından geliştirilen Claude modeli, 100.000 belirteçle genişletilmiş bir bağlam uzunluğuna sahiptir.
MPT-7B, eğitim verisi olarak 1 trilyon token metin ve kod kullanılarak sıfırdan eğitildi. Diğer benzer modellerle karşılaştırıldığında (Pythia ve OpenLLaMA gibi 300 milyar jeton kullanır, StableLM 800 milyar jeton kullanır), MPT-7B'nin eğitim verileri daha büyüktür ve kalitesi LLaMA-7B'ninkiyle karşılaştırılabilir. Model, 440 GPU kullanılarak MosaicML platformunda eğitildi ve eğitim süreci, insan müdahalesi olmadan 9,5 gün sürdü ve yaklaşık 200.000 ABD Doları'na mal oldu. Diğer açık modellerin aksine, MPT-7B ticari kullanım için lisanslanmıştır ve FlashAttention ve FasterTransformer ile hızlı eğitim ve çıkarım için optimize edilmiştir.
(Sıfır vuruşlu akademik görevlerde MPT-7B performansı)
MosaicML ayrıca ince ayar için temel MPT-7B'yi temel alan üç MPT-7B-Instruct, MPT-7B-Chat, MPT-7B-StoryWriter-65k+ modelini piyasaya sürdü.
Model, dolly_hhrlhf üzerinde ince ayarlanmıştır. dolly_hhrlhf veri kümesi, "dolly-5k" veri kümesinin üzerine inşa edilmiştir.
Model, ShareGPT-Vicuna, HC3, Alpaca, Helpful and Harmless ve Evol-Instruct veri setlerinde ince ayarlanmıştır.
Bu model için ince ayarlı veri kümesi, 65k bağlam uzunluğuna sahip kitaplardaki3 romanların filtrelenmiş bir alt kümesidir. Reklamı yapılan boyut 65 bin jeton iken, ekip tek bir düğümün A100-80GB GPU'sunda çalışırken 84 bin jetonluk bir yanıt alabildi. Bunun arkasındaki anahtar teknoloji ALiBi'dir. Great Gatsby'nin başlangıçta yalnızca yaklaşık 68 bin jetonu vardı, bu nedenle ekip, romana yeni bir son yaratmak için MPT-7B-StoryWriter-65k+ modelini kullandı.
Ekip, model kontrol noktalarına ek olarak, yeni MosaicML LLM Foundry aracılığıyla ön eğitim, ince ayar ve MPT değerlendirmesi için eksiksiz kod tabanını açık kaynaklı hale getirdi. Yukarıdaki tablo, LLM Foundry'deki bağlamsal öğrenme değerlendirme çerçevesi kullanılarak oluşturulmuştur.
MosaicML Baş Bilim İnsanı Jonathan Frankle ve Araştırma Bilimcisi Abhinav Venigalla, MPT-7B'nin tüm eğitim sürecine liderlik eden MPT-7B'nin başkanlarıdır. Latent Space'in en son podcast'inde Swyx ve Decibel Partners'ın ana ortağı Alessio, onlarla MPT-7B eğitim sürecinin yeniliğini tartıştı ve LLM veri seti kombinasyonunun neden önemli ve gizemli bir sanat olduğunu açıkladı. Ayrıca, bazı geleneksel çoktan seçmeli testler, inşa edilen teknoloji için çok yardımcı olmayabilir ve bunun arkasındaki nedenleri de keşfedeceklerdir.
(Aşağıdaki içerik OneFlow tarafından yetkilendirildikten sonra derlenir ve yayınlanır, kaynak: https://
MPT-7B modelinin yapımı
**Swyx: MPT-7B'yi neden geliştirdiniz? **
Abhinav: MPT-7B projesi yaklaşık 6-12 ay sürdü. Geçen yaz dil modelleri üzerinde çalışmaya başladık ve dil modellerini analiz eden bir blog yazısı yayınladık ve eğitim maliyetinin aslında insanların düşündüğünden çok daha düşük olabileceğini bulduk. Ayrıca o zamandan beri, Meta AI tarafından yayınlanan LLaMA modelinden ve diğer birçok açık kaynak çalışmasından ilham alarak, MPT'nin kökeni olan 7 milyar parametreli gerçekten iyi bir model oluşturmak için yola çıktık.
Alessio: Podcast'lerden birinde şunları söylediniz: Mosaic'in model oluşturup yayınlama gibi bir planı yok. Ama sonunda yine de modeli çıkardınız, fikrinizi değiştiren ne oldu?
Jonathan: Bence birkaç faktör var: Hâlâ birinci sınıf bir modelimiz yok. İşimizin müşterilerin kendi modellerini oluşturması etrafında döndüğü OpenAI'den farklı olarak, onlara öncelikle araçları sağlıyoruz ve bu araçların etkili olabilmesi için önce kendi modellerimizi oluşturmamız gerekiyor.
Açık olmalı ki, müşterilerimiz harika şeyler yapabiliyorsa, biz de harika şeyler yapabiliriz. Twitter'da Mosaic'in gösterdiği sayıların doğruluğunu sorgulayan birçok insanla karşılaştım, örneğin Ross Whiteman'ın "Gerçek sonuçları görelim" demesi gibi, ben de "Ross, sence bunlar nasıl oldu? Modeli 9.5 günde 200.000$ maliyetle geliştirdik, siz de yapabilirsiniz.
**Swyx: **Geçen yıl yayınladığınız verilere atıfta bulunarak, başlangıçta GPT-3 eğitim maliyetinin 450.000 ABD Dolarından az olduğu tahmin edilmişti ve daha sonra 100.000 ABD Dolarına düşürüldü; Kararlı Difüzyon maliyeti de 160.000 ABD Dolarından düşürüldü 50.000 doların altına.
Jonathan: 100.000$ rakamı konusunda hâlâ çok temkinliyim. Henüz orada değil ama biz o yöne gidiyoruz ve bu Abhi için büyük bir zorluk.
Swyx: MPT-7B modelinin üç çeşidi vardır ve bunlardan biri bağlam uzunluğu açısından SOTA'yı başarır. Bu modeller için eğitim süreci nasıldır?
Abhinav: Temel modelimiz, aşırı müdahale olmaksızın ince ayar modeli için verimli bir eğitim başlangıç noktası sağlayan, 7 milyar parametre ve 1 trilyon jetonluk bir eğitim verisi ile LLaMA-7B'nin yeniden oluşturulmasıdır. MPT-7B-StoryWriter-65k+ gibi modelin ince ayarı da çok ilgi çekicidir, hikaye yazmak için kullanılabilir, bağlam penceresi uzunluğu 65.000'dir ve ayrıca bilinen içeriğe dayalı olarak yazmaya devam edebilir.
Tabii ki bu, düşündüğümüz yönlerden sadece bir tanesi MPT-7B Base modelini, uzun bağlam kodu modelleri veya belirli dil modelleri gibi farklı ihtiyaçlara uygun özel modeller oluşturmak için kullanabilirsiniz. Bu nedenle, temel model temel alınarak, sırasıyla kısa talimatları takip etmek, diyalog sohbeti yapmak ve hikaye yazmak için kullanılan MPT-7B-Instruct, MPT-7B-Chat ve MPT-7B-StoryWriter-65k+ olmak üzere üç varyant oluşturuldu.
Alessio: Modeli eğitirken kaç belirteç ve parametre kullanacağınıza nasıl karar veriyorsunuz? 7 milyar ve 3 milyar model parametresi şu anda moda olan iki sihirli sayı gibi görünüyor.
Abhinav: Eğitim modelleri için, ölçeklendirme yasası size eğitim bilgi işlem kaynaklarının en verimli şekilde nasıl kullanılacağını söyleyebilir. Örneğin bütçe 200.000 ABD doları ise ölçek kanununa göre en etkili eğitim programı verilebilir.
Bunlar arasında en sık takip ettiğimiz Chinchilla yasasıdır. MPT-7B modeli ve ilgili varyantları için, bu yasalara katı bir şekilde uyulmamaktadır, çünkü modelin kişisel kullanıma uygun olmasını ve iyi bir çıkarım performansına sahip olmasını sağlamak istiyoruz, bu nedenle aşırı eğitilmiş, Chinchilla Noktasını aşmıştır (verilere atıfta bulunularak). belirteçlerle ölçülen seviye). İnternette bazı kişiler şaka yollu bu modellere Llongboi diyor çünkü eğitim süreleri oldukça uzun.7B modelini örnek alırsak Chinchilla Point 140 milyar jeton olabilir ama biz aslında 1 trilyon jeton eğittik yani eğitim süresi neredeyse 7 normalden kat daha uzun.
**Swyx: Llongboi bir eğitim yönteminden mi bahsediyor? **
Jonathan: Llongboi, Chinchilla yasasının gerektirdiğinden daha fazla jeton kullanan bir eğitim yöntemine atıfta bulunan, içeriden birinin şakasından başka bir şey değil. Llongboi'nin başında LLaMA'ya haraç ödemek için kullanılan iki "L" harfi olduğu görülebilir. CEO'muz bir keresinde modele "Llongboi" olarak atıfta bulunarak adı Twitter'da herkese açık hale getirdi. Bazen erkenden sızmasın diye onun Twitter şifresini gerçekten almak istiyorum ama artık adını tüm dünya biliyor.
Mimari hakkında, ALiBi, bağlam
**Alessio:**Flash Attention ve Faster Transformer, model yapınızın iki temel öğesidir. Avantajları nelerdir?
**Abhinav:**Flash Dikkat, Stanford'un Hazy Research laboratuvarı tarafından geliştirilmiş, Tam Dikkat'in daha hızlı bir uygulamasıdır. Geçen Eylül ayında kütüphanemize Flash Attention'ı entegre ettik ve eğitim ve çıkarım hızında büyük rol oynadı. Diğer Hugging Face modelleriyle karşılaştırıldığında çok özel olan bu model, genel Torch Dikkati ile GPU için özel olarak tasarlanmış Flash Dikkat arasında geçiş yapabilir, bu da modelin eğitim hızını yaklaşık 2 kat, çıkarım hızını ise %50 artırır. -100%.
**Swyx: ALiBi konumsal kodlamayı seçmeniz için sizi ne motive etti? **
Abhinav: ALiBi konumsal kodlama, Flash Dikkat ve egzersiz kararlılığını ilginç bir şekilde birleştirdik. ALiBi, modelde konumsal gömme ihtiyacını ortadan kaldırabilir. Önceden, bir belirteç 1. konuma sahipse, o zaman belirli bir konum yerleştirme eklemeniz gerekiyordu ve maksimum konumu (genellikle 2000) aşamazdınız. Ancak ALiBi ile bu sorun çözüldü. Sadece Dikkat Haritasına bir eğim gibi bir bias (bias) eklememiz gerekiyor ve çıkarım için daha uzun bir pozisyon aralığı gerekiyorsa, bu eğimi daha uzun bir pozisyon sayısına genişletecektir. Bu yaklaşım işe yarar çünkü eğim süreklidir ve yorumlanabilir.
İlginç bir şekilde, Flash Dikkat sayesinde model çok fazla bellek tasarrufu sağlıyor ve performansı artırıyor, bu nedenle geçen yıl çok uzun bağlamlara sahip (65k'ye kadar) modellerde performans testleri yapmaya başladık ve aynı zamanda bunu gerçekleştirmek çok zor. istikrarlı eğitim Daha sonra ALiBi'yi modele entegre etmeye çalıştık ve modelin kararlılığı önemli ölçüde iyileştirildi. Artık hikaye yazma modellerini çok uzun bağlamlarda istikrarlı bir şekilde eğitebilir ve bunların verimli kullanımını garanti edebiliriz.
Jonathan: Bağlam uzunluğu teknik olarak sınırsızdır. Yeterli hafıza verildiği sürece, diyalog süresiz olarak devam edebilir. Modelin işleyebileceği en uzun sayının, insanların pratikte rahatça işleyebileceği en uzun bağlam uzunluğu olan 84K olduğuna inanıyoruz. Ancak pratikte 84K'yı aşan bağlam uzunluklarını da denedik ve daha uzun uzunlukları kaldırabiliyoruz.
**Swyx:**Örneğin, "Muhteşem Gatsby" romanını modele girebilir ve ardından modelin, giriş metnine göre romanı yazmaya devam etmesini sağlayabiliriz ve son olarak model oldukça heyecan verici bir içerik çıkarır.
Jonathan: Mosaic'te hikayenin sonunun pek çok gerçekten iyi versiyonu var. Bir versiyon Gatsby'nin cenazesini anlatıyor, Nick Gatsby'nin hayaletiyle konuşmaya başlıyor, Gatsby'nin babası da ortaya çıkıyor ve sonra o ve Tom karakola geliyor. Bu sürüm olay örgüsüne çok önem veriyor ve bundan sonra ne olacağını açıklıyor. Ayrıca, birçok versiyonun çok Fitzgerald benzeri sonları var ve çok güzel yazılmışlar. Bu nedenle, modelin girdiyi işliyor ve anlamlı çıktılar üretiyor gibi göründüğünü görmek heyecan verici. Bu bağlam uzunluğu ile çok şey yapabiliriz.
Alessio: Bellek, modelin kısıtlamalarından biri haline gelmeye başlıyor, peki parametre boyutu ve bağlam uzunluğu nasıl seçilmelidir?
Jonathan: Son zamanlarda, uzun bağlamlar üzerine yapılan araştırmalar çok dikkat çekti ve bir dizi ilgili makale ortaya çıktı. Bununla birlikte, bu makaleler tamamen doğru değildir ve bir dereceye kadar, özellikle dikkat mekanizmalarıyla ilgili olarak, ikinci dereceden olmayan dikkat mekanizmalarını (yaklaşık, hiyerarşik dikkat gibi) açık ve doğru ikinci dereceden dikkatle karşılaştırırlar. . Yaklaştırma yöntemleri konusunda iyimserim, bu yüzden bu makaleleri araştırmak için sabırsızlanıyorum.
Makale yazmak ve okumak bana, kendiniz yapana kadar hiçbir veriye güvenmeme konusunda önemli bir ders verdi. Mosaic'te, uygulamalarda birçok kez hayal kırıklığına uğradık çünkü ilk başta umut verici görünen makaleler, ancak uygulamadan sonra kağıtların verileri manipüle ettiğini fark etti. Bu nedenle, verilerden her zaman şüpheliyim ve yeniden uygulanıp doğrulanana kadar hiçbir sonuca güvenmiyorum. Genel olarak, uygulama işe yaradı ve çoğu zaman teoriler pratikte beklendiği kadar iyi çalışmadı.
MPT-7B'nin Özellikleri
**Swyx: MPT-7B'nin belirli özellikleri nelerdir? **
Abhinav: Bunu iki kısma ayırırdım, ilki antrenmanın istikrarı. Bu soru üç bölüme ayrılabilir. Birincisi, modelin, ilk savunma hattımız olan eğitim sırasında ani kayıplardan kaçınması gerekiyor. Kanımca, 7 milyar parametrelik bir eğitim boyutunda kayıp artışları büyük bir sorun değil. Ancak, eğitim süresi arttıkça kayıp artışlarından kaçınmak zorlaşır. Kayıp artışlarını önlemek için başlatma yöntemlerinin, optimize edicilerin, mimarilerin vb. nasıl ayarlanacağını bulmak için uzun zaman harcadık. Eğitimimiz sırasında bile, dikkatli bakarsak, yine de bazı küçük aralıklı zirveler bulabiliriz, ancak bu zirveler birkaç yüz adım içinde normale dönecektir ki bu çok sihirli bir olgudur ve bu, zirve kaybından doğal olarak kurtulmamıza yardımcı olabilir.
Determinizm ve akıllı kurtarma stratejileri, ikinci savunma hattımızdır. Çok büyük bir hata durumunda, hatadan önceki birkaç partide bazı müdahaleler uygulayarak eğitime hızlı bir şekilde devam edebileceğiz. Olası sorunlar için çeşitli hazırlıklar yaptık. Ancak MPT-7B'nin eğitiminde bu yedekleme önlemlerini hiç kullanmadık ki bu bir nevi şanstır denilebilir.
Doğru eğitim altyapısı üçüncü savunma hattıdır. Modeli yüzlerce GPU üzerinde eğitmeye çalışırsak, genellikle donanım arızaları olur. Örneğin, 512 GPU'lu büyük bir kümede bir modeli eğitirken, eğitim neredeyse iki günde bir başarısız olur, başarısızlığın nedeni bir ağ hatası olabilir.
Tipik olarak, insanlar bu başarısızlıklarla başa çıkmak için 7/24 nöbetçi ekipler kurarlar. Bir arıza meydana geldiğinde ekip, kümeyi kontrol etmeye, bozuk düğümleri kaldırmaya, yeniden başlatmaya vb. çalışır ki bu çok sıkıcı bir iştir. Eskiden hataları manuel olarak kontrol etmek için aylar harcardık, ancak şimdi model eğitim sürecindeki her düğümü otomatikleştirecek bir platform oluşturduk.
Bir model çalıştırmayla ilgili bir sorun olduğunda, otomatik izleme sistemimiz işi durdurur, bozuk düğümleri test eder, kontrol eder ve yeniden başlatır. Yazılımımızın deterministik ve hızlı kurtarma yetenekleri nedeniyle, model gayet iyi çalışmaya devam ediyor. Sonuç olarak, bazen model günlüklerinde, bir modelin gece 02:00'de arızalanmasının ardından, bir ekip üyesinin manuel müdahalesi olmadan dakikalar içinde yedeklenip çalışmaya başladığını görebiliriz.
Jonathan: Bunu yapmak gerçekten kolay değil. Birkaç ay önce modelde bir donanım arızası olsaydı, ekip üyelerinin sorunun nedenini kontrol etmek için sabah saat ikide kalkması gerekirdi. düğüm hatası ve işi yeniden başlatın. Daha önce, 7 milyar parametrelik bir eğitim ölçeğinde bile, sıklıkla yıkıcı kayıp artışlarıyla karşılaşıyorduk ve bu sorunlar, modelin eğitimini ciddi şekilde etkiliyordu.
Artık bu sorunları artan iyileştirmelerle ele aldık. Abhinav'ın dediği gibi, artık bir ofiste oturarak birden fazla modeli eğitirken, modelin başarısız olması ve eğitimi kesintiye uğratması konusunda endişelenmeden yapabiliriz.
Veri seçimi ve tekrarı ve LLM'nin değerlendirme zorlukları
**Swyx: Veri seçimi odak noktanız, biraz genişletebilir misiniz? **
Jonathan: Modeli fiilen eğitmek yerine veri işleme için tüm GPU'yu kullanmaya çalıştığımda Abhi beni neredeyse öldürüyordu. Bir modeli eğitmenin çok fazla veri gerektirdiğini biliyoruz, ancak aynı zamanda birçok belirsizlik de var.
Biri hangi tür farklı veri kaynaklarının önemli olduğu, diğeri ise çoğaltmanın önemidir. Bunların arasında, tekrarla ilgili soru, nitelik ve nicelik değiş tokuşlarına bölünebilir. Diyelim ki dünyanın en iyi 10 milyar sözcüksel verisine sahibim, onu yüz kez yeniden eğitmek mi daha iyi yoksa 1 trilyon düşük kaliteli, güncel sözcüksel veri kullanmak mı daha iyi? Elbette bir uzlaşma noktası olabilir, ancak yüksek kaliteli verilerin nasıl belirleneceği de bir sorundur ve henüz net bir cevap yoktur. Şimdi akademi dünyasına dönsem kesinlikle bu konuda bir makale yazardım çünkü henüz bu konuda hiçbir şey bilmiyorum.
Swyx: Şimdiye kadar bununla ilgili herhangi bir araştırma makalesi görmedim.
Jonathan: Tez araştırmasının ana sorusu "ne tür veri seti kombinasyonunun kullanılması gerektiğidir".
Modeli yaratma sürecinde, ders verdiğim Georgetown Hukuk Okulu'na geri döndüm ve bir grup hukuk öğrencisiyle oturup konuyu tartıştım. Onlara yüksek kaliteli bir veri seti, verilerin nasıl karıştırılacağı ve sahip oldukları jeton sayısı veriyorum ve modelleri için en iyi veri setini oluşturmalarına izin veriyorum.
Girdi verilerinin davranışı etkilemesi dışında LLM'ler hakkında hiçbir şey bilmiyorlar. Onlara tüm farklı değiş tokuşları kapsayan bir melez yaratmalarını söylüyorum. İlk başta, İnternet üzerinden elde edilebilecek büyük miktarda İngilizce külliyat gerekebilir; bunu çok dilli bir model yapmak istiyorsanız, o zaman İngilizce külliyat çok azaltılacaktır; ayrıca kodun içeri girip girmeyeceği BT.
Bazı insanlar, kodun modelin mantıksal akıl yürütmede daha iyi performans göstermesini sağlayabileceğini düşünüyor, ancak ben bu fikri destekleyen herhangi bir kanıt görmedim. Gerçekten de mükemmel bir kod modeli geliştirmiş olmamıza rağmen, kod modelinin daha iyi düşünme zinciri akıl yürütme becerisine yol açıp açmayacağı daha fazla araştırma gerektirir.
GPT-3'ün bir versiyonunun "Da Vinci Şifresi" romanından eğitildiği söyleniyor, bu yüzden bazı insanlar bunun yararlı olabileceğini düşünüyor, ancak kanıt yok; ) modelin eğitimine yardımcı olacak, ancak ayrıca var kanıt eksikliği.
Bu nedenle, birçok farklı veri karışımını denedik ve bazı veri karışımlarının diğerlerinden daha iyi veya daha kötü çalıştığını gördük. Örneğin, "The Pile" çok kararlı bir veri karışımıdır, ancak değerlendirme ölçütlerine göre daha iyi başka veri karışımları da vardır. Daha sonra çok önemli olan değerlendirme konusuna da değineceğim.
T5 modeli, başlangıçta son derece iyi performans gösteren C4 veri kümesi üzerinde eğitildi. EleutherAI'den Stella Beaterman dahil diğerleri, tweet attığımda bundan bahsetti. T5 modeliyle ilgili orijinal makalede, C4 veri kümesi için ön işleme yöntemi tuhaf görünüyor ve yazarlar Java ile ilgili uyarılar istemedikleri için "Java" kelimesini içeren her şeyi veri kümesinden kaldırdılar. Ayrıca, Java'nın eklenmesini istemedikleri için kaşlı ayraçların dahil edilmesini kaldırdılar.
Kötü kelimeler listesine baktılar ve kötü kelimeler içeren içeriği kaldırdılar. Bununla birlikte, kötü kelimeler listesi aslında "gay" gibi aslında kötü olmayan bazı kelimeler içerir. Ancak bu temizleme işlemi nedeniyle, ortaya çıkan veri seti rakipsiz görünüyor. Bu noktadan itibaren, veriler hakkında hiçbir şey bilmiyoruz.
Aslında, MC4 adlı bir veri seti de kullandık, MC4 ve C4 aynı ön işlemeye sahipti, ancak daha fazla web araması (web araması) ekledik, ancak C4 ile karşılaştırıldığında, MC4'ün İngilizce kısmı bilinmeyen nedenlerle Çoğu için daha kötü.
Bunun için iki kriter belirledim:
Öncelikle İngilizce kısmı en az MC4 kadar iyi olmalıdır. Mevcut diğer veri kümeleriyle karşılaştırıldığında, MC4'ün İngilizce kısmı daha iyidir. İkincisi, veri çeşitliliği konusunda sonuna kadar gidin ve veri kümesinin kod, bilimsel makaleler ve Wikipedia gibi şeyleri içerdiğinden emin olun çünkü insanlar modeli çeşitli farklı görevler için kullanacak.
Ama bence en önemlisi, model sadece değerlendirme ölçütü kadar iyi. Abhi bu noktada aynı fikirde olmayabilir. Üretken modelleri, belirli görevleri yerine getirmeleri istendiğinde doğru bir şekilde nasıl değerlendireceğimizi bilmiyoruz. Bazı durumlarda, kendi değerlendirmelerimizin gerçekten umursadığımız şeyleri bile ölçmediğini, dolayısıyla yalnızca makul seçimler yapabileceğimizi kabul etmeliyiz.
Swyx: MMLU (Massive Multitask Language Learning) ve BIG-bench gibi değerlendirme yöntemlerinin yeterince ikna edici olmadığını mı düşünüyorsunuz?
Jonathan: Bu yöntemler şüphesiz iki tür görev yapar. Biri, modelin A, B, C veya D gibi seçenekler oluşturmasına izin veren ve ardından modelin şaşkınlığını hesaplayarak üretme olasılığı en yüksek olan yanıtı seçen, bir doğru yanıtı içeren çoktan seçmeli bir görevdir. olası her cevap. Ancak modelden çoktan seçmeli sorular yapmasını istemek yerine, özetleme gibi ikinci tür açık uçlu üretken bir görev yapıyoruz. BLEU ve ROUGE gibi metrikleri kullanarak karşılaştırmak yeterince doğru değildir, birçok mükemmel kağıt özeti ve açık oluşturma yöntemi vardır. Buna karşılık, manuel daha güvenilir bir değerlendirme standardıdır, ancak manuel değerlendirme çok zaman alıcı ve zahmetlidir ve gelecekte mümkün olabilecek gerçek zamanlı modelle karşılaştırılamaz.
Abhinav: Yeni ölçümler oluşturmamıza yardımcı olan harika bir değerlendirme ekibimiz var.
Jonathan: Ancak LLM'leri değerlendirmek zor ve bu ölçütlerin hiçbirinin pratikte bir modelden beklediğimizi gerçekten yansıttığını düşünmüyorum.
Model eğitiminin maliyet azaltma ve verimlilik artışı
Swyx: Şimdi insanların bir modeli eğitmesi üç ila on gün sürüyor, bu süreyi ne kadar kısaltmak istiyorsunuz?
Abhinav: Bu yıl, ham model eğitim verimliliği iyileştirmeleri açısından muhtemelen en heyecan verici yıllardan biri. Bu yıl hem donanım hem de yazılım buna göre yükseltildi.İlki, Nvidia'nın tek başına performansı en az iki kat artırabilen yeni nesil donanım H100'leri. İkinci olarak, tek başına kullanıldığında aynı performans iyileştirmesini sağlayabilen yeni bir kayan noktalı sayı biçimi FP8 vardır.
Birkaç yıl önce 32 bit hassasiyeti kullanmaya başladık ve ardından Nvidia 16 bit hassasiyeti tanıttı. Birkaç yıllık geliştirmeden sonra, gereksinimlerin sürekli olarak iyileştirilmesi nedeniyle 16 bitlik eğitim becerilerinde kademeli olarak ustalaştık.
Bu yılki 8.ÇP ile iş hacmini ikiye katlayabiliriz, bu da maliyeti üç katına çıkarabileceğimiz anlamına gelir. Aynı zamanda, H100'de FP8 kullanarak LLM eğitiminin profilini çıkarmaya başladık ve ilerleme hızlı oldu. Yani, sadece donanımı geliştirerek, maliyeti oldukça azaltabiliriz.
Ayrıca mimarlık uygulamaları ile ilgili birçok çalışma bulunmaktadır. Biraz seyreklik getirmenin yollarını araştırıyoruz, ancak tamamen rastgele seyreklik değil. Bunu başarmak için bir yolluk mekanizması veya MoE tarzı bir mimari yol var mı?
Asıl hedefimiz, GPT-J modelini eğitme maliyetini 500.000 $'dan 100.000 $'a düşürmekti ve bunu yıl sonuna kadar başarabilirsek, bu büyük bir başarı olur.
Jonathan: Bu fikir havada bir şato değil. Henüz o aşamaya gelinmemiş olsa da bu hedefe 2023 yılında ulaşılması muhtemeldir.
Eğitim ve çıkarım maliyetlerine ilişkin istatistikler azdır. Google'dan David Patterson, Google'ın makine öğrenimi için enerji kullanımını tartışan bir blog yazısı yayınladı. Ayrıntılı bir analizin ardından, Google son üç yılda kaynaklarının beşte üçünü çıkarıma ve beşte ikisini eğitime harcadı. Yukarıdakiler Google'ın verileridir, milyarlarca kullanıcı için modeller sağlarlar.
Google, muhtemelen dünyadaki en büyük çıkarım yüküne sahip yerdir. Ve bu, beşte üçü çıkarım, beşte ikisi ise eğitim ile eğitim için kaynak tahsisidir. Donanım daha pahalı olabilir ve donanımın ağ yapısı daha karmaşık olabilir, bu nedenle eğitim ve akıl yürütme ikiye bölünebilir. Yukarıdaki, Google'ın tahsis oranıdır, ancak diğer şirketler için eğitim daha yüksek bir ağırlık oluşturabilir.
AI araştırması için açıklığın önemi
Alessio: Önceki eğitim maliyeti çok pahalıydı, bu da yeterince deney yapmamızı engelledi, bu nedenle veri kümelerinin seçiminde vb. birçok sorun vardı.
Jonathan: Lisansüstü okulda, GPU'ları olduğu ve benim dizüstü bilgisayarımda olmadığı için arkadaşlarımı kıskanırdım, bu yüzden herhangi bir modeli eğitemezdim. Bir K80 GPU'ya sahip olabilmek için piyangoyu kazanmayı hayal ettim.
Derinlerde bir yerde, hala bilimin o hevesli öğrencisiyim. Bilimsel araştırma yapmak istiyorsak ve bu sistemleri gerçekten anlamak istiyorsak, nasıl iyi çalışacaklarını, davranışlarının unsurlarını, güvenliklerini ve güvenilirliklerini anlıyorsak, bilimsel çalışmalar yapabilmek için eğitim maliyetlerini düşürmemiz gerektiğine kuvvetle inanıyorum. araştırma. Örneğin, bir ilacın işe yaradığından emin olmak için çoklu hücre kültürleri ve deneyler yapmamız gereken biyolojik deneyleri ele alalım, bir şeyi gerçekten anlamadan önce çok sayıda bilimsel araştırma yapılması gerekir.
**Abhinav:**MosaicML'nin modelleri eğitmeye çalışan birçok müşterisi var, bu nedenle şirketin bilimsel araştırmaya çok fazla kaynak ve zaman ayırma konusunda bir teşviki var. Yalnızca modellerin nasıl eğitilmesi gerektiğini gerçekten anlayarak daha fazla kişiye yardımcı olabiliriz. Dolayısıyla bizim için bu birleştirme süreci çok önemli.
Toplu iş boyutunu veya başka bir şeyi araştıran daha önce Google'dan bir makale olduğunu hatırlıyorum. Bu makale muhtemelen milyonlarca dolara mal oldu ve bir bütün olarak topluluğa çok büyük faydaları var. Artık hepimiz bundan öğrenebilir ve bankayı bozmadan para biriktirebiliriz. Bu nedenle, Mosaic için deneysel araştırma yoluyla veriler, eğitim öncesi mimari vb. konularda derin içgörüler elde ettik ve bu nedenle müşteriler bizi tercih ediyor.
Jonathan: Açıklık, AI topluluğu için çok önemlidir. Bir anlamda kapanmak için hiçbir nedenimiz yok.Müşterilerin model eğitmesine yardımcı olarak gelir elde ediyoruz.Sonuçları toplulukla paylaşmaktan bir kaybımız yok.Sonuçta, kişiye özel modeller ve mükemmel altyapı ile gelir elde etmek zorundayız. Ve bu yönleri bir araya getirmek, şirketimize MosaicML adını vermemizin nedenidir.
Her zaman açık bir tutum sürdürdük ve elde ettiğimiz sonuçları saklamayacağız. Ama şimdi, sektördeki en büyük açık kaynak laboratuvarlarından biri haline geldiğimizi görüyorum ki bu üzücü bir gerçek çünkü MosaicML bir bütün olarak sektör açısından o kadar büyük değil, sadece yaklaşık 15 araştırmacımız var, diğerleri Laboratuvarlar kapandı ve artık kamuya çok fazla içerik yayınlamıyor. Ancak MosaicML, toplulukla iletişim kurmaya ve paylaşmaya devam edecek ve açık araştırmanın öncüsü olmak için elinden gelenin en iyisini yapacaktır. Araştırma ölçeğimiz ve hacmimiz büyük bir laboratuvarınkiyle boy ölçüşemeyecek olsa da, topluluk için kaynak yaratma çabasıyla öğrendiklerimizi paylaşmaya devam edeceğiz.
AI ekosistemini politika yapıcılarla tartıştığımda, her zaman ortak bir endişe ortaya çıkıyor: açıklık eksikliğinin inovasyon hızını engelleyeceği. Yıllardır bu konuyu vurguluyorum ama sonunda bu bir gerçek. Açık kaynağı savunuyorum ama herkesin işini paylaşacağını düşünmüyorum. Bir zamanlar açık kaynağı hafife aldık, ancak artık durum böyle değil.
Gelişimimizi yavaşlatacağını düşünüyorum. Çoğu durumda, her laboratuvarda yekpare bir kültür vardır ve iletişim, bilimsel ilerleme için önemli bir itici güçtür. Bu nedenle açık kaynak, yalnızca açık kaynak topluluğu ve akademide vazgeçilmez değil, aynı zamanda teknolojinin ilerlemesi için de kritik öneme sahiptir. Canlı bir açık kaynak araştırma topluluğuna ihtiyacımız var.
Gelecek trendleri
Swyx: Pek çok şeyin uzun sürmediğinden ve kolayca değiştirildiğinden bahsettiniz, ancak Transformer burada kalacak.
Jonathan: Transformers her zaman var olacak. Konvolüsyonel Sinir Ağları (CNN'ler) günümüzde hala kullanılmaktadır ve Görsel Transformatörler onların yerini almamıştır. On yıllardır var olan, ancak hala birçok alanda aktif olan tekrarlayan sinir ağına (RNN) bakın. Sonuç olarak, büyük altyapı iyileştirmelerini uygulamak zordur.
Abhinav: Bahisinizin büyük ölçüde dikkat olarak tanımlanan şeye bağlı olduğunu düşünüyorum. QK matris çarpımı gibi bir işlem benzer bir yöntemle değiştirilirse bunun sonuca etkisi ne olur?
Jonathan: Son tahlilde, bu tamamen bağlantılı bir ileri beslemeli ağ, basit bir dikkat mekanizmasına sahip Transformer. Yani işler değişebilir ama biz Transformer'ı Ashish Vaswani'nin (Transformer yazarı) altı yıl önce tasavvur ettiği gibi kullanmaya devam ediyoruz ve belki gelecekte de kullanmaya devam edeceğiz.
Abhinav: Şu anda sahip olduğumuz tek seçenek olan MLP'ye (Multilayer Perceptron) benzeyeceğini düşünüyorum çünkü artık mimari çok basitleştirildi, geriye yalnızca bazı doğrusal katmanlar, artık bağlantılar kaldı, Dikkat , nokta çarpma işlemi.
Jonathan: Varsayımınız, mimarinin daha basit hale geleceği, ancak gerçekte bunun tersi olabilir ve mimari daha karmaşık hale gelebilir.
Swyx: "Acil fenomenler" hakkındaki son tartışmalar hakkında ne düşünüyorsunuz?
Abhinav: Benzer makaleler gördüm ve bunlar muhtemelen yalnızca günlük ölçekleme, değerlendirme metrikleri gibi değerlendirme tekniklerinin yan ürünleridir ve şu anda yaptığımız şey, Kesinlikle ikili yargılar olan ağ oluşturma doğruluğudur, örn. daha ince taneli sıralı farklılıkları hesaba katmadan sonuçları doğru veya yanlış olarak sınıflandırmak.
Ancak Jonathan'ın değerlendirmeyle ilgili görüşüne benzer şekilde, değerlendirme ölçütlerinin çeşitliliğiyle ilgili bir sorunumuz var: Bu modelleri, hatta sohbet modelini, komut modelini kullanıma sunduğumuzda, insanlar genellikle onu çeşitli farklı görevler için kullanıyor. Her bir boyutu önceden tam olarak ölçüp değerlendiremiyoruz ve 7 milyarlık bir ölçekte bile, bu modeller bazı çok zor MMLU görevlerinde hala yetersiz performans gösteriyor. Bazen, özellikle çok zor görevlerle uğraşırken, rastgele şansın zar zor üzerinde puan alırlar.
Bu nedenle, daha kaliteli modeller peşinde koştuğumuz için bu sorunlardan bazıları bizim için daha yararlı olabilir. Ancak MPT-7B'yi biraz körü körüne geliştirdik çünkü modelin nihai olarak nasıl davranacağını tam olarak anlamadık. Yalnızca küçük bir dizi ortak algısal çıkarım görevine karşı geliştirilebilir ve performans, bu metrikleri diğer açık kaynak modelleriyle karşılaştırarak değerlendirilir.
Alessio: Hedeflerden birinin hızlı çıkarım ve eğitim olduğunu düşünüyorum, bu nedenle en zor görevleri çözmekle diğer görevlerde hızlı olmak arasında bir denge var.
Abhinav: Evet. 7 milyar veri ölçeğinde bile, insanlar onu evdeki CPU'da çalıştırmaya veya cep telefonlarına taşımaya çalışacaklar, çünkü küçük ölçekli uygulamalar insanları bu teknolojiyi benimsemeye yönlendirecek ve bu, şu anda önemli bir trend. an
Alessio: Yapay zekada beklenenden çok daha hızlı hareket eden bazı şeyler nelerdir?
Jonathan: GPT-2'nin piyasaya sürüldüğü zamanı hatırlıyorum, çok heyecanlı değildim ama o zamanlar zaten 1,5 milyar parametresi vardı. Modeller boyut olarak ölçeklendikçe performansları gelişmeye devam edemez. Sonra GPT-3 çıktı ve bunun metin oluşturmada biraz daha iyi olduğunu düşündüm, ancak tekrar tekrar yanıldım. Modeli büyütmek, bir sonraki belirteci tahmin ederek çok faydalı modeller verebilir.
Adil olmak gerekirse, bu konuda hemen hemen yanılıyoruz, bu yüzden kendimizi de tam olarak suçlayamayız. Aksi takdirde, Google, Facebook ve Microsoft Research, ben harekete geçme şansı bulamadan çok önce öldürücü dil megamodelleri yayınlardı. Doğru olduğu ortaya çıkan çok garip bir iddiaya girdim: Difüzyon modelleri, biraz aptal olsa da, şaşırtıcı derecede güzel görüntüler üretti.
Abhinav: Geniş ölçekteki sohbet robotlarıyla ilgili olarak, yüz milyonlarca insanın yapay zeka modelleriyle yoğun konuşmalar yapmasının uzun zaman alacağını düşünüyorum. Artık sadece ChatGPT'yi değil, karakter oluşturma gibi diğer projeleri de kullanan pek çok yeni girişim ve işletmeyle, bu yapay zeka modelleriyle gerçekten duygusal bağlar kuran insan sayısı inanılmaz. Geçen yılın Eylül veya Ekim aylarında bunu tahmin edebileceğimi sanmıyorum. Son altı ayda meydana gelen bükülme noktası gerçekten beklenmedikti.
Swyx: Sence duygusal destek gibi ne için kullanılacaklar?
Abhinav: Bazıları duygusal destek için ya da sadece arkadaş olarak. Yalnızlık ve akıl sağlığı sorunları sıcak bir konudur. Bu toplulukların alt dizinlerine giderseniz, insanlar AI arkadaşları ve bu karakterler hakkında konuşuyor ve düşünüyor, bilim kurgudan fırlamış gibi ve bunun olmasını hiç beklemiyordum.
Swyx: Yapay zekadaki en ilginç çözülmemiş sorun nedir?
Abhinav: Doğruluk ve BF16/FP16 gibi şeyler açısından ne kadar ileri gidebileceğimizle ilgileniyorum.
Acaba modelin boyutu büyüdükçe bu sorunlar daha da izlenebilir hale geliyor mu? İlgili belgeler, niceleme ve budamanın ölçek arttıkça daha kolay hale gelebileceğini göstermektedir. Dolayısıyla, önümüzdeki birkaç yıl içinde ölçeği büyütmenin doğal bir sonucu olarak, dört bitlik, iki bitlik ve hatta ikili ağırlıklar kullanmaya doğru ilerleyebiliriz.
Jonathan: Ne kadar küçük bir model elde edebileceğimizi ve eşdeğer performansa sahip bir modeli ne kadar verimli geliştirebileceğimizi başka bir şekilde görmek istedim. Doktoram boyunca ve bir anlamda Mosaic'te de üzerinde çalıştığım soru buydu. OpenAI bize bu inanılmaz yeteneğe giden bir yol gösterdi, o da ölçekleme. Ama umarım tek yol bu değildir. Umarım bunu başarmanın daha iyi modelleme yöntemleri, daha iyi algoritmalar vb. yoluyla başka birçok yolu vardır.
Nörobilim mecazlarının hayranı olmasam da, bir anlamda varlığımız ve beyinlerimiz, trilyonlarca parametre ve hatta astronomik parametreler olmadan bu inanılmaz yeteneği elde etmenin en azından başka bir yolu olduğunu kanıtlıyor: Sermaye yatırımı. Yani gerçekten merak ettiğim ne kadar küçük bir model elde edebiliriz? Mevcut yolu izlemek zorunda olmayan bu yeteneklere giden başka bir yol var mı? Varsa, cevabı Mozaik'te bulmayı umuyoruz.
Swyx: Kesinlikle, en çok ilgilendiğim şeylerden biri, insan beyninin yalnızca 30 watt güç tüketmesi ve modelin bundan çok uzak olması.
Abhinav: Bunu yalnızca tek bir GPU veya diğer araçlarla başarmanın bir yolu olduğunu düşünmüyorum.
Alessio: Şu anda insanlar yapay zeka hakkında nasıl düşünmeli? Neye odaklanmalılar?
Jonathan: Sakin ol. Bazı insanlar aldatmacayı çok ciddiye alıyor; diğerleri çok karamsar, buna şiddetle tepki veriyor veya bir dereceye kadar inkar ediyor. Huzurunuzu koruyun ve çok kullanışlı bir araç oluşturduğumuzu bilin.
Ama henüz genel istihbarat oluşturamadık ve kişisel olarak bu hedefe yakın değiliz. Bu yüzden barışçıl olmak ve bilimi takip etmek önemlidir ve Mosaic AI bunun için çabalamaktadır. Daha iyi bir dünya yaratmayı umarak, insanlar için yararlı olan şeylere odaklanmaya çalışıyoruz. Elimizden gelenin en iyisini yapacağız ama en önemlisi bilimin peşinden koşacağız, verilerden yola çıkarak bu hedefimize lafla değil gerçek sonuçlarla ulaşacağız.
Abhinav: Bence açık bir toplulukta araştırma yapmak gibisi yok. Toplulukta, yalnızca çok sayıda insan modelinize dikkat etmekle kalmaz, aynı zamanda modelin sorunları ve nasıl geliştirileceği hakkında fikirlerini verir. Bu tür bir açık araştırma, hem modellerimizi güvende tutmak hem de bu AI modellerinin gerçek dünyadaki etkisini ve sonuçlarını araştırmak için ileriye giden yol olacaktır.
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Büyük Modeller İçin Sonsuz Bağlam ve Veri Kümesi Oluşturma Sanatı
Kaynak | Gizli Alan
OneFlow derlemesi
Çeviri|Jia Chuan, Yang Ting, Wan Zilin
Bağlam uzunluğu, GPT-3'ün en büyük sınırlamalarından biriydi. GPT-3 en fazla 4000 jeton (3000 kelime, 6 sayfa) kabul edebilir, aksi halde bir hata raporlanır. Bu nedenle, uzun belgeler ve istemlerle () başa çıkmak için, LangChain gibi diğer geri alma tekniklerini tanıtmak gerekir. Bununla birlikte, Databricks tarafından yaklaşık 1,3 milyar dolara satın alınan MosaicML, MPT-7B içeriğini Mayıs ayı başlarında 84.000 belirteç (63.000 kelime, 126 sayfa) ile açarak işlenebilecek metin aralığını büyük ölçüde genişletti. , Anthronpic tarafından geliştirilen Claude modeli, 100.000 belirteçle genişletilmiş bir bağlam uzunluğuna sahiptir.
MosaicML ayrıca ince ayar için temel MPT-7B'yi temel alan üç MPT-7B-Instruct, MPT-7B-Chat, MPT-7B-StoryWriter-65k+ modelini piyasaya sürdü.
Model, dolly_hhrlhf üzerinde ince ayarlanmıştır. dolly_hhrlhf veri kümesi, "dolly-5k" veri kümesinin üzerine inşa edilmiştir.
Model, ShareGPT-Vicuna, HC3, Alpaca, Helpful and Harmless ve Evol-Instruct veri setlerinde ince ayarlanmıştır.
Bu model için ince ayarlı veri kümesi, 65k bağlam uzunluğuna sahip kitaplardaki3 romanların filtrelenmiş bir alt kümesidir. Reklamı yapılan boyut 65 bin jeton iken, ekip tek bir düğümün A100-80GB GPU'sunda çalışırken 84 bin jetonluk bir yanıt alabildi. Bunun arkasındaki anahtar teknoloji ALiBi'dir. Great Gatsby'nin başlangıçta yalnızca yaklaşık 68 bin jetonu vardı, bu nedenle ekip, romana yeni bir son yaratmak için MPT-7B-StoryWriter-65k+ modelini kullandı.
MosaicML Baş Bilim İnsanı Jonathan Frankle ve Araştırma Bilimcisi Abhinav Venigalla, MPT-7B'nin tüm eğitim sürecine liderlik eden MPT-7B'nin başkanlarıdır. Latent Space'in en son podcast'inde Swyx ve Decibel Partners'ın ana ortağı Alessio, onlarla MPT-7B eğitim sürecinin yeniliğini tartıştı ve LLM veri seti kombinasyonunun neden önemli ve gizemli bir sanat olduğunu açıkladı. Ayrıca, bazı geleneksel çoktan seçmeli testler, inşa edilen teknoloji için çok yardımcı olmayabilir ve bunun arkasındaki nedenleri de keşfedeceklerdir.
(Aşağıdaki içerik OneFlow tarafından yetkilendirildikten sonra derlenir ve yayınlanır, kaynak: https://
MPT-7B modelinin yapımı
**Swyx: MPT-7B'yi neden geliştirdiniz? **
Abhinav: MPT-7B projesi yaklaşık 6-12 ay sürdü. Geçen yaz dil modelleri üzerinde çalışmaya başladık ve dil modellerini analiz eden bir blog yazısı yayınladık ve eğitim maliyetinin aslında insanların düşündüğünden çok daha düşük olabileceğini bulduk. Ayrıca o zamandan beri, Meta AI tarafından yayınlanan LLaMA modelinden ve diğer birçok açık kaynak çalışmasından ilham alarak, MPT'nin kökeni olan 7 milyar parametreli gerçekten iyi bir model oluşturmak için yola çıktık.
Alessio: Podcast'lerden birinde şunları söylediniz: Mosaic'in model oluşturup yayınlama gibi bir planı yok. Ama sonunda yine de modeli çıkardınız, fikrinizi değiştiren ne oldu?
Jonathan: Bence birkaç faktör var: Hâlâ birinci sınıf bir modelimiz yok. İşimizin müşterilerin kendi modellerini oluşturması etrafında döndüğü OpenAI'den farklı olarak, onlara öncelikle araçları sağlıyoruz ve bu araçların etkili olabilmesi için önce kendi modellerimizi oluşturmamız gerekiyor.
Açık olmalı ki, müşterilerimiz harika şeyler yapabiliyorsa, biz de harika şeyler yapabiliriz. Twitter'da Mosaic'in gösterdiği sayıların doğruluğunu sorgulayan birçok insanla karşılaştım, örneğin Ross Whiteman'ın "Gerçek sonuçları görelim" demesi gibi, ben de "Ross, sence bunlar nasıl oldu? Modeli 9.5 günde 200.000$ maliyetle geliştirdik, siz de yapabilirsiniz.
**Swyx: **Geçen yıl yayınladığınız verilere atıfta bulunarak, başlangıçta GPT-3 eğitim maliyetinin 450.000 ABD Dolarından az olduğu tahmin edilmişti ve daha sonra 100.000 ABD Dolarına düşürüldü; Kararlı Difüzyon maliyeti de 160.000 ABD Dolarından düşürüldü 50.000 doların altına.
Jonathan: 100.000$ rakamı konusunda hâlâ çok temkinliyim. Henüz orada değil ama biz o yöne gidiyoruz ve bu Abhi için büyük bir zorluk.
Swyx: MPT-7B modelinin üç çeşidi vardır ve bunlardan biri bağlam uzunluğu açısından SOTA'yı başarır. Bu modeller için eğitim süreci nasıldır?
Abhinav: Temel modelimiz, aşırı müdahale olmaksızın ince ayar modeli için verimli bir eğitim başlangıç noktası sağlayan, 7 milyar parametre ve 1 trilyon jetonluk bir eğitim verisi ile LLaMA-7B'nin yeniden oluşturulmasıdır. MPT-7B-StoryWriter-65k+ gibi modelin ince ayarı da çok ilgi çekicidir, hikaye yazmak için kullanılabilir, bağlam penceresi uzunluğu 65.000'dir ve ayrıca bilinen içeriğe dayalı olarak yazmaya devam edebilir.
Tabii ki bu, düşündüğümüz yönlerden sadece bir tanesi MPT-7B Base modelini, uzun bağlam kodu modelleri veya belirli dil modelleri gibi farklı ihtiyaçlara uygun özel modeller oluşturmak için kullanabilirsiniz. Bu nedenle, temel model temel alınarak, sırasıyla kısa talimatları takip etmek, diyalog sohbeti yapmak ve hikaye yazmak için kullanılan MPT-7B-Instruct, MPT-7B-Chat ve MPT-7B-StoryWriter-65k+ olmak üzere üç varyant oluşturuldu.
Alessio: Modeli eğitirken kaç belirteç ve parametre kullanacağınıza nasıl karar veriyorsunuz? 7 milyar ve 3 milyar model parametresi şu anda moda olan iki sihirli sayı gibi görünüyor.
Abhinav: Eğitim modelleri için, ölçeklendirme yasası size eğitim bilgi işlem kaynaklarının en verimli şekilde nasıl kullanılacağını söyleyebilir. Örneğin bütçe 200.000 ABD doları ise ölçek kanununa göre en etkili eğitim programı verilebilir.
Bunlar arasında en sık takip ettiğimiz Chinchilla yasasıdır. MPT-7B modeli ve ilgili varyantları için, bu yasalara katı bir şekilde uyulmamaktadır, çünkü modelin kişisel kullanıma uygun olmasını ve iyi bir çıkarım performansına sahip olmasını sağlamak istiyoruz, bu nedenle aşırı eğitilmiş, Chinchilla Noktasını aşmıştır (verilere atıfta bulunularak). belirteçlerle ölçülen seviye). İnternette bazı kişiler şaka yollu bu modellere Llongboi diyor çünkü eğitim süreleri oldukça uzun.7B modelini örnek alırsak Chinchilla Point 140 milyar jeton olabilir ama biz aslında 1 trilyon jeton eğittik yani eğitim süresi neredeyse 7 normalden kat daha uzun.
**Swyx: Llongboi bir eğitim yönteminden mi bahsediyor? **
Jonathan: Llongboi, Chinchilla yasasının gerektirdiğinden daha fazla jeton kullanan bir eğitim yöntemine atıfta bulunan, içeriden birinin şakasından başka bir şey değil. Llongboi'nin başında LLaMA'ya haraç ödemek için kullanılan iki "L" harfi olduğu görülebilir. CEO'muz bir keresinde modele "Llongboi" olarak atıfta bulunarak adı Twitter'da herkese açık hale getirdi. Bazen erkenden sızmasın diye onun Twitter şifresini gerçekten almak istiyorum ama artık adını tüm dünya biliyor.
Mimari hakkında, ALiBi, bağlam
**Alessio:**Flash Attention ve Faster Transformer, model yapınızın iki temel öğesidir. Avantajları nelerdir?
**Abhinav:**Flash Dikkat, Stanford'un Hazy Research laboratuvarı tarafından geliştirilmiş, Tam Dikkat'in daha hızlı bir uygulamasıdır. Geçen Eylül ayında kütüphanemize Flash Attention'ı entegre ettik ve eğitim ve çıkarım hızında büyük rol oynadı. Diğer Hugging Face modelleriyle karşılaştırıldığında çok özel olan bu model, genel Torch Dikkati ile GPU için özel olarak tasarlanmış Flash Dikkat arasında geçiş yapabilir, bu da modelin eğitim hızını yaklaşık 2 kat, çıkarım hızını ise %50 artırır. -100%.
**Swyx: ALiBi konumsal kodlamayı seçmeniz için sizi ne motive etti? **
Abhinav: ALiBi konumsal kodlama, Flash Dikkat ve egzersiz kararlılığını ilginç bir şekilde birleştirdik. ALiBi, modelde konumsal gömme ihtiyacını ortadan kaldırabilir. Önceden, bir belirteç 1. konuma sahipse, o zaman belirli bir konum yerleştirme eklemeniz gerekiyordu ve maksimum konumu (genellikle 2000) aşamazdınız. Ancak ALiBi ile bu sorun çözüldü. Sadece Dikkat Haritasına bir eğim gibi bir bias (bias) eklememiz gerekiyor ve çıkarım için daha uzun bir pozisyon aralığı gerekiyorsa, bu eğimi daha uzun bir pozisyon sayısına genişletecektir. Bu yaklaşım işe yarar çünkü eğim süreklidir ve yorumlanabilir.
İlginç bir şekilde, Flash Dikkat sayesinde model çok fazla bellek tasarrufu sağlıyor ve performansı artırıyor, bu nedenle geçen yıl çok uzun bağlamlara sahip (65k'ye kadar) modellerde performans testleri yapmaya başladık ve aynı zamanda bunu gerçekleştirmek çok zor. istikrarlı eğitim Daha sonra ALiBi'yi modele entegre etmeye çalıştık ve modelin kararlılığı önemli ölçüde iyileştirildi. Artık hikaye yazma modellerini çok uzun bağlamlarda istikrarlı bir şekilde eğitebilir ve bunların verimli kullanımını garanti edebiliriz.
Jonathan: Bağlam uzunluğu teknik olarak sınırsızdır. Yeterli hafıza verildiği sürece, diyalog süresiz olarak devam edebilir. Modelin işleyebileceği en uzun sayının, insanların pratikte rahatça işleyebileceği en uzun bağlam uzunluğu olan 84K olduğuna inanıyoruz. Ancak pratikte 84K'yı aşan bağlam uzunluklarını da denedik ve daha uzun uzunlukları kaldırabiliyoruz.
**Swyx:**Örneğin, "Muhteşem Gatsby" romanını modele girebilir ve ardından modelin, giriş metnine göre romanı yazmaya devam etmesini sağlayabiliriz ve son olarak model oldukça heyecan verici bir içerik çıkarır.
Jonathan: Mosaic'te hikayenin sonunun pek çok gerçekten iyi versiyonu var. Bir versiyon Gatsby'nin cenazesini anlatıyor, Nick Gatsby'nin hayaletiyle konuşmaya başlıyor, Gatsby'nin babası da ortaya çıkıyor ve sonra o ve Tom karakola geliyor. Bu sürüm olay örgüsüne çok önem veriyor ve bundan sonra ne olacağını açıklıyor. Ayrıca, birçok versiyonun çok Fitzgerald benzeri sonları var ve çok güzel yazılmışlar. Bu nedenle, modelin girdiyi işliyor ve anlamlı çıktılar üretiyor gibi göründüğünü görmek heyecan verici. Bu bağlam uzunluğu ile çok şey yapabiliriz.
Alessio: Bellek, modelin kısıtlamalarından biri haline gelmeye başlıyor, peki parametre boyutu ve bağlam uzunluğu nasıl seçilmelidir?
Jonathan: Son zamanlarda, uzun bağlamlar üzerine yapılan araştırmalar çok dikkat çekti ve bir dizi ilgili makale ortaya çıktı. Bununla birlikte, bu makaleler tamamen doğru değildir ve bir dereceye kadar, özellikle dikkat mekanizmalarıyla ilgili olarak, ikinci dereceden olmayan dikkat mekanizmalarını (yaklaşık, hiyerarşik dikkat gibi) açık ve doğru ikinci dereceden dikkatle karşılaştırırlar. . Yaklaştırma yöntemleri konusunda iyimserim, bu yüzden bu makaleleri araştırmak için sabırsızlanıyorum.
Makale yazmak ve okumak bana, kendiniz yapana kadar hiçbir veriye güvenmeme konusunda önemli bir ders verdi. Mosaic'te, uygulamalarda birçok kez hayal kırıklığına uğradık çünkü ilk başta umut verici görünen makaleler, ancak uygulamadan sonra kağıtların verileri manipüle ettiğini fark etti. Bu nedenle, verilerden her zaman şüpheliyim ve yeniden uygulanıp doğrulanana kadar hiçbir sonuca güvenmiyorum. Genel olarak, uygulama işe yaradı ve çoğu zaman teoriler pratikte beklendiği kadar iyi çalışmadı.
MPT-7B'nin Özellikleri
**Swyx: MPT-7B'nin belirli özellikleri nelerdir? **
Abhinav: Bunu iki kısma ayırırdım, ilki antrenmanın istikrarı. Bu soru üç bölüme ayrılabilir. Birincisi, modelin, ilk savunma hattımız olan eğitim sırasında ani kayıplardan kaçınması gerekiyor. Kanımca, 7 milyar parametrelik bir eğitim boyutunda kayıp artışları büyük bir sorun değil. Ancak, eğitim süresi arttıkça kayıp artışlarından kaçınmak zorlaşır. Kayıp artışlarını önlemek için başlatma yöntemlerinin, optimize edicilerin, mimarilerin vb. nasıl ayarlanacağını bulmak için uzun zaman harcadık. Eğitimimiz sırasında bile, dikkatli bakarsak, yine de bazı küçük aralıklı zirveler bulabiliriz, ancak bu zirveler birkaç yüz adım içinde normale dönecektir ki bu çok sihirli bir olgudur ve bu, zirve kaybından doğal olarak kurtulmamıza yardımcı olabilir.
Determinizm ve akıllı kurtarma stratejileri, ikinci savunma hattımızdır. Çok büyük bir hata durumunda, hatadan önceki birkaç partide bazı müdahaleler uygulayarak eğitime hızlı bir şekilde devam edebileceğiz. Olası sorunlar için çeşitli hazırlıklar yaptık. Ancak MPT-7B'nin eğitiminde bu yedekleme önlemlerini hiç kullanmadık ki bu bir nevi şanstır denilebilir.
Doğru eğitim altyapısı üçüncü savunma hattıdır. Modeli yüzlerce GPU üzerinde eğitmeye çalışırsak, genellikle donanım arızaları olur. Örneğin, 512 GPU'lu büyük bir kümede bir modeli eğitirken, eğitim neredeyse iki günde bir başarısız olur, başarısızlığın nedeni bir ağ hatası olabilir.
Tipik olarak, insanlar bu başarısızlıklarla başa çıkmak için 7/24 nöbetçi ekipler kurarlar. Bir arıza meydana geldiğinde ekip, kümeyi kontrol etmeye, bozuk düğümleri kaldırmaya, yeniden başlatmaya vb. çalışır ki bu çok sıkıcı bir iştir. Eskiden hataları manuel olarak kontrol etmek için aylar harcardık, ancak şimdi model eğitim sürecindeki her düğümü otomatikleştirecek bir platform oluşturduk.
Bir model çalıştırmayla ilgili bir sorun olduğunda, otomatik izleme sistemimiz işi durdurur, bozuk düğümleri test eder, kontrol eder ve yeniden başlatır. Yazılımımızın deterministik ve hızlı kurtarma yetenekleri nedeniyle, model gayet iyi çalışmaya devam ediyor. Sonuç olarak, bazen model günlüklerinde, bir modelin gece 02:00'de arızalanmasının ardından, bir ekip üyesinin manuel müdahalesi olmadan dakikalar içinde yedeklenip çalışmaya başladığını görebiliriz.
Jonathan: Bunu yapmak gerçekten kolay değil. Birkaç ay önce modelde bir donanım arızası olsaydı, ekip üyelerinin sorunun nedenini kontrol etmek için sabah saat ikide kalkması gerekirdi. düğüm hatası ve işi yeniden başlatın. Daha önce, 7 milyar parametrelik bir eğitim ölçeğinde bile, sıklıkla yıkıcı kayıp artışlarıyla karşılaşıyorduk ve bu sorunlar, modelin eğitimini ciddi şekilde etkiliyordu.
Artık bu sorunları artan iyileştirmelerle ele aldık. Abhinav'ın dediği gibi, artık bir ofiste oturarak birden fazla modeli eğitirken, modelin başarısız olması ve eğitimi kesintiye uğratması konusunda endişelenmeden yapabiliriz.
Veri seçimi ve tekrarı ve LLM'nin değerlendirme zorlukları
**Swyx: Veri seçimi odak noktanız, biraz genişletebilir misiniz? **
Jonathan: Modeli fiilen eğitmek yerine veri işleme için tüm GPU'yu kullanmaya çalıştığımda Abhi beni neredeyse öldürüyordu. Bir modeli eğitmenin çok fazla veri gerektirdiğini biliyoruz, ancak aynı zamanda birçok belirsizlik de var.
Biri hangi tür farklı veri kaynaklarının önemli olduğu, diğeri ise çoğaltmanın önemidir. Bunların arasında, tekrarla ilgili soru, nitelik ve nicelik değiş tokuşlarına bölünebilir. Diyelim ki dünyanın en iyi 10 milyar sözcüksel verisine sahibim, onu yüz kez yeniden eğitmek mi daha iyi yoksa 1 trilyon düşük kaliteli, güncel sözcüksel veri kullanmak mı daha iyi? Elbette bir uzlaşma noktası olabilir, ancak yüksek kaliteli verilerin nasıl belirleneceği de bir sorundur ve henüz net bir cevap yoktur. Şimdi akademi dünyasına dönsem kesinlikle bu konuda bir makale yazardım çünkü henüz bu konuda hiçbir şey bilmiyorum.
Swyx: Şimdiye kadar bununla ilgili herhangi bir araştırma makalesi görmedim.
Jonathan: Tez araştırmasının ana sorusu "ne tür veri seti kombinasyonunun kullanılması gerektiğidir".
Modeli yaratma sürecinde, ders verdiğim Georgetown Hukuk Okulu'na geri döndüm ve bir grup hukuk öğrencisiyle oturup konuyu tartıştım. Onlara yüksek kaliteli bir veri seti, verilerin nasıl karıştırılacağı ve sahip oldukları jeton sayısı veriyorum ve modelleri için en iyi veri setini oluşturmalarına izin veriyorum.
Girdi verilerinin davranışı etkilemesi dışında LLM'ler hakkında hiçbir şey bilmiyorlar. Onlara tüm farklı değiş tokuşları kapsayan bir melez yaratmalarını söylüyorum. İlk başta, İnternet üzerinden elde edilebilecek büyük miktarda İngilizce külliyat gerekebilir; bunu çok dilli bir model yapmak istiyorsanız, o zaman İngilizce külliyat çok azaltılacaktır; ayrıca kodun içeri girip girmeyeceği BT.
Bazı insanlar, kodun modelin mantıksal akıl yürütmede daha iyi performans göstermesini sağlayabileceğini düşünüyor, ancak ben bu fikri destekleyen herhangi bir kanıt görmedim. Gerçekten de mükemmel bir kod modeli geliştirmiş olmamıza rağmen, kod modelinin daha iyi düşünme zinciri akıl yürütme becerisine yol açıp açmayacağı daha fazla araştırma gerektirir.
GPT-3'ün bir versiyonunun "Da Vinci Şifresi" romanından eğitildiği söyleniyor, bu yüzden bazı insanlar bunun yararlı olabileceğini düşünüyor, ancak kanıt yok; ) modelin eğitimine yardımcı olacak, ancak ayrıca var kanıt eksikliği.
Bu nedenle, birçok farklı veri karışımını denedik ve bazı veri karışımlarının diğerlerinden daha iyi veya daha kötü çalıştığını gördük. Örneğin, "The Pile" çok kararlı bir veri karışımıdır, ancak değerlendirme ölçütlerine göre daha iyi başka veri karışımları da vardır. Daha sonra çok önemli olan değerlendirme konusuna da değineceğim.
T5 modeli, başlangıçta son derece iyi performans gösteren C4 veri kümesi üzerinde eğitildi. EleutherAI'den Stella Beaterman dahil diğerleri, tweet attığımda bundan bahsetti. T5 modeliyle ilgili orijinal makalede, C4 veri kümesi için ön işleme yöntemi tuhaf görünüyor ve yazarlar Java ile ilgili uyarılar istemedikleri için "Java" kelimesini içeren her şeyi veri kümesinden kaldırdılar. Ayrıca, Java'nın eklenmesini istemedikleri için kaşlı ayraçların dahil edilmesini kaldırdılar.
Kötü kelimeler listesine baktılar ve kötü kelimeler içeren içeriği kaldırdılar. Bununla birlikte, kötü kelimeler listesi aslında "gay" gibi aslında kötü olmayan bazı kelimeler içerir. Ancak bu temizleme işlemi nedeniyle, ortaya çıkan veri seti rakipsiz görünüyor. Bu noktadan itibaren, veriler hakkında hiçbir şey bilmiyoruz.
Aslında, MC4 adlı bir veri seti de kullandık, MC4 ve C4 aynı ön işlemeye sahipti, ancak daha fazla web araması (web araması) ekledik, ancak C4 ile karşılaştırıldığında, MC4'ün İngilizce kısmı bilinmeyen nedenlerle Çoğu için daha kötü.
Bunun için iki kriter belirledim:
Öncelikle İngilizce kısmı en az MC4 kadar iyi olmalıdır. Mevcut diğer veri kümeleriyle karşılaştırıldığında, MC4'ün İngilizce kısmı daha iyidir. İkincisi, veri çeşitliliği konusunda sonuna kadar gidin ve veri kümesinin kod, bilimsel makaleler ve Wikipedia gibi şeyleri içerdiğinden emin olun çünkü insanlar modeli çeşitli farklı görevler için kullanacak.
Ama bence en önemlisi, model sadece değerlendirme ölçütü kadar iyi. Abhi bu noktada aynı fikirde olmayabilir. Üretken modelleri, belirli görevleri yerine getirmeleri istendiğinde doğru bir şekilde nasıl değerlendireceğimizi bilmiyoruz. Bazı durumlarda, kendi değerlendirmelerimizin gerçekten umursadığımız şeyleri bile ölçmediğini, dolayısıyla yalnızca makul seçimler yapabileceğimizi kabul etmeliyiz.
Swyx: MMLU (Massive Multitask Language Learning) ve BIG-bench gibi değerlendirme yöntemlerinin yeterince ikna edici olmadığını mı düşünüyorsunuz?
Jonathan: Bu yöntemler şüphesiz iki tür görev yapar. Biri, modelin A, B, C veya D gibi seçenekler oluşturmasına izin veren ve ardından modelin şaşkınlığını hesaplayarak üretme olasılığı en yüksek olan yanıtı seçen, bir doğru yanıtı içeren çoktan seçmeli bir görevdir. olası her cevap. Ancak modelden çoktan seçmeli sorular yapmasını istemek yerine, özetleme gibi ikinci tür açık uçlu üretken bir görev yapıyoruz. BLEU ve ROUGE gibi metrikleri kullanarak karşılaştırmak yeterince doğru değildir, birçok mükemmel kağıt özeti ve açık oluşturma yöntemi vardır. Buna karşılık, manuel daha güvenilir bir değerlendirme standardıdır, ancak manuel değerlendirme çok zaman alıcı ve zahmetlidir ve gelecekte mümkün olabilecek gerçek zamanlı modelle karşılaştırılamaz.
Abhinav: Yeni ölçümler oluşturmamıza yardımcı olan harika bir değerlendirme ekibimiz var.
Jonathan: Ancak LLM'leri değerlendirmek zor ve bu ölçütlerin hiçbirinin pratikte bir modelden beklediğimizi gerçekten yansıttığını düşünmüyorum.
Model eğitiminin maliyet azaltma ve verimlilik artışı
Swyx: Şimdi insanların bir modeli eğitmesi üç ila on gün sürüyor, bu süreyi ne kadar kısaltmak istiyorsunuz?
Abhinav: Bu yıl, ham model eğitim verimliliği iyileştirmeleri açısından muhtemelen en heyecan verici yıllardan biri. Bu yıl hem donanım hem de yazılım buna göre yükseltildi.İlki, Nvidia'nın tek başına performansı en az iki kat artırabilen yeni nesil donanım H100'leri. İkinci olarak, tek başına kullanıldığında aynı performans iyileştirmesini sağlayabilen yeni bir kayan noktalı sayı biçimi FP8 vardır.
Birkaç yıl önce 32 bit hassasiyeti kullanmaya başladık ve ardından Nvidia 16 bit hassasiyeti tanıttı. Birkaç yıllık geliştirmeden sonra, gereksinimlerin sürekli olarak iyileştirilmesi nedeniyle 16 bitlik eğitim becerilerinde kademeli olarak ustalaştık.
Bu yılki 8.ÇP ile iş hacmini ikiye katlayabiliriz, bu da maliyeti üç katına çıkarabileceğimiz anlamına gelir. Aynı zamanda, H100'de FP8 kullanarak LLM eğitiminin profilini çıkarmaya başladık ve ilerleme hızlı oldu. Yani, sadece donanımı geliştirerek, maliyeti oldukça azaltabiliriz.
Ayrıca mimarlık uygulamaları ile ilgili birçok çalışma bulunmaktadır. Biraz seyreklik getirmenin yollarını araştırıyoruz, ancak tamamen rastgele seyreklik değil. Bunu başarmak için bir yolluk mekanizması veya MoE tarzı bir mimari yol var mı?
Asıl hedefimiz, GPT-J modelini eğitme maliyetini 500.000 $'dan 100.000 $'a düşürmekti ve bunu yıl sonuna kadar başarabilirsek, bu büyük bir başarı olur.
Jonathan: Bu fikir havada bir şato değil. Henüz o aşamaya gelinmemiş olsa da bu hedefe 2023 yılında ulaşılması muhtemeldir.
Eğitim ve çıkarım maliyetlerine ilişkin istatistikler azdır. Google'dan David Patterson, Google'ın makine öğrenimi için enerji kullanımını tartışan bir blog yazısı yayınladı. Ayrıntılı bir analizin ardından, Google son üç yılda kaynaklarının beşte üçünü çıkarıma ve beşte ikisini eğitime harcadı. Yukarıdakiler Google'ın verileridir, milyarlarca kullanıcı için modeller sağlarlar.
Google, muhtemelen dünyadaki en büyük çıkarım yüküne sahip yerdir. Ve bu, beşte üçü çıkarım, beşte ikisi ise eğitim ile eğitim için kaynak tahsisidir. Donanım daha pahalı olabilir ve donanımın ağ yapısı daha karmaşık olabilir, bu nedenle eğitim ve akıl yürütme ikiye bölünebilir. Yukarıdaki, Google'ın tahsis oranıdır, ancak diğer şirketler için eğitim daha yüksek bir ağırlık oluşturabilir.
AI araştırması için açıklığın önemi
Alessio: Önceki eğitim maliyeti çok pahalıydı, bu da yeterince deney yapmamızı engelledi, bu nedenle veri kümelerinin seçiminde vb. birçok sorun vardı.
Jonathan: Lisansüstü okulda, GPU'ları olduğu ve benim dizüstü bilgisayarımda olmadığı için arkadaşlarımı kıskanırdım, bu yüzden herhangi bir modeli eğitemezdim. Bir K80 GPU'ya sahip olabilmek için piyangoyu kazanmayı hayal ettim.
Derinlerde bir yerde, hala bilimin o hevesli öğrencisiyim. Bilimsel araştırma yapmak istiyorsak ve bu sistemleri gerçekten anlamak istiyorsak, nasıl iyi çalışacaklarını, davranışlarının unsurlarını, güvenliklerini ve güvenilirliklerini anlıyorsak, bilimsel çalışmalar yapabilmek için eğitim maliyetlerini düşürmemiz gerektiğine kuvvetle inanıyorum. araştırma. Örneğin, bir ilacın işe yaradığından emin olmak için çoklu hücre kültürleri ve deneyler yapmamız gereken biyolojik deneyleri ele alalım, bir şeyi gerçekten anlamadan önce çok sayıda bilimsel araştırma yapılması gerekir.
**Abhinav:**MosaicML'nin modelleri eğitmeye çalışan birçok müşterisi var, bu nedenle şirketin bilimsel araştırmaya çok fazla kaynak ve zaman ayırma konusunda bir teşviki var. Yalnızca modellerin nasıl eğitilmesi gerektiğini gerçekten anlayarak daha fazla kişiye yardımcı olabiliriz. Dolayısıyla bizim için bu birleştirme süreci çok önemli.
Toplu iş boyutunu veya başka bir şeyi araştıran daha önce Google'dan bir makale olduğunu hatırlıyorum. Bu makale muhtemelen milyonlarca dolara mal oldu ve bir bütün olarak topluluğa çok büyük faydaları var. Artık hepimiz bundan öğrenebilir ve bankayı bozmadan para biriktirebiliriz. Bu nedenle, Mosaic için deneysel araştırma yoluyla veriler, eğitim öncesi mimari vb. konularda derin içgörüler elde ettik ve bu nedenle müşteriler bizi tercih ediyor.
Jonathan: Açıklık, AI topluluğu için çok önemlidir. Bir anlamda kapanmak için hiçbir nedenimiz yok.Müşterilerin model eğitmesine yardımcı olarak gelir elde ediyoruz.Sonuçları toplulukla paylaşmaktan bir kaybımız yok.Sonuçta, kişiye özel modeller ve mükemmel altyapı ile gelir elde etmek zorundayız. Ve bu yönleri bir araya getirmek, şirketimize MosaicML adını vermemizin nedenidir.
Her zaman açık bir tutum sürdürdük ve elde ettiğimiz sonuçları saklamayacağız. Ama şimdi, sektördeki en büyük açık kaynak laboratuvarlarından biri haline geldiğimizi görüyorum ki bu üzücü bir gerçek çünkü MosaicML bir bütün olarak sektör açısından o kadar büyük değil, sadece yaklaşık 15 araştırmacımız var, diğerleri Laboratuvarlar kapandı ve artık kamuya çok fazla içerik yayınlamıyor. Ancak MosaicML, toplulukla iletişim kurmaya ve paylaşmaya devam edecek ve açık araştırmanın öncüsü olmak için elinden gelenin en iyisini yapacaktır. Araştırma ölçeğimiz ve hacmimiz büyük bir laboratuvarınkiyle boy ölçüşemeyecek olsa da, topluluk için kaynak yaratma çabasıyla öğrendiklerimizi paylaşmaya devam edeceğiz.
AI ekosistemini politika yapıcılarla tartıştığımda, her zaman ortak bir endişe ortaya çıkıyor: açıklık eksikliğinin inovasyon hızını engelleyeceği. Yıllardır bu konuyu vurguluyorum ama sonunda bu bir gerçek. Açık kaynağı savunuyorum ama herkesin işini paylaşacağını düşünmüyorum. Bir zamanlar açık kaynağı hafife aldık, ancak artık durum böyle değil.
Gelişimimizi yavaşlatacağını düşünüyorum. Çoğu durumda, her laboratuvarda yekpare bir kültür vardır ve iletişim, bilimsel ilerleme için önemli bir itici güçtür. Bu nedenle açık kaynak, yalnızca açık kaynak topluluğu ve akademide vazgeçilmez değil, aynı zamanda teknolojinin ilerlemesi için de kritik öneme sahiptir. Canlı bir açık kaynak araştırma topluluğuna ihtiyacımız var.
Gelecek trendleri
Swyx: Pek çok şeyin uzun sürmediğinden ve kolayca değiştirildiğinden bahsettiniz, ancak Transformer burada kalacak.
Jonathan: Transformers her zaman var olacak. Konvolüsyonel Sinir Ağları (CNN'ler) günümüzde hala kullanılmaktadır ve Görsel Transformatörler onların yerini almamıştır. On yıllardır var olan, ancak hala birçok alanda aktif olan tekrarlayan sinir ağına (RNN) bakın. Sonuç olarak, büyük altyapı iyileştirmelerini uygulamak zordur.
Abhinav: Bahisinizin büyük ölçüde dikkat olarak tanımlanan şeye bağlı olduğunu düşünüyorum. QK matris çarpımı gibi bir işlem benzer bir yöntemle değiştirilirse bunun sonuca etkisi ne olur?
Jonathan: Son tahlilde, bu tamamen bağlantılı bir ileri beslemeli ağ, basit bir dikkat mekanizmasına sahip Transformer. Yani işler değişebilir ama biz Transformer'ı Ashish Vaswani'nin (Transformer yazarı) altı yıl önce tasavvur ettiği gibi kullanmaya devam ediyoruz ve belki gelecekte de kullanmaya devam edeceğiz.
Abhinav: Şu anda sahip olduğumuz tek seçenek olan MLP'ye (Multilayer Perceptron) benzeyeceğini düşünüyorum çünkü artık mimari çok basitleştirildi, geriye yalnızca bazı doğrusal katmanlar, artık bağlantılar kaldı, Dikkat , nokta çarpma işlemi.
Jonathan: Varsayımınız, mimarinin daha basit hale geleceği, ancak gerçekte bunun tersi olabilir ve mimari daha karmaşık hale gelebilir.
Swyx: "Acil fenomenler" hakkındaki son tartışmalar hakkında ne düşünüyorsunuz?
Abhinav: Benzer makaleler gördüm ve bunlar muhtemelen yalnızca günlük ölçekleme, değerlendirme metrikleri gibi değerlendirme tekniklerinin yan ürünleridir ve şu anda yaptığımız şey, Kesinlikle ikili yargılar olan ağ oluşturma doğruluğudur, örn. daha ince taneli sıralı farklılıkları hesaba katmadan sonuçları doğru veya yanlış olarak sınıflandırmak.
Ancak Jonathan'ın değerlendirmeyle ilgili görüşüne benzer şekilde, değerlendirme ölçütlerinin çeşitliliğiyle ilgili bir sorunumuz var: Bu modelleri, hatta sohbet modelini, komut modelini kullanıma sunduğumuzda, insanlar genellikle onu çeşitli farklı görevler için kullanıyor. Her bir boyutu önceden tam olarak ölçüp değerlendiremiyoruz ve 7 milyarlık bir ölçekte bile, bu modeller bazı çok zor MMLU görevlerinde hala yetersiz performans gösteriyor. Bazen, özellikle çok zor görevlerle uğraşırken, rastgele şansın zar zor üzerinde puan alırlar.
Bu nedenle, daha kaliteli modeller peşinde koştuğumuz için bu sorunlardan bazıları bizim için daha yararlı olabilir. Ancak MPT-7B'yi biraz körü körüne geliştirdik çünkü modelin nihai olarak nasıl davranacağını tam olarak anlamadık. Yalnızca küçük bir dizi ortak algısal çıkarım görevine karşı geliştirilebilir ve performans, bu metrikleri diğer açık kaynak modelleriyle karşılaştırarak değerlendirilir.
Alessio: Hedeflerden birinin hızlı çıkarım ve eğitim olduğunu düşünüyorum, bu nedenle en zor görevleri çözmekle diğer görevlerde hızlı olmak arasında bir denge var.
Abhinav: Evet. 7 milyar veri ölçeğinde bile, insanlar onu evdeki CPU'da çalıştırmaya veya cep telefonlarına taşımaya çalışacaklar, çünkü küçük ölçekli uygulamalar insanları bu teknolojiyi benimsemeye yönlendirecek ve bu, şu anda önemli bir trend. an
Alessio: Yapay zekada beklenenden çok daha hızlı hareket eden bazı şeyler nelerdir?
Jonathan: GPT-2'nin piyasaya sürüldüğü zamanı hatırlıyorum, çok heyecanlı değildim ama o zamanlar zaten 1,5 milyar parametresi vardı. Modeller boyut olarak ölçeklendikçe performansları gelişmeye devam edemez. Sonra GPT-3 çıktı ve bunun metin oluşturmada biraz daha iyi olduğunu düşündüm, ancak tekrar tekrar yanıldım. Modeli büyütmek, bir sonraki belirteci tahmin ederek çok faydalı modeller verebilir.
Adil olmak gerekirse, bu konuda hemen hemen yanılıyoruz, bu yüzden kendimizi de tam olarak suçlayamayız. Aksi takdirde, Google, Facebook ve Microsoft Research, ben harekete geçme şansı bulamadan çok önce öldürücü dil megamodelleri yayınlardı. Doğru olduğu ortaya çıkan çok garip bir iddiaya girdim: Difüzyon modelleri, biraz aptal olsa da, şaşırtıcı derecede güzel görüntüler üretti.
Abhinav: Geniş ölçekteki sohbet robotlarıyla ilgili olarak, yüz milyonlarca insanın yapay zeka modelleriyle yoğun konuşmalar yapmasının uzun zaman alacağını düşünüyorum. Artık sadece ChatGPT'yi değil, karakter oluşturma gibi diğer projeleri de kullanan pek çok yeni girişim ve işletmeyle, bu yapay zeka modelleriyle gerçekten duygusal bağlar kuran insan sayısı inanılmaz. Geçen yılın Eylül veya Ekim aylarında bunu tahmin edebileceğimi sanmıyorum. Son altı ayda meydana gelen bükülme noktası gerçekten beklenmedikti.
Swyx: Sence duygusal destek gibi ne için kullanılacaklar?
Abhinav: Bazıları duygusal destek için ya da sadece arkadaş olarak. Yalnızlık ve akıl sağlığı sorunları sıcak bir konudur. Bu toplulukların alt dizinlerine giderseniz, insanlar AI arkadaşları ve bu karakterler hakkında konuşuyor ve düşünüyor, bilim kurgudan fırlamış gibi ve bunun olmasını hiç beklemiyordum.
Swyx: Yapay zekadaki en ilginç çözülmemiş sorun nedir?
Abhinav: Doğruluk ve BF16/FP16 gibi şeyler açısından ne kadar ileri gidebileceğimizle ilgileniyorum.
Acaba modelin boyutu büyüdükçe bu sorunlar daha da izlenebilir hale geliyor mu? İlgili belgeler, niceleme ve budamanın ölçek arttıkça daha kolay hale gelebileceğini göstermektedir. Dolayısıyla, önümüzdeki birkaç yıl içinde ölçeği büyütmenin doğal bir sonucu olarak, dört bitlik, iki bitlik ve hatta ikili ağırlıklar kullanmaya doğru ilerleyebiliriz.
Jonathan: Ne kadar küçük bir model elde edebileceğimizi ve eşdeğer performansa sahip bir modeli ne kadar verimli geliştirebileceğimizi başka bir şekilde görmek istedim. Doktoram boyunca ve bir anlamda Mosaic'te de üzerinde çalıştığım soru buydu. OpenAI bize bu inanılmaz yeteneğe giden bir yol gösterdi, o da ölçekleme. Ama umarım tek yol bu değildir. Umarım bunu başarmanın daha iyi modelleme yöntemleri, daha iyi algoritmalar vb. yoluyla başka birçok yolu vardır.
Nörobilim mecazlarının hayranı olmasam da, bir anlamda varlığımız ve beyinlerimiz, trilyonlarca parametre ve hatta astronomik parametreler olmadan bu inanılmaz yeteneği elde etmenin en azından başka bir yolu olduğunu kanıtlıyor: Sermaye yatırımı. Yani gerçekten merak ettiğim ne kadar küçük bir model elde edebiliriz? Mevcut yolu izlemek zorunda olmayan bu yeteneklere giden başka bir yol var mı? Varsa, cevabı Mozaik'te bulmayı umuyoruz.
Swyx: Kesinlikle, en çok ilgilendiğim şeylerden biri, insan beyninin yalnızca 30 watt güç tüketmesi ve modelin bundan çok uzak olması.
Abhinav: Bunu yalnızca tek bir GPU veya diğer araçlarla başarmanın bir yolu olduğunu düşünmüyorum.
Alessio: Şu anda insanlar yapay zeka hakkında nasıl düşünmeli? Neye odaklanmalılar?
Jonathan: Sakin ol. Bazı insanlar aldatmacayı çok ciddiye alıyor; diğerleri çok karamsar, buna şiddetle tepki veriyor veya bir dereceye kadar inkar ediyor. Huzurunuzu koruyun ve çok kullanışlı bir araç oluşturduğumuzu bilin.
Ama henüz genel istihbarat oluşturamadık ve kişisel olarak bu hedefe yakın değiliz. Bu yüzden barışçıl olmak ve bilimi takip etmek önemlidir ve Mosaic AI bunun için çabalamaktadır. Daha iyi bir dünya yaratmayı umarak, insanlar için yararlı olan şeylere odaklanmaya çalışıyoruz. Elimizden gelenin en iyisini yapacağız ama en önemlisi bilimin peşinden koşacağız, verilerden yola çıkarak bu hedefimize lafla değil gerçek sonuçlarla ulaşacağız.
Abhinav: Bence açık bir toplulukta araştırma yapmak gibisi yok. Toplulukta, yalnızca çok sayıda insan modelinize dikkat etmekle kalmaz, aynı zamanda modelin sorunları ve nasıl geliştirileceği hakkında fikirlerini verir. Bu tür bir açık araştırma, hem modellerimizi güvende tutmak hem de bu AI modellerinin gerçek dünyadaki etkisini ve sonuçlarını araştırmak için ileriye giden yol olacaktır.