Bytes, OpenAI'ye tüm büyük modellere bir "kutudan çıkarma" işlemi verdi.
Sonuçlar, bazı önemli teknolojilerin GPT-4'ün evrimi üzerindeki özel rolünü ve etkisini gerçekten anladı.
Ne gibi:
SFT, erken GPT'nin evriminin etkinleştiricisiydi
GPT'nin kodlama yeteneklerine en büyük katkıda bulunanlar SFT ve RLHF'dir.
Ön eğitime kod verilerinin eklenmesi, sonraki GPT sürümlerinin tüm yönleriyle, özellikle çıkarım yapma yeteneğini geliştirir...
Bir işe başladıktan sonra, çok meşgul olan AI boğası Li Mu da uzun bir süre sonra halkın gözünde göründü ve bu araştırmayı övdü.
Netizenler bile övdü:
Bu, tüm OpenAI modellerini tamamen kutudan çıkarmak için bugüne kadarki ilk çalışmadır, saygılar.
Bazı yeni keşiflere ek olarak, mevcut bazı varsayımları da doğruluyor:
Örneğin, GPT-4 aptallaşma konusunda telaşlı değildir ve bu değerlendirme, GPT evrimi yolunda bariz bir "tahterevalli fenomeni" olduğunu, yani modelin evrimi sırasında bazı yeteneklerin arttığını ve diğerlerinin azaldığını buldu.
Bu, netizenlerin önceki duygularıyla örtüşüyor.
Yazarın kendisinin dediği gibi:
Bu çalışma, GPT-3'ten GPT-4'e evrimsel yol hakkında değerli bilgiler sağlayabilir.
Başka bir deyişle, bu sayede GPT modelinin "başarı yoluna" bir göz atabilir ve bir sonraki büyük ölçekli model yapım çalışması için etkili bir deneyim sağlayabiliriz.
Peki, tam olarak ne "açıyor", kağıda bir göz atalım.
GPT-3'ün GPT-4'e evrimini keşfetmek
İlk evrim diyagramı, kamuya açık bilgilere dayanarak yazarlar tarafından özetlenmiştir.
Gördüğünüz gibi, orijinal GPT-3'ten 3.5'e ve şimdi 4'e kadar gelişen her bir ara modelin hangi teknolojilerden geçtiğini (kod ince ayarı, SFT/FeedME vb.) işaretler.
Davinci'den gpt-4-0613'e kadar baytlar, matematik, kodlama ve akıl yürütme gibi her GPT neslinin 7 ana yeteneğinin tümünü test etti.
### 1. SFT: Erken GPT Evriminin Etkinleştiricisi
İlk olarak, GPT-3 ailesinde, orijinal davinci (GPT-3), SFT ve varyantı FeedME'nin ince ayarını denetleyerek text-davinci-001'e dönüştü.
Bu, ikincisine neredeyse tüm görevlerde bir performans artışı sağlar:
Aşağıdaki şekilde daha sezgisel bir temsil gösterilmektedir ("fandom", gelişmiş metin-davinci-001'dir).
GPT daha sonra 3.5 serisine geçti ve burada en temel kod-davinci002, aynı teknolojiyi kullanarak text-davinci-002'ye dönüştü.
Bununla birlikte, bu evrimsel işlemin etkisi gerçekten büyük değildir ve GPT'nin performansı yalnızca birkaç kat iyileştirilmiştir ve daha fazlası artmamış, azalmıştır.
Burada, yazarlar ilk sonuçlarına götürürler, yani:
SFT yalnızca daha zayıf temel modellerde çalışır ve daha güçlü modeller üzerinde çok az etkisi vardır.
Benzer bir fenomen açık kaynaklı modellerde görülebilir (bu inceleme ayrıca Llama1 ve 2, PaLM2-L, Claude 2, vb.'yi de test etti):
Orijinal Llama-65B'nin yanı sıra, SFT, MMLU kıyaslamasındaki performansını iyileştirmeyi başardı, ancak SFT iyileştirmelerini kullanan tüm Llama2-70B'ler, Open LLM Leaderboard'da yalnızca küçük iyileştirmeler gösterdi.
Özet: GPT3 aşamasında, SFT teknolojisi modelin gelişiminde önemli bir rol oynadı.
2, RLHF ve SFT: Kodlama yeteneğinin geliştirilmesine katkıda bulunanlar
GPT3.5 serisinin ardından, text-davinci-002'den başlayarak OpenAI, PPO algoritması RLHF'ye dayalı yeni bir teknoloji sunmaya başladı ve bu da text-davinci-003 ile sonuçlandı.
Bu noktada, çoğu kıyaslamadaki performansı, öncekiyle eşit veya biraz daha kötüdür, bu da etkinin özellikle belirgin olmadığını gösterir (ve aynısı açık kaynaklı modeller için de geçerlidir).
Bir istisna dışında: yaklaşık 30 puan artan kodlama görevi.
Genel performansın düşmesine neden olan text-davinci-002'ye dönüşmek için SFT teknolojisini kullanan önceki code-davinci02'yi anımsatan kodlama görevi etkilenmedi, ancak puan arttı——
Yazarlar, SFT ve RLHF'nin büyük modellerin kodlama yeteneği üzerindeki etkisini doğrulamaya karar verdiler.
Burada, birkaç nesil GPT modelinin pass@1 (1 örneğin 1 geçme olasılığı) pass@100 (100 örneğin 100 geçme olasılığı) gibi puanlarını ölçtüler.
Sonuç olarak, SFT ve RLHF teknolojisini kullanan model, temel modele kıyasla pass@1 önemli bir iyileşme ve pass@100 hafif bir düşüş gösterdi.
Bu ne anlama geliyor?
Yazar şöyle açıklıyor:
pass@100, modelin içsel kodlama yeteneğini açıklarken, pass@1 modelin tek seferlik, hatasız kodlama yeteneğini temsil eder.
pass@100 küçük düşüş, SFT ve RLHF'nin, tıpkı diğer görevler gibi, kodlama görevlerinde de hala sözde bir hizalama vergisine sahip olduğunu gösteriyor.
Bununla birlikte, SFT ve RLHF, pass@1 pass@100 yetenekleri öğrenebildi, yani içsel yetenekleri (ancak birçok deneme gerektiren) bir kez ve tekrar, hatasız kodlamaya dönüştürebildi ve bu da pass@1 önemli bir artışa neden oldu.
Sonuçlara dikkatlice baktığımızda, gpt-3.5-turbo-0301'in SFT ve RLHF aracılığıyla pass@1 büyük ölçüde iyileştirdiğini görebiliriz, bu da küçük modellerin performans optimizasyonu için iyi bir haber.
Yazarların daha önce GPT-4'ün bazı karmaşık çıkarım görevlerinde birkaç denemeden sonra sorunu çözebildiğini gözlemledikleri göz önüne alındığında, hepsi bu kadar değil.
Yukarıdaki gözlemlerle birlikte şöyle özetlediler:
LLM'ler, içsel yeteneklerini (ancak birden fazla deneme gerektirirler) sürekli olarak tek seferlik problem çözme yeteneklerine dönüştürmek için SFT ve RLHF'yi kullanmaya devam edebilir ve LLM'lerin yeteneklerinin üst sınırına yaklaşabilir.
Bunun anlamı, GPT-4'ün daha da güçlü olabileceğidir.
3. Kod, çıkarım için en yararlı olan ön eğitime eklenir
GPT4 evrimi yolunda 2 özel model de ortaya çıktı:
code-cushman-001 (Codex-12B) 和code-davinci-002。
İlki, OpenAI'nin kod verilerini kullanarak bir modeli eğitmeye yönelik ilk girişimidir ve küçük ölçeğine rağmen, iyi kod yetenekleri de elde etmiştir.
İkincisi, GPT3.5 temelinde RLHF+ koduyla eğitimin, yani metin ve kodun hibrit bir ön eğitiminin sonucu olan GPT3'in temel modelidir.
GPT-3'ü (yalnızca kodlama yeteneğinde değil) büyük ölçüde geride bıraktığı ve hatta bazı çıkarım görevlerinde (BBH gibi) GPT-3.5-turbo-0613'ten daha iyi performans gösterdiği görülebilir.
Yazarlar şöyle diyor:
Bu, ön eğitime kod verilerinin eklenmesinin, LLM'lerin yeteneklerini, özellikle de çıkarımı kapsamlı bir şekilde geliştirebileceğini göstermektedir.
4, "tahterevalli" fenomeni
Mart 2023 ve Haziran 2023 arasındaki OpenAI API modellerini karşılaştırarak bu fenomeni gerçekten görebiliriz:
GPT-3.5-turbo-0301 ile karşılaştırıldığında, yükseltilmiş gpt-3.5-turbo-0613, İnsan (53.9 -> 80.0) üzerinde iyi performans gösterir, ancak MATH'de (32.0 -> 15.0) önemli ölçüde düşer.
GPT-4-0613, DROP'ta GPT-4-0314'ten (78.7 -> 87.2) daha iyi performans gösterdi, ancak aynı zamanda MGSM'de bir düşüş (82.2 -> 68.7) gördü.
Yazarlara göre:
"Tahterevalli fenomeni", LLM'ler için AGI'ye giden yolda tökezleyen bir blok haline gelebilir, çünkü AGI "genel zekayı" vurgular ve modellerin "önyargılı" olmamasını gerektiren tüm görevlerde mükemmel performans gerektirir.
Burada ayrıca toplumu bu konuya dikkat etmeye ve büyük modellerin dengeli gelişimi konusundaki araştırmaları ortaklaşa teşvik etmeye çağırdılar.
Büyük model uygulayıcılarının yollarını bulmalarına yardımcı olun
Byte kısa süre önce büyük bir model değerlendirme aracı önerdi.
Muhtemelen, herkesin soruları olmalı:
Halihazırda çok sayıda büyük model sıralaması ve değerlendirme aracı var, öyleyse neden yeni bir yaklaşım geliştirelim?
Yazarlara göre, mevcut değerlendirme yöntemleriyle karşılaştırıldığında, GPT-Fathom ölçeği daha tekdüzedir ve sonuçlar tekrarlanabilir.
Büyük model uygulayıcıları, ürünlerini hedefli bir şekilde geliştirmek için kendileriyle lider model arasındaki boşluğun nerede olduğunu netleştirmek için kullanabilirler.
Spesifik olarak, GPT-Fathom temel olarak diğer büyük model değerlendirme yöntemlerinin üç eksikliğini çözer:
Tutarsız ayar kriterleri: Düşünce zinciri (CoT), örneklem büyüklüğü vb. ayarların ve yanıt değerlendirme yöntemlerinin kullanılıp kullanılmayacağı konusunda birleşik bir standart yoktur
Eksik model ve görev koleksiyonu: Dikkati test etme yeteneği kapsamlı değildir ve önceki modellere odaklanma eksikliği vardır
Model duyarlılığı konusunda araştırma eksikliği
GPT-Fatham'ın özelliklerini daha sezgisel olarak yansıtmak için yazar, aşağıdaki tabloda özetlenebilecek bazı belirli mevcut listeleri karşılaştırır:
Bunlar arasında, duyarlılık değerlendirmesi, önceki test standartlarının tanımlayamadığı sorunları buldu.
GPT ile karşılaştırıldığında, diğer modeller hızlı kelimelere karşı oldukça hassastır ve küçük bir değişiklik tamamen farklı bir çıktıya yol açacaktır, bu da diğer modellerin sağlamlığı ile GPT arasında hala büyük bir boşluk olduğunu düşündürür.
Örneğin, TriviaQA veri kümesinde, istem kelimesindeki küçük bir değişiklik, Llama 2-70B'nin puanını dörtte bir oranında azaltırken, GPT serisi modelleri önemli ölçüde değişmedi.
Ayrıca CoT, örneklem büyüklüğü ve örnekleme varyansı gibi faktörler de duyarlılık testine dahil edilir.
Gelecekte, yazarlar GPT-Fathom'u üç boyuttan genişletmeye devam etmeyi planlıyor: yetenek türleri, test veri kümeleri ve modeller ve çok yönlü diyalog, çok modalite ve diğer yeteneklerin değerlendirilmesini destekleyecek ve ayrıca birden çok veri kümesinin ve modelin test edilmesini artıracak.
GPT-Fatham'ın iki ortak yazarı, Byte'ın Uygulamalı Makine Öğrenimi Araştırma Grubu'nda araştırmacı olan Yuyu Zhang ve stajyer Shen Zheng'dir.
Shen Zheng, Urbana-Champaign'deki Illinois Üniversitesi'nde (UIUC) yüksek lisans öğrencisidir.
Ayrıca, Bytes'tan Yijie Zhu ve UIUC'den Profesör Kevin Chen-Chuan Chang da dahil olmak üzere dört araştırmacı da çalışmaya dahil oldu.
Adres:
Referans Linkleri:
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Baytlar, OpenAI'nin tüm büyük modellerini "kutudan çıkararak" GPT-3'ten GPT-4'e evrim yolunu ortaya çıkarır! Li Mu'yu havaya uçurdu
Makale kaynağı: kübitler
GPT-3 tam olarak nasıl GPT-4'e dönüştü?
Bytes, OpenAI'ye tüm büyük modellere bir "kutudan çıkarma" işlemi verdi.
Sonuçlar, bazı önemli teknolojilerin GPT-4'ün evrimi üzerindeki özel rolünü ve etkisini gerçekten anladı.
Bir işe başladıktan sonra, çok meşgul olan AI boğası Li Mu da uzun bir süre sonra halkın gözünde göründü ve bu araştırmayı övdü.
Örneğin, GPT-4 aptallaşma konusunda telaşlı değildir ve bu değerlendirme, GPT evrimi yolunda bariz bir "tahterevalli fenomeni" olduğunu, yani modelin evrimi sırasında bazı yeteneklerin arttığını ve diğerlerinin azaldığını buldu.
Bu, netizenlerin önceki duygularıyla örtüşüyor.
Başka bir deyişle, bu sayede GPT modelinin "başarı yoluna" bir göz atabilir ve bir sonraki büyük ölçekli model yapım çalışması için etkili bir deneyim sağlayabiliriz.
Peki, tam olarak ne "açıyor", kağıda bir göz atalım.
GPT-3'ün GPT-4'e evrimini keşfetmek
İlk evrim diyagramı, kamuya açık bilgilere dayanarak yazarlar tarafından özetlenmiştir.
Gördüğünüz gibi, orijinal GPT-3'ten 3.5'e ve şimdi 4'e kadar gelişen her bir ara modelin hangi teknolojilerden geçtiğini (kod ince ayarı, SFT/FeedME vb.) işaretler.
Davinci'den gpt-4-0613'e kadar baytlar, matematik, kodlama ve akıl yürütme gibi her GPT neslinin 7 ana yeteneğinin tümünü test etti.
İlk olarak, GPT-3 ailesinde, orijinal davinci (GPT-3), SFT ve varyantı FeedME'nin ince ayarını denetleyerek text-davinci-001'e dönüştü.
Bu, ikincisine neredeyse tüm görevlerde bir performans artışı sağlar:
Bununla birlikte, bu evrimsel işlemin etkisi gerçekten büyük değildir ve GPT'nin performansı yalnızca birkaç kat iyileştirilmiştir ve daha fazlası artmamış, azalmıştır.
SFT yalnızca daha zayıf temel modellerde çalışır ve daha güçlü modeller üzerinde çok az etkisi vardır.
Benzer bir fenomen açık kaynaklı modellerde görülebilir (bu inceleme ayrıca Llama1 ve 2, PaLM2-L, Claude 2, vb.'yi de test etti):
Orijinal Llama-65B'nin yanı sıra, SFT, MMLU kıyaslamasındaki performansını iyileştirmeyi başardı, ancak SFT iyileştirmelerini kullanan tüm Llama2-70B'ler, Open LLM Leaderboard'da yalnızca küçük iyileştirmeler gösterdi.
Özet: GPT3 aşamasında, SFT teknolojisi modelin gelişiminde önemli bir rol oynadı.
2, RLHF ve SFT: Kodlama yeteneğinin geliştirilmesine katkıda bulunanlar
GPT3.5 serisinin ardından, text-davinci-002'den başlayarak OpenAI, PPO algoritması RLHF'ye dayalı yeni bir teknoloji sunmaya başladı ve bu da text-davinci-003 ile sonuçlandı.
Bu noktada, çoğu kıyaslamadaki performansı, öncekiyle eşit veya biraz daha kötüdür, bu da etkinin özellikle belirgin olmadığını gösterir (ve aynısı açık kaynaklı modeller için de geçerlidir).
Bir istisna dışında: yaklaşık 30 puan artan kodlama görevi.
Burada, birkaç nesil GPT modelinin pass@1 (1 örneğin 1 geçme olasılığı) pass@100 (100 örneğin 100 geçme olasılığı) gibi puanlarını ölçtüler.
Bu ne anlama geliyor?
Yazar şöyle açıklıyor:
pass@100, modelin içsel kodlama yeteneğini açıklarken, pass@1 modelin tek seferlik, hatasız kodlama yeteneğini temsil eder.
pass@100 küçük düşüş, SFT ve RLHF'nin, tıpkı diğer görevler gibi, kodlama görevlerinde de hala sözde bir hizalama vergisine sahip olduğunu gösteriyor.
Bununla birlikte, SFT ve RLHF, pass@1 pass@100 yetenekleri öğrenebildi, yani içsel yetenekleri (ancak birçok deneme gerektiren) bir kez ve tekrar, hatasız kodlamaya dönüştürebildi ve bu da pass@1 önemli bir artışa neden oldu.
Sonuçlara dikkatlice baktığımızda, gpt-3.5-turbo-0301'in SFT ve RLHF aracılığıyla pass@1 büyük ölçüde iyileştirdiğini görebiliriz, bu da küçük modellerin performans optimizasyonu için iyi bir haber.
Yukarıdaki gözlemlerle birlikte şöyle özetlediler:
LLM'ler, içsel yeteneklerini (ancak birden fazla deneme gerektirirler) sürekli olarak tek seferlik problem çözme yeteneklerine dönüştürmek için SFT ve RLHF'yi kullanmaya devam edebilir ve LLM'lerin yeteneklerinin üst sınırına yaklaşabilir.
Bunun anlamı, GPT-4'ün daha da güçlü olabileceğidir.
3. Kod, çıkarım için en yararlı olan ön eğitime eklenir
GPT4 evrimi yolunda 2 özel model de ortaya çıktı:
code-cushman-001 (Codex-12B) 和code-davinci-002。
İlki, OpenAI'nin kod verilerini kullanarak bir modeli eğitmeye yönelik ilk girişimidir ve küçük ölçeğine rağmen, iyi kod yetenekleri de elde etmiştir.
İkincisi, GPT3.5 temelinde RLHF+ koduyla eğitimin, yani metin ve kodun hibrit bir ön eğitiminin sonucu olan GPT3'in temel modelidir.
GPT-3'ü (yalnızca kodlama yeteneğinde değil) büyük ölçüde geride bıraktığı ve hatta bazı çıkarım görevlerinde (BBH gibi) GPT-3.5-turbo-0613'ten daha iyi performans gösterdiği görülebilir.
Bu, ön eğitime kod verilerinin eklenmesinin, LLM'lerin yeteneklerini, özellikle de çıkarımı kapsamlı bir şekilde geliştirebileceğini göstermektedir.
4, "tahterevalli" fenomeni
Mart 2023 ve Haziran 2023 arasındaki OpenAI API modellerini karşılaştırarak bu fenomeni gerçekten görebiliriz:
GPT-3.5-turbo-0301 ile karşılaştırıldığında, yükseltilmiş gpt-3.5-turbo-0613, İnsan (53.9 -> 80.0) üzerinde iyi performans gösterir, ancak MATH'de (32.0 -> 15.0) önemli ölçüde düşer.
GPT-4-0613, DROP'ta GPT-4-0314'ten (78.7 -> 87.2) daha iyi performans gösterdi, ancak aynı zamanda MGSM'de bir düşüş (82.2 -> 68.7) gördü.
Yazarlara göre:
"Tahterevalli fenomeni", LLM'ler için AGI'ye giden yolda tökezleyen bir blok haline gelebilir, çünkü AGI "genel zekayı" vurgular ve modellerin "önyargılı" olmamasını gerektiren tüm görevlerde mükemmel performans gerektirir.
Burada ayrıca toplumu bu konuya dikkat etmeye ve büyük modellerin dengeli gelişimi konusundaki araştırmaları ortaklaşa teşvik etmeye çağırdılar.
Büyük model uygulayıcılarının yollarını bulmalarına yardımcı olun
Yukarıdaki bulguların tümü GPT-Fathom'a dayanmaktadır -
Byte kısa süre önce büyük bir model değerlendirme aracı önerdi.
Muhtemelen, herkesin soruları olmalı:
Halihazırda çok sayıda büyük model sıralaması ve değerlendirme aracı var, öyleyse neden yeni bir yaklaşım geliştirelim?
Yazarlara göre, mevcut değerlendirme yöntemleriyle karşılaştırıldığında, GPT-Fathom ölçeği daha tekdüzedir ve sonuçlar tekrarlanabilir.
Büyük model uygulayıcıları, ürünlerini hedefli bir şekilde geliştirmek için kendileriyle lider model arasındaki boşluğun nerede olduğunu netleştirmek için kullanabilirler.
Spesifik olarak, GPT-Fathom temel olarak diğer büyük model değerlendirme yöntemlerinin üç eksikliğini çözer:
Tutarsız ayar kriterleri: Düşünce zinciri (CoT), örneklem büyüklüğü vb. ayarların ve yanıt değerlendirme yöntemlerinin kullanılıp kullanılmayacağı konusunda birleşik bir standart yoktur Eksik model ve görev koleksiyonu: Dikkati test etme yeteneği kapsamlı değildir ve önceki modellere odaklanma eksikliği vardır Model duyarlılığı konusunda araştırma eksikliği
GPT-Fatham'ın özelliklerini daha sezgisel olarak yansıtmak için yazar, aşağıdaki tabloda özetlenebilecek bazı belirli mevcut listeleri karşılaştırır:
GPT ile karşılaştırıldığında, diğer modeller hızlı kelimelere karşı oldukça hassastır ve küçük bir değişiklik tamamen farklı bir çıktıya yol açacaktır, bu da diğer modellerin sağlamlığı ile GPT arasında hala büyük bir boşluk olduğunu düşündürür.
Örneğin, TriviaQA veri kümesinde, istem kelimesindeki küçük bir değişiklik, Llama 2-70B'nin puanını dörtte bir oranında azaltırken, GPT serisi modelleri önemli ölçüde değişmedi.
Gelecekte, yazarlar GPT-Fathom'u üç boyuttan genişletmeye devam etmeyi planlıyor: yetenek türleri, test veri kümeleri ve modeller ve çok yönlü diyalog, çok modalite ve diğer yeteneklerin değerlendirilmesini destekleyecek ve ayrıca birden çok veri kümesinin ve modelin test edilmesini artıracak.
GPT-Fatham'ın iki ortak yazarı, Byte'ın Uygulamalı Makine Öğrenimi Araştırma Grubu'nda araştırmacı olan Yuyu Zhang ve stajyer Shen Zheng'dir.
Shen Zheng, Urbana-Champaign'deki Illinois Üniversitesi'nde (UIUC) yüksek lisans öğrencisidir.
Ayrıca, Bytes'tan Yijie Zhu ve UIUC'den Profesör Kevin Chen-Chuan Chang da dahil olmak üzere dört araştırmacı da çalışmaya dahil oldu.
Adres:
Referans Linkleri: