Bagaimana tepatnya GPT-3 berevolusi menjadi GPT-4?
Bytes memberi OpenAI semua model besar operasi "unboxing".
Hasilnya benar-benar menemukan peran dan dampak spesifik dari beberapa teknologi kunci pada evolusi GPT-4.
Seperti apa:
SFT adalah enabler evolusi GPT awal
Kontributor terbesar untuk kemampuan pengkodean GPT adalah SFT dan RLHF
Menambahkan data kode ke pra-pelatihan meningkatkan kemampuan versi GPT berikutnya dalam ** semua aspek **, terutama inferensi ...
Setelah memulai bisnis, AI bull Li Mu, yang sangat sibuk, juga muncul di mata publik setelah sekian lama dan memuji penelitian ini.
Netizen bahkan memuji:
Ini adalah karya pertama hingga saat ini yang sepenuhnya membuka kotak semua model OpenAI, hormati.
Selain beberapa penemuan baru, itu juga menegaskan beberapa dugaan yang ada:
Misalnya, GPT-4 tidak khawatir menjadi bodoh, dan evaluasi ini menemukan bahwa ada "fenomena jungkat-jungkit" yang jelas di jalur evolusi GPT, yaitu, beberapa kemampuan meningkat dan yang lainnya menurun selama evolusi model.
Ini bertepatan dengan perasaan netizen sebelumnya.
Seperti yang dikatakan penulis sendiri:
Pekerjaan ini dapat memberikan wawasan berharga tentang jalur evolusi dari GPT-3 ke GPT-4.
Dengan kata lain, melaluinya, kita bisa melihat sekilas "jalur sukses" model GPT, dan memberikan pengalaman yang efektif untuk pekerjaan konstruksi model skala besar berikutnya.
Jadi, apa sebenarnya yang "terbuka", mari kita lihat kertasnya.
Menjelajahi evolusi GPT-3 ke GPT-4
Diagram evolusi pertama dirangkum oleh penulis berdasarkan informasi yang tersedia untuk umum.
Seperti yang Anda lihat, ini menandai teknologi mana yang telah dialami setiap model perantara (seperti penyempurnaan kode, SFT / FeedME, dll.) yang telah berevolusi dari GPT-3 asli menjadi 3.5 dan sekarang menjadi 4.
Dari davinci hingga gpt-4-0613, byte telah menguji semua 7 kemampuan utama dari setiap generasi GPT, seperti matematika, pengkodean, dan penalaran.
### 1. SFT: Pendorong Evolusi GPT Awal
Pertama, dalam keluarga GPT-3, davinci asli (GPT-3) berevolusi menjadi text-davinci-001 dengan mengawasi fine-tuning SFT dan variannya, FeedME.
Ini memberi yang terakhir peningkatan kinerja pada hampir semua tugas:
Representasi yang lebih intuitif ditunjukkan pada gambar di bawah ini ("fandom" adalah teks yang dikembangkan-davinci-001).
GPT kemudian pindah ke seri 3.5, di mana kode paling dasar-davinci002 berevolusi menjadi teks-davinci-002 menggunakan teknologi yang sama.
Namun, efek dari operasi evolusi ini sebenarnya tidak besar, dan kinerja GPT hanya ditingkatkan beberapa kali, dan lebih banyak tidak meningkat tetapi menurun.
Di sini, penulis mengarah pada kesimpulan pertama mereka, yaitu:
SFT hanya bekerja pada model dasar yang lebih lemah dan memiliki sedikit efek pada model yang lebih kuat.
Fenomena serupa dapat dilihat pada model sumber terbuka (ulasan ini juga menguji Llama1 dan 2, PaLM2-L, Claude 2, dll.):
Di atas Llama-65B asli, SFT berhasil meningkatkan kinerjanya pada tolok ukur MMLU, tetapi semua Llama2-70B yang menggunakan peningkatan SFT hanya menunjukkan peningkatan kecil pada Open LLM Leaderboard.
Ringkasan: Pada tahap GPT3, teknologi SFT memainkan peran kunci dalam evolusi model.
2, RLHF dan SFT: Kontributor peningkatan kemampuan coding
Mengikuti seri GPT3.5, mulai dari text-davinci-002, OpenAI mulai memperkenalkan teknologi baru berdasarkan algoritma PPO RLHF, menghasilkan text-davinci-003.
Pada titik ini, kinerjanya pada sebagian besar tolok ukur setara dengan atau sedikit lebih buruk dari pendahulunya, menunjukkan bahwa efeknya tidak terlalu jelas (dan hal yang sama berlaku untuk model open source).
Dengan satu pengecualian: tugas pengkodean, yang meningkat hampir 30 poin.
Mengingatkan pada kode-davinci002 sebelumnya yang menggunakan teknologi SFT untuk berevolusi menjadi teks-davinci-002, yang menyebabkan kinerja keseluruhan menurun, tugas pengkodean tidak terpengaruh, tetapi skornya meningkat——
Para penulis memutuskan untuk memverifikasi efek SFT dan RLHF pada kemampuan pengkodean model besar.
Di sini, mereka mengukur skor seperti pass@1 (probabilitas 1 lintasan dari 1 sampel), pass@100 (probabilitas 100 lintasan dari 100 sampel) dari beberapa generasi model GPT.
Hasilnya, model yang menggunakan teknologi SFT dan RLHF menunjukkan peningkatan pass@1 yang signifikan dan sedikit penurunan pass@100 dibandingkan dengan model dasar.
Apa artinya ini?
Penulis menjelaskan:
pass@100 menjelaskan kemampuan pengkodean intrinsik model, sementara pass@1 mewakili kemampuan pengkodean satu kali dan bebas bug model.
pass@100 sedikit penurunan menunjukkan bahwa SFT dan RLHF masih memiliki apa yang disebut pajak penyelarasan pada tugas pengkodean, sama seperti tugas lainnya.
Namun, SFT dan RLHF telah mampu mempelajari kemampuan pass@1 pass@100, yaitu, mengubah kemampuan intrinsik (tetapi membutuhkan banyak upaya) menjadi pengkodean sekali dan lagi, bebas bug, menghasilkan peningkatan pass@1 yang signifikan.
Melihat hasilnya dengan cermat, kita dapat melihat bahwa gpt-3.5-turbo-0301 sangat meningkatkan pass@1 melalui SFT dan RLHF, yang merupakan kabar baik untuk optimalisasi kinerja model kecil.
Dan itu belum semuanya, mengingat bahwa penulis sebelumnya telah mengamati bahwa GPT-4 mampu memecahkan masalah setelah beberapa upaya pada beberapa tugas inferensi yang kompleks.
Dikombinasikan dengan pengamatan di atas, mereka meringkasnya sebagai:
LLM masih dapat menggunakan SFT dan RLHF untuk terus mengubah kemampuan intrinsik mereka (tetapi mereka membutuhkan beberapa upaya) menjadi kemampuan pemecahan masalah satu kali, mendekati batas atas kemampuan LLM.
Implikasinya adalah GPT-4 bisa lebih kuat lagi.
3. Kode ditambahkan ke pra-pelatihan, yang paling membantu untuk inferensi
Di jalan evolusi GPT4, 2 model khusus juga muncul:
code-cushman-001 (Codex-12B) 和code-davinci-002。
Yang pertama adalah upaya pertama OpenAI untuk melatih model menggunakan data kode, dan meskipun skalanya kecil, OpenAI juga telah mencapai kemampuan kode yang baik.
Yang terakhir adalah model dasar GPT3.5, yang merupakan hasil pelatihan dengan kode RLHF + berdasarkan GPT3, yaitu pra-pelatihan hibrida teks dan kode.
Dapat dilihat bahwa itu sangat melampaui GPT-3 (tidak hanya dalam kemampuan pengkodean), dan bahkan mengungguli GPT-3.5-turbo-0613 dalam beberapa tugas inferensi (seperti BBH).
Para penulis menyatakan:
Ini menunjukkan bahwa penambahan data kode ke pra-pelatihan dapat secara komprehensif meningkatkan kemampuan LLM, terutama inferensi.
4, fenomena "jungkat-jungkit"
Dengan membandingkan model OpenAI API dari Maret 2023 dan Juni 2023, kita memang dapat melihat fenomena ini:
Dibandingkan dengan gpt-3.5-turbo-0301, gpt-3.5-turbo-0613 yang ditingkatkan berkinerja baik pada Human (53.9 -> 80.0), tetapi turun secara signifikan pada MATH (32.0 -> 15.0).
GPT-4-0613 mengungguli GPT-4-0314 (78,7 -> 87,2) pada DROP, tetapi juga mengalami penurunan (82,2 -> 68,7) pada MGSM.
Menurut penulis:
"Fenomena jungkat-jungkit" dapat menjadi batu sandungan di jalan menuju AGI untuk LLM, karena AGI menekankan "kecerdasan umum", dan membutuhkan kinerja yang sangat baik pada semua tugas, membutuhkan model untuk tidak "bias".
Di sini, mereka juga meminta masyarakat untuk memperhatikan masalah ini dan bersama-sama mempromosikan penelitian tentang pengembangan model besar yang seimbang.
** Bantu praktisi model besar menemukan jalan mereka **
Semua temuan di atas didasarkan pada GPT-Fathom -
Byte baru-baru ini mengusulkan alat evaluasi model besar.
Agaknya, setiap orang pasti memiliki pertanyaan:
Sudah ada banyak peringkat model besar dan alat evaluasi, jadi mengapa datang dengan pendekatan baru?
Menurut penulis, dibandingkan dengan metode penilaian yang ada, skala GPT-Fathom lebih seragam, dan hasilnya dapat direproduksi.
Praktisi model besar dapat menggunakannya untuk mengklarifikasi di mana kesenjangan antara mereka dan model terkemuka, sehingga dapat meningkatkan produk mereka dengan cara yang ditargetkan.
Secara khusus, GPT-Fathom terutama memecahkan tiga kekurangan metode evaluasi model besar lainnya:
** Kriteria pengaturan yang tidak konsisten **: Tidak ada standar terpadu untuk apakah akan menggunakan pengaturan seperti rantai pemikiran (CoT), ukuran sampel, dll., Dan menjawab metode evaluasi
Model dan pengumpulan tugas tidak lengkap: Kemampuan untuk menguji perhatian tidak komprehensif, dan ada kurangnya fokus pada model sebelumnya
** Kurangnya penelitian tentang sensitivitas model **
Agar lebih intuitif mencerminkan karakteristik GPT-Fatham, penulis membandingkan beberapa daftar spesifik yang ada, yang dapat diringkas dalam tabel berikut:
Di antara mereka, evaluasi sensitivitas menemukan masalah yang gagal diidentifikasi oleh standar pengujian sebelumnya.
Dibandingkan dengan GPT, model lain sangat sensitif terhadap kata-kata cepat, dan sedikit perubahan akan menghasilkan output yang sama sekali berbeda, menunjukkan bahwa masih ada kesenjangan besar antara ketahanan model lain dan GPT.
Misalnya, pada himpunan data TriviaQA, sedikit perubahan pada kata prompt mengurangi skor Llama 2-70B seperempat, sedangkan model seri GPT tidak berubah secara signifikan.
Selain itu, faktor-faktor seperti CoT, ukuran sampel, dan varians sampling juga termasuk dalam pengujian sensitivitas.
Di masa depan, penulis berencana untuk terus memperluas GPT-Fathom dari tiga dimensi: jenis kemampuan, dataset uji, dan model, dan akan mendukung penilaian dialog multi-putaran, multi-modalitas dan kemampuan lainnya, serta meningkatkan pengujian beberapa dataset dan model.
Dua rekan penulis GPT-Fatham adalah Yuyu Zhang, seorang peneliti di Byte's Applied Machine Learning Research Group, dan Shen Zheng, seorang magang.
Shen Zheng adalah mahasiswa master di University of Illinois di Urbana-Champaign (UIUC).
Selain itu, empat peneliti, termasuk Yijie Zhu dari Bytes, dan Profesor Kevin Chen-Chuan Chang dari UIUC juga terlibat dalam penelitian ini.
Alamat:
Link Referensi:
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Bytes "unbox" semua model besar OpenAI, mengungkapkan jalur evolusi dari GPT-3 ke GPT-4! meledakkan Li Mu
Sumber artikel: qubits
Bagaimana tepatnya GPT-3 berevolusi menjadi GPT-4?
Bytes memberi OpenAI semua model besar operasi "unboxing".
Hasilnya benar-benar menemukan peran dan dampak spesifik dari beberapa teknologi kunci pada evolusi GPT-4.
Setelah memulai bisnis, AI bull Li Mu, yang sangat sibuk, juga muncul di mata publik setelah sekian lama dan memuji penelitian ini.
Misalnya, GPT-4 tidak khawatir menjadi bodoh, dan evaluasi ini menemukan bahwa ada "fenomena jungkat-jungkit" yang jelas di jalur evolusi GPT, yaitu, beberapa kemampuan meningkat dan yang lainnya menurun selama evolusi model.
Ini bertepatan dengan perasaan netizen sebelumnya.
Dengan kata lain, melaluinya, kita bisa melihat sekilas "jalur sukses" model GPT, dan memberikan pengalaman yang efektif untuk pekerjaan konstruksi model skala besar berikutnya.
Jadi, apa sebenarnya yang "terbuka", mari kita lihat kertasnya.
Menjelajahi evolusi GPT-3 ke GPT-4
Diagram evolusi pertama dirangkum oleh penulis berdasarkan informasi yang tersedia untuk umum.
Seperti yang Anda lihat, ini menandai teknologi mana yang telah dialami setiap model perantara (seperti penyempurnaan kode, SFT / FeedME, dll.) yang telah berevolusi dari GPT-3 asli menjadi 3.5 dan sekarang menjadi 4.
Dari davinci hingga gpt-4-0613, byte telah menguji semua 7 kemampuan utama dari setiap generasi GPT, seperti matematika, pengkodean, dan penalaran.
Pertama, dalam keluarga GPT-3, davinci asli (GPT-3) berevolusi menjadi text-davinci-001 dengan mengawasi fine-tuning SFT dan variannya, FeedME.
Ini memberi yang terakhir peningkatan kinerja pada hampir semua tugas:
Namun, efek dari operasi evolusi ini sebenarnya tidak besar, dan kinerja GPT hanya ditingkatkan beberapa kali, dan lebih banyak tidak meningkat tetapi menurun.
SFT hanya bekerja pada model dasar yang lebih lemah dan memiliki sedikit efek pada model yang lebih kuat.
Fenomena serupa dapat dilihat pada model sumber terbuka (ulasan ini juga menguji Llama1 dan 2, PaLM2-L, Claude 2, dll.):
Di atas Llama-65B asli, SFT berhasil meningkatkan kinerjanya pada tolok ukur MMLU, tetapi semua Llama2-70B yang menggunakan peningkatan SFT hanya menunjukkan peningkatan kecil pada Open LLM Leaderboard.
Ringkasan: Pada tahap GPT3, teknologi SFT memainkan peran kunci dalam evolusi model.
2, RLHF dan SFT: Kontributor peningkatan kemampuan coding
Mengikuti seri GPT3.5, mulai dari text-davinci-002, OpenAI mulai memperkenalkan teknologi baru berdasarkan algoritma PPO RLHF, menghasilkan text-davinci-003.
Pada titik ini, kinerjanya pada sebagian besar tolok ukur setara dengan atau sedikit lebih buruk dari pendahulunya, menunjukkan bahwa efeknya tidak terlalu jelas (dan hal yang sama berlaku untuk model open source).
Dengan satu pengecualian: tugas pengkodean, yang meningkat hampir 30 poin.
Di sini, mereka mengukur skor seperti pass@1 (probabilitas 1 lintasan dari 1 sampel), pass@100 (probabilitas 100 lintasan dari 100 sampel) dari beberapa generasi model GPT.
Apa artinya ini?
Penulis menjelaskan:
pass@100 menjelaskan kemampuan pengkodean intrinsik model, sementara pass@1 mewakili kemampuan pengkodean satu kali dan bebas bug model.
pass@100 sedikit penurunan menunjukkan bahwa SFT dan RLHF masih memiliki apa yang disebut pajak penyelarasan pada tugas pengkodean, sama seperti tugas lainnya.
Namun, SFT dan RLHF telah mampu mempelajari kemampuan pass@1 pass@100, yaitu, mengubah kemampuan intrinsik (tetapi membutuhkan banyak upaya) menjadi pengkodean sekali dan lagi, bebas bug, menghasilkan peningkatan pass@1 yang signifikan.
Melihat hasilnya dengan cermat, kita dapat melihat bahwa gpt-3.5-turbo-0301 sangat meningkatkan pass@1 melalui SFT dan RLHF, yang merupakan kabar baik untuk optimalisasi kinerja model kecil.
Dikombinasikan dengan pengamatan di atas, mereka meringkasnya sebagai:
LLM masih dapat menggunakan SFT dan RLHF untuk terus mengubah kemampuan intrinsik mereka (tetapi mereka membutuhkan beberapa upaya) menjadi kemampuan pemecahan masalah satu kali, mendekati batas atas kemampuan LLM.
Implikasinya adalah GPT-4 bisa lebih kuat lagi.
3. Kode ditambahkan ke pra-pelatihan, yang paling membantu untuk inferensi
Di jalan evolusi GPT4, 2 model khusus juga muncul:
code-cushman-001 (Codex-12B) 和code-davinci-002。
Yang pertama adalah upaya pertama OpenAI untuk melatih model menggunakan data kode, dan meskipun skalanya kecil, OpenAI juga telah mencapai kemampuan kode yang baik.
Yang terakhir adalah model dasar GPT3.5, yang merupakan hasil pelatihan dengan kode RLHF + berdasarkan GPT3, yaitu pra-pelatihan hibrida teks dan kode.
Dapat dilihat bahwa itu sangat melampaui GPT-3 (tidak hanya dalam kemampuan pengkodean), dan bahkan mengungguli GPT-3.5-turbo-0613 dalam beberapa tugas inferensi (seperti BBH).
Ini menunjukkan bahwa penambahan data kode ke pra-pelatihan dapat secara komprehensif meningkatkan kemampuan LLM, terutama inferensi.
4, fenomena "jungkat-jungkit"
Dengan membandingkan model OpenAI API dari Maret 2023 dan Juni 2023, kita memang dapat melihat fenomena ini:
Dibandingkan dengan gpt-3.5-turbo-0301, gpt-3.5-turbo-0613 yang ditingkatkan berkinerja baik pada Human (53.9 -> 80.0), tetapi turun secara signifikan pada MATH (32.0 -> 15.0).
GPT-4-0613 mengungguli GPT-4-0314 (78,7 -> 87,2) pada DROP, tetapi juga mengalami penurunan (82,2 -> 68,7) pada MGSM.
Menurut penulis:
"Fenomena jungkat-jungkit" dapat menjadi batu sandungan di jalan menuju AGI untuk LLM, karena AGI menekankan "kecerdasan umum", dan membutuhkan kinerja yang sangat baik pada semua tugas, membutuhkan model untuk tidak "bias".
Di sini, mereka juga meminta masyarakat untuk memperhatikan masalah ini dan bersama-sama mempromosikan penelitian tentang pengembangan model besar yang seimbang.
** Bantu praktisi model besar menemukan jalan mereka **
Semua temuan di atas didasarkan pada GPT-Fathom -
Byte baru-baru ini mengusulkan alat evaluasi model besar.
Agaknya, setiap orang pasti memiliki pertanyaan:
Sudah ada banyak peringkat model besar dan alat evaluasi, jadi mengapa datang dengan pendekatan baru?
Menurut penulis, dibandingkan dengan metode penilaian yang ada, skala GPT-Fathom lebih seragam, dan hasilnya dapat direproduksi.
Praktisi model besar dapat menggunakannya untuk mengklarifikasi di mana kesenjangan antara mereka dan model terkemuka, sehingga dapat meningkatkan produk mereka dengan cara yang ditargetkan.
Secara khusus, GPT-Fathom terutama memecahkan tiga kekurangan metode evaluasi model besar lainnya:
** Kriteria pengaturan yang tidak konsisten **: Tidak ada standar terpadu untuk apakah akan menggunakan pengaturan seperti rantai pemikiran (CoT), ukuran sampel, dll., Dan menjawab metode evaluasi Model dan pengumpulan tugas tidak lengkap: Kemampuan untuk menguji perhatian tidak komprehensif, dan ada kurangnya fokus pada model sebelumnya ** Kurangnya penelitian tentang sensitivitas model **
Agar lebih intuitif mencerminkan karakteristik GPT-Fatham, penulis membandingkan beberapa daftar spesifik yang ada, yang dapat diringkas dalam tabel berikut:
Dibandingkan dengan GPT, model lain sangat sensitif terhadap kata-kata cepat, dan sedikit perubahan akan menghasilkan output yang sama sekali berbeda, menunjukkan bahwa masih ada kesenjangan besar antara ketahanan model lain dan GPT.
Misalnya, pada himpunan data TriviaQA, sedikit perubahan pada kata prompt mengurangi skor Llama 2-70B seperempat, sedangkan model seri GPT tidak berubah secara signifikan.
Di masa depan, penulis berencana untuk terus memperluas GPT-Fathom dari tiga dimensi: jenis kemampuan, dataset uji, dan model, dan akan mendukung penilaian dialog multi-putaran, multi-modalitas dan kemampuan lainnya, serta meningkatkan pengujian beberapa dataset dan model.
Dua rekan penulis GPT-Fatham adalah Yuyu Zhang, seorang peneliti di Byte's Applied Machine Learning Research Group, dan Shen Zheng, seorang magang.
Shen Zheng adalah mahasiswa master di University of Illinois di Urbana-Champaign (UIUC).
Selain itu, empat peneliti, termasuk Yijie Zhu dari Bytes, dan Profesor Kevin Chen-Chuan Chang dari UIUC juga terlibat dalam penelitian ini.
Alamat:
Link Referensi: