Tangkapan layar makalah Microsoft mengungkapkan bahwa GPT-3.5 hanya memiliki 20 miliar parameter? Lingkaran AI terkejut, dan netizen berteriak bahwa itu keterlaluan!

Question

Sumber asli: Zhiyuan Baru![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-305182ec3b-dd1a6f-69ad2a) Sumber gambar: Dihasilkan oleh Unbounded AIGPT-3.5 hanya memiliki 20 miliar parameter?Hari ini, lingkaran model besar telah diledakkan oleh tangkapan layar di kertas Microsoft, apa yang terjadi?Hanya beberapa hari yang lalu, Microsoft menerbitkan sebuah makalah tentang arXiv, yang mengusulkan model difusi skala kecil dengan hanya 75 juta parameter - CodeFusion.Dalam hal kinerja, 75 juta parameter CodeFusion sebanding dengan model 350M-175B yang canggih dalam hal indikator akurasi top-1.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-acfed1ccb0-dd1a6f-69ad2a) Alamat:Karya makalah ini sangat menarik, tetapi yang menarik perhatian khusus semua orang adalah -Ketika penulis membandingkan ChatGPT (gpt-3.5-turbo), jumlah nominal parameternya hanya 20B!![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e997f2dfa9-dd1a6f-69ad2a) Sebelum ini, tebakan semua orang tentang jumlah parameter GPT-3.5 adalah 175 miliar, yang setara dengan pengurangan hampir sepuluh kali lipat!![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f9a57eb606-dd1a6f-69ad2a) Menurut pengungkapan makalah ini, netizen juga pergi ke Wikipedia untuk memperbarui pengenalan GPT-3.5 dan langsung mengubah ukuran parameter menjadi 20B.Begitu berita itu keluar, itu langsung muncul di pencarian panas Zhihu, dan netizen meledak.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-1151c7af0f-dd1a6f-69ad2a) Beberapa orang berkata, cepat kembali dan keluarkan posting blog distilasi model saya sebelumnya untuk ditinjau dan ditinjau.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-0c8dc90491-dd1a6f-69ad2a) ## **Apakah itu "oolong" atau "fakta"? **Begitu wahyu netizen keluar, mereka langsung memicu diskusi panas.Sejauh ini, lebih dari 680.000 orang telah datang untuk menonton.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-03822c6176-dd1a6f-69ad2a) Kakak laki-laki itu mengatakan bahwa beberapa penulis makalah juga menggunakan Twitter, dan diperkirakan tidak akan lama lagi mereka akan menjelaskan secara langsung.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-ae81eab0f0-dd1a6f-69ad2a) Adapun "20B" misterius ini, netizen juga memiliki pendapat berbeda.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-a431a67d4a-dd1a6f-69ad2a) Beberapa berspekulasi bahwa ini kemungkinan besar adalah kesalahan oleh penulis. Misalnya, awalnya 120B, atau 200B.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-68d7626a77-dd1a6f-69ad2a) Dikombinasikan dengan berbagai evaluasi pada kenyataannya, memang ada banyak model kecil yang dapat mencapai hasil yang sama seperti ChatGPT, seperti Mistral-7B.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-41a9ceb875-dd1a6f-69ad2a) Mungkin, ini juga merupakan konfirmasi samping bahwa GPT-3.5 benar-benar tidak besar.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-507e9e6fc9-dd1a6f-69ad2a) Banyak netizen juga berpikir bahwa parameter 20B mungkin akurat, dan mereka menghela nafas:"Tidak terbayangkan! Baik Falcon-180B maupun Llama2-70B tidak dapat mengalahkan model 20B."![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-031d17ddca-dd1a6f-69ad2a) Beberapa netizen juga percaya bahwa GPT-3.5-Turbo adalah versi halus dari GPT-3.5.Dan "kebocoran" parameter ini hanya menegaskan rumor bahwa GPT-3.5-Turbo tidak sebagus GPT-3.5 lama.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-2e40bddc14-dd1a6f-69ad2a) Namun, menurut dokumentasi resmi OpenAI, kecuali untuk text-davinci dan code-davinci, yang tidak lagi digunakan, semua anggota keluarga GPT-3.5 didasarkan pada gpt-3.5-turbo.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-60557d480b-dd1a6f-69ad2a) ![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-cf126d0a67-dd1a6f-69ad2a) ![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e05153a7a7-dd1a6f-69ad2a) ## **Microsoft Merilis CodeFusion**Makalah Microsoft, yang mengungkapkan bahwa GPT3.5 hanya memiliki parameter 20B, ingin memperkenalkan model difusi untuk pembuatan kode.Para peneliti mengevaluasi CodeFusion, sebuah model untuk tugas menghasilkan kode untuk bahasa alami untuk aturan pemformatan bersyarat (CF) Bash, Python, dan Microsoft Excel.Eksperimen telah menunjukkan bahwa CodeFusion (hanya parameter 75M) sebanding dengan LLM canggih (parameter 350M-175B) dalam hal akurasi top-1, dan memiliki kinerja dan rasio parameter yang sangat baik dalam hal akurasi top-3 dan top-5.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-28bac32ec5-dd1a6f-69ad2a) **Model Arsitektur**CODEFUSION DIGUNAKAN UNTUK TUGAS PEMBUATAN KODE, DAN PELATIHANNYA DIBAGI MENJADI DUA FASE, TAHAP PERTAMA ADALAH PRA-PELATIHAN TANPA PENGAWASAN, DAN TAHAP KEDUA ADALAH PENYESUAIAN YANG DIAWASI.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-236bb1a5ff-dd1a6f-69ad2a) PADA TAHAP PERTAMA, CODEFUSION MENGGUNAKAN CUPLIKAN KODE TANPA LABEL UNTUK MELATIH DENOISER DAN DECODER. Ini juga menggunakan lapisan penyematan yang dapat dilatih, L, untuk menyematkan cuplikan kode ke ruang yang berdekatan.PADA FASE KEDUA, CODEFUSION MELAKUKAN FINE-TUNING YANG DIAWASI, MENGGUNAKAN DATA DARI PASANGAN KODE TEKS. Pada tahap ini, encoder, denoiser, dan decoder semuanya disetel untuk melakukan tugas dengan lebih baik.SELAIN ITU, CODEFUSION MENGACU PADA PENELITIAN SEBELUMNYA TENTANG DIFUSI TEKS UNTUK MENGGABUNGKAN REPRESENTASI TERSEMBUNYI D DARI DECODER KE DALAM MODEL. Ini untuk meningkatkan kinerja model. Selama proses pelatihan, dalam langkah-langkah yang berbeda, model memperkenalkan beberapa noise dan kemudian menghitung fungsi loss untuk memastikan bahwa cuplikan kode yang dihasilkan lebih sesuai dengan standar yang diharapkan.SINGKATNYA, CODEFUSION ADALAH MODEL KECIL YANG MELAKUKAN PEKERJAAN PEMBUATAN KODE, DAN TERUS MENINGKATKAN KINERJANYA MELALUI DUA FASE PELATIHAN DAN KONSUMSI KEBISINGAN. Model ini terinspirasi oleh studi difusi teks dan meningkatkan fungsi kerugian dengan menggabungkan representasi tersembunyi dari decoder untuk menghasilkan cuplikan kode berkualitas tinggi dengan lebih baik.## **Hasil Penilaian**Tabel berikut merangkum performa model CODEFUSION dan setiap model dasar pada pengaturan top-1, top-3, dan top-5.Di top-1, kinerja CODEFUSION sebanding dengan, dan dalam beberapa kasus bahkan lebih baik, terutama dalam tugas-tugas Python, di mana hanya GPT-3 (175B) yang berkinerja sedikit lebih baik daripada CODEFUSION (75M). Namun, dalam hal top-3 dan top-5, CODEFUSION secara signifikan mengungguli semua model dasar.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-2f73f1df62-dd1a6f-69ad2a) Tabel di bawah ini menunjukkan hasil keragaman rata-rata CODEFUSION dan model autoregresif (termasuk T5, CodeT5, StarCoder, CodeGen, dan GPT-3) pada setiap tugas benchmark, dan memeriksa hasil yang dihasilkan oleh 5 generasi pertama dari setiap model.DIBANDINGKAN DENGAN MODEL AUTOREGRESIF, CODEFUSION MENGHASILKAN HASIL YANG LEBIH BERAGAM DAN BERKINERJA LEBIH BAIK.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-1289d29ab6-dd1a6f-69ad2a) Dalam percobaan ablasi, penulis menghentikan proses denoising dan menghasilkan cuplikan kode dari keadaan saat ini dalam rentang langkah waktu t∈[0, T]. Menormalkan jarak edit string digunakan untuk mengukur hasil yang diperoleh untuk setiap langkah waktu (dalam penambahan setiap 100 langkah).PENDEKATAN INI MEMBANTU MERINGKAS DAN MENDEMONSTRASIKAN KEMAJUAN LANGKAH DEMI LANGKAH MODEL CODEFUSION, SEPERTI YANG DITUNJUKKAN PADA GAMBAR DI BAWAH INI.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-59696a2139-dd1a6f-69ad2a) Setelah mengatakan semua itu, berapa sebenarnya jumlah parameter dalam GPT-3.5? Apa hubungan teknis dan lainnya antara GPT-4 dan GPT-3.5?Apakah GPT-3.5 merupakan ansambel model ahli kecil atau model generalis? Apakah disuling dengan model yang lebih besar atau dilatih pada data yang lebih besar?Jawaban atas pertanyaan-pertanyaan ini hanya akan terungkap ketika mereka benar-benar open source.Sumber daya: