Dalam satu tahun terakhir, model bahasa besar (LLM) yang diwakili oleh ChatGPT dan GPT-4 telah berkembang pesat, diikuti oleh model open source LLaMa dan Llama 2 dari Meta, yang juga menimbulkan kehebohan di dunia AI. . Namun yang terjadi selanjutnya adalah kontroversi terus-menerus.Beberapa orang percaya bahwa LLM memiliki beberapa risiko yang tidak dapat dikendalikan, menimbulkan beberapa potensi ancaman terhadap kelangsungan hidup manusia.
Untuk menghadapi tantangan tersebut, penelitian tentang keselarasan LLM menjadi semakin penting.Beberapa peneliti telah mengusulkan mengikuti instruksi (instruction following), tetapi metode ini membutuhkan banyak anotasi manual. Namun, membuat anotasi set data yang mengikuti instruksi berkualitas tinggi seperti itu mahal.
Dalam makalah ini, peneliti dari Meta AI mengusulkan metode yang dapat diskalakan yang disebut terjemahan-balik instruksi, yang membangun model bahasa yang mengikuti instruksi berkualitas tinggi dengan memberi anotasi pada instruksi yang sesuai secara otomatis.
Alamat kertas:
Secara khusus, penelitian ini dimulai dengan model bahasa sebagai model benih, yang disesuaikan dengan sejumlah kecil data benih serta korpora web. Peran seed model adalah untuk membuat sampel pelatihan, lalu beberapa sampel berkualitas tinggi dari sampel ini akan disaring, lalu data ini digunakan untuk menyempurnakan model yang lebih canggih.
Setelah dua putaran iteratif dataset fine-tuning LLaMa, model Humpback yang dihasilkan mengungguli model non-distilasi lain yang sudah ada seperti LIMA, Claude, Guanaco, dll. di papan peringkat Alpaca.
Bungkuk awalnya berarti paus bungkuk, juga dikenal sebagai paus bungkuk Meta menamakan model Bungkuk, jadi tidak ada arti yang dalam.
Alasan mengapa ini disebut terjemahan kembali instruksi, kata para peneliti, adalah karena ia mengacu pada metode terjemahan balik klasik dalam terjemahan mesin, di mana kalimat target yang ditulis oleh manusia secara otomatis dianotasi dengan kalimat sumber dalam bahasa lain yang dihasilkan oleh model. .
Pemenang Penghargaan Turing, Yann LeCun, memberikan tinjauan tingkat tinggi tentang metodologi penelitian dan memuji karya Meta sebagai kontribusi penting untuk penelitian penyelarasan:
Beberapa netizen membuat ringkasan yang bagus dari penelitian ini: kualitas data sangat penting untuk model besar. Selama proses penelitian, mereka menggunakan berbagai tingkat data yang difilter untuk menyempurnakan model. Hasil menunjukkan bahwa hanya sampel terbaik untuk mendapatkan model yang berkinerja lebih baik daripada sampel lainnya.
Makalah ini mengusulkan paradigma augmentasi data baru yang perlu diselesaikan dalam dua langkah. Pertama, perlu memiliki pasangan seed (instruksi, output) dan korpus untuk menghasilkan data instruksi yang lebih baik.
Gambar di bawah ini membandingkan Humpback dengan beberapa model open source dan berpemilik.
Tabel 4 di bawah ini menunjukkan bahwa metode kami berperforma terbaik di antara model non-suling pada skala model 65B dan 33B.
Mari kita lihat metode spesifik di bawah ini.
Pengenalan Metode
Studi ini mengusulkan pendekatan pelatihan mandiri yang umumnya mengasumsikan akses ke model bahasa dasar, sejumlah kecil data benih, dan kumpulan sampel yang tidak berlabel (seperti korpus web). Data yang tidak berlabel seringkali merupakan kumpulan besar dokumen dengan berbagai bentuk, ditulis oleh manusia, termasuk konten tentang berbagai topik kepentingan manusia, tetapi yang terpenting, belum dipasangkan dengan instruksi.
Ada dua asumsi utama di sini.Asumsi pertama adalah bahwa ada beberapa subset dari kumpulan teks yang sangat besar ini (kumpulan sampel tanpa label) yang cocok sebagai contoh yang dihasilkan untuk beberapa instruksi pengguna. Hipotesis kedua adalah instruksi dari kandidat jawaban ini dapat diprediksi, yang dapat digunakan untuk membentuk pasangan sampel berkualitas tinggi untuk melatih model yang mengikuti instruksi.
Seperti yang ditunjukkan pada Gambar 1 di bawah ini, penelitian ini mengusulkan bahwa proses penerjemahan balik instruksi mencakup dua langkah inti:
Self-augmentation: Hasilkan instruksi untuk data yang tidak berlabel (yaitu korpus web) untuk menghasilkan pasangan data pelatihan (instruksi-output) untuk penyetelan instruksi.
Manajemen mandiri: Secara mandiri memilih data sampel berkualitas tinggi sebagai data pelatihan untuk menyempurnakan model dasar untuk mengikuti instruksi. Metode ini dilakukan secara iteratif.
Diantaranya, langkah-langkah pengelolaan diri yang ditempuh ditunjukkan pada Tabel 1 di bawah ini:
Eksperimen dan Hasil
Kumpulan data dalam makalah ini terutama mencakup data benih dan data yang ditingkatkan.Informasi spesifik ditunjukkan pada Tabel 2 dan Gambar 2:
Gambar 3 menunjukkan bahwa augmented data tanpa self-curation yang digunakan untuk melatih model tidak meningkatkan kinerja mengikuti instruksi meskipun ukuran data meningkat.
Gambar di bawah ini membandingkan efisiensi data dari kumpulan data penyetelan instruksi yang berbeda.
Ekspansi bersama data dan model: Studi ini menemukan bahwa tren ekspansi data yang diamati dalam model 7B juga berlaku untuk model yang lebih besar. Misalnya, menambahkan data augmentasi berkualitas tinggi ke model seed 65B akan membawa peningkatan lebih lanjut.
Penalaran akal sehat: Studi ini diuji pada lima tolok ukur penalaran akal sehat, SIQA, PIQA, Arc-Easy, Arc-Challenge dan Openbook QA (OBQA), dan hasilnya dirangkum dalam Tabel 5. Hasilnya menunjukkan bahwa dibandingkan dengan model dasar, kinerja model kami telah meningkat dalam beberapa aspek seperti penalaran sosial.
MMLU: Tabel 6 merangkum hasil dari model yang berbeda dalam MMLU (pemahaman bahasa multitask masif). Model fine-tuned kami meningkatkan akurasi zero-shot dibandingkan dengan model dasar, tetapi berkinerja buruk pada contoh konteks 5 sampel.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Alpacas berevolusi menjadi paus, Meta "mengotomatiskan" penyelarasan, dan Bungkuk mengalahkan semua model LLaMa yang ada
Editor: Xiaozhou, Chen Ping
**Sumber:**Jantung Mesin
Dalam satu tahun terakhir, model bahasa besar (LLM) yang diwakili oleh ChatGPT dan GPT-4 telah berkembang pesat, diikuti oleh model open source LLaMa dan Llama 2 dari Meta, yang juga menimbulkan kehebohan di dunia AI. . Namun yang terjadi selanjutnya adalah kontroversi terus-menerus.Beberapa orang percaya bahwa LLM memiliki beberapa risiko yang tidak dapat dikendalikan, menimbulkan beberapa potensi ancaman terhadap kelangsungan hidup manusia.
Untuk menghadapi tantangan tersebut, penelitian tentang keselarasan LLM menjadi semakin penting.Beberapa peneliti telah mengusulkan mengikuti instruksi (instruction following), tetapi metode ini membutuhkan banyak anotasi manual. Namun, membuat anotasi set data yang mengikuti instruksi berkualitas tinggi seperti itu mahal.
Dalam makalah ini, peneliti dari Meta AI mengusulkan metode yang dapat diskalakan yang disebut terjemahan-balik instruksi, yang membangun model bahasa yang mengikuti instruksi berkualitas tinggi dengan memberi anotasi pada instruksi yang sesuai secara otomatis.
Secara khusus, penelitian ini dimulai dengan model bahasa sebagai model benih, yang disesuaikan dengan sejumlah kecil data benih serta korpora web. Peran seed model adalah untuk membuat sampel pelatihan, lalu beberapa sampel berkualitas tinggi dari sampel ini akan disaring, lalu data ini digunakan untuk menyempurnakan model yang lebih canggih.
Setelah dua putaran iteratif dataset fine-tuning LLaMa, model Humpback yang dihasilkan mengungguli model non-distilasi lain yang sudah ada seperti LIMA, Claude, Guanaco, dll. di papan peringkat Alpaca.
Bungkuk awalnya berarti paus bungkuk, juga dikenal sebagai paus bungkuk Meta menamakan model Bungkuk, jadi tidak ada arti yang dalam.
Pemenang Penghargaan Turing, Yann LeCun, memberikan tinjauan tingkat tinggi tentang metodologi penelitian dan memuji karya Meta sebagai kontribusi penting untuk penelitian penyelarasan:
Makalah ini mengusulkan paradigma augmentasi data baru yang perlu diselesaikan dalam dua langkah. Pertama, perlu memiliki pasangan seed (instruksi, output) dan korpus untuk menghasilkan data instruksi yang lebih baik.
Pengenalan Metode
Studi ini mengusulkan pendekatan pelatihan mandiri yang umumnya mengasumsikan akses ke model bahasa dasar, sejumlah kecil data benih, dan kumpulan sampel yang tidak berlabel (seperti korpus web). Data yang tidak berlabel seringkali merupakan kumpulan besar dokumen dengan berbagai bentuk, ditulis oleh manusia, termasuk konten tentang berbagai topik kepentingan manusia, tetapi yang terpenting, belum dipasangkan dengan instruksi.
Ada dua asumsi utama di sini.Asumsi pertama adalah bahwa ada beberapa subset dari kumpulan teks yang sangat besar ini (kumpulan sampel tanpa label) yang cocok sebagai contoh yang dihasilkan untuk beberapa instruksi pengguna. Hipotesis kedua adalah instruksi dari kandidat jawaban ini dapat diprediksi, yang dapat digunakan untuk membentuk pasangan sampel berkualitas tinggi untuk melatih model yang mengikuti instruksi.
Seperti yang ditunjukkan pada Gambar 1 di bawah ini, penelitian ini mengusulkan bahwa proses penerjemahan balik instruksi mencakup dua langkah inti:
Eksperimen dan Hasil
Kumpulan data dalam makalah ini terutama mencakup data benih dan data yang ditingkatkan.Informasi spesifik ditunjukkan pada Tabel 2 dan Gambar 2: