Memikirkan lebih lanjut tentang langkah-langkah sebelum ChatGPT memberikan jawaban dapat meningkatkan akurasi.
Jadi, bisakah Anda melewati prompt dan langsung menginternalisasi kemampuan ini dalam model besar?
Studi baru oleh CMU dan tim Google menambahkan token jeda saat melatih model besar untuk mencapai hal ini.
Dalam percobaan, skor 8 evaluasi meningkat, di antaranya skor EM SQuAD meningkat sebesar 18%, CommonSenseQA meningkat sebesar 8%, dan tugas inferensi di GSM8k juga meningkat sebesar 1%.
Peneliti Jack Hack mengatakan dia telah datang dengan hipotesis serupa belum lama ini dan senang melihatnya diuji.
Insinyur Nvidia Aaron Erickson mengatakan bahwa apakah benar menambahkan "uh-huh-ah" ketika berbicara dengan manusia?
Penyetelan halus pra-pelatihan ditambahkan ke token jeda
Seluruh penelitian didasarkan pada ide sederhana:
Tambahkan seri (token jeda) ke urutan input, menunda model mengeluarkan token berikutnya.
Ini dapat memberi model waktu komputasi tambahan untuk memproses input yang lebih kompleks.
Para penulis tidak hanya memperkenalkannya ketika tugas hilir disetel dengan baik, tetapi juga secara acak memasukkannya ke dalam urutan selama pra-pelatihan, memungkinkan model untuk mempelajari bagaimana memanfaatkan penundaan komputasi ini di kedua tahap.
Pada tahap pra-pelatihan, persentase tertentu dari token jeda dimasukkan secara acak ke dalam korpus ke dalam urutan input untuk pra-pelatihan autoregresif standar. Namun, prediksi token yang ditangguhkan dilewati saat menghitung kerugian.
Ketika tugas hilir disetel dengan baik, sejumlah token jeda ditambahkan ke input, dan kemudian prediksi autoregresif dibuat pada urutan target, sambil menyempurnakan parameter model.
Fase inferensi juga menambahkan jumlah token jeda yang sama, tetapi mengabaikan output model hingga token jeda terakhir, lalu mulai mengekstrak jawabannya.
Percobaan menggunakan model Transformer murni Decoder standar, yang dibagi menjadi dua versi: parameter 130M dan parameter 1B.
Token jeda hanya menambahkan 1024 parameter, yang merupakan ukuran penyematannya sendiri.
Eksperimen pada 9 tugas berbeda menunjukkan bahwa efek memperkenalkan token jeda hanya selama fase penyetelan tidak jelas, dan beberapa tugas tidak membaik.
Tetapi jika Anda menggunakan token jeda di fase pra-pelatihan dan penyempurnaan, Anda mendapatkan peningkatan yang signifikan pada sebagian besar tugas.
Makalah ini juga mengeksplorasi hyperparameter utama seperti jumlah dan lokasi token yang ditangguhkan. Ditemukan bahwa biasanya ada jumlah optimal untuk model yang berbeda.
Akhirnya, penulis juga menunjukkan bahwa karya ini juga memiliki sejumlah keterbatasan.
Karena token penangguhan meningkatkan jumlah perhitungan model, apakah adil untuk membandingkan dengan metode lain masih harus dibahas
Metode baru perlu dilatih ulang, dan masih sulit untuk menerapkannya dalam praktik
Masih kurangnya pemahaman mendalam tentang mekanisme kerja tertentu
Jika jumlah token jeda adalah 0 selama inferensi, model masih berkinerja buruk
CEO mesin pencari You.com mengatakan bahwa langkah selanjutnya adalah mencoba semua teknik untuk meningkatkan kinerja kognitif manusia pada model besar?
Sekarang ada "berpikir selangkah demi selangkah" dan "tarik napas dalam-dalam".
Mungkin makalah blockbuster berikutnya adalah mengajarkan model-model besar untuk tidur dengan masalah, atau makan dan olahraga yang lebih sehat.
Alamat kertas:
Link Referensi:
[1]
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Latih ulang model besar dengan token jeda, dan AI belajar berpikir dua kali
Sumber: Qubits
Memikirkan lebih lanjut tentang langkah-langkah sebelum ChatGPT memberikan jawaban dapat meningkatkan akurasi.
Jadi, bisakah Anda melewati prompt dan langsung menginternalisasi kemampuan ini dalam model besar?
Studi baru oleh CMU dan tim Google menambahkan token jeda saat melatih model besar untuk mencapai hal ini.
Penyetelan halus pra-pelatihan ditambahkan ke token jeda
Seluruh penelitian didasarkan pada ide sederhana:
Tambahkan seri (token jeda) ke urutan input, menunda model mengeluarkan token berikutnya.
Ini dapat memberi model waktu komputasi tambahan untuk memproses input yang lebih kompleks.
Ketika tugas hilir disetel dengan baik, sejumlah token jeda ditambahkan ke input, dan kemudian prediksi autoregresif dibuat pada urutan target, sambil menyempurnakan parameter model.
Fase inferensi juga menambahkan jumlah token jeda yang sama, tetapi mengabaikan output model hingga token jeda terakhir, lalu mulai mengekstrak jawabannya.
Percobaan menggunakan model Transformer murni Decoder standar, yang dibagi menjadi dua versi: parameter 130M dan parameter 1B.
Token jeda hanya menambahkan 1024 parameter, yang merupakan ukuran penyematannya sendiri.
Eksperimen pada 9 tugas berbeda menunjukkan bahwa efek memperkenalkan token jeda hanya selama fase penyetelan tidak jelas, dan beberapa tugas tidak membaik.
Tetapi jika Anda menggunakan token jeda di fase pra-pelatihan dan penyempurnaan, Anda mendapatkan peningkatan yang signifikan pada sebagian besar tugas.
Makalah ini juga mengeksplorasi hyperparameter utama seperti jumlah dan lokasi token yang ditangguhkan. Ditemukan bahwa biasanya ada jumlah optimal untuk model yang berbeda.
Akhirnya, penulis juga menunjukkan bahwa karya ini juga memiliki sejumlah keterbatasan.
CEO mesin pencari You.com mengatakan bahwa langkah selanjutnya adalah mencoba semua teknik untuk meningkatkan kinerja kognitif manusia pada model besar?
Mungkin makalah blockbuster berikutnya adalah mengajarkan model-model besar untuk tidur dengan masalah, atau makan dan olahraga yang lebih sehat.
Alamat kertas:
Link Referensi:
[1]