Bug terbesar dalam model besar adalah tingkat jawaban benar hampir nol

Saya minta GPT-3 dan Llama mempelajari ilmu sederhana: A itu B, lalu ditanya apa itu B. Ternyata keakuratan jawaban AI adalah nol.

Apa gunanya?

Baru-baru ini, sebuah konsep baru yang disebut "Reversal Curse" telah menjadi topik hangat di kalangan AI, dan semua model bahasa utama yang sekarang populer telah terpengaruh olehnya. Menghadapi masalah yang sangat sederhana, keakuratannya tidak hanya mendekati nol, tetapi tidak ada kemungkinan untuk meningkatkan keakuratannya.

Selain itu, para peneliti menemukan bahwa bug besar ini tidak ada hubungannya dengan ukuran model atau pertanyaan yang diajukan.

Kami mengatakan bahwa AI telah berkembang ke tahap pra-pelatihan model besar, dan akhirnya tampaknya telah menguasai beberapa pemikiran logis, namun kali ini tampaknya telah dikembalikan ke bentuk aslinya.

Gambar 1: Inkonsistensi pengetahuan di GPT-4. GPT-4 dengan benar memberikan nama ibu Tom Cruise (kiri). Namun, ketika nama ibu dimasukkan untuk menanyakan putranya, ia tidak dapat mengambil "Tom Cruise" (kanan). Penelitian baru berhipotesis bahwa efek penyortiran ini disebabkan oleh pembalikan kutukan. Model yang dilatih tentang "A adalah B" tidak secara otomatis menyimpulkan "B adalah A".

Jika seseorang mengetahui fakta bahwa "Olav Scholz adalah Kanselir Jerman kesembilan", mereka dapat menjawab pertanyaan "Siapa Kanselir Jerman kesembilan" dengan benar? Ini adalah bentuk dasar generalisasi yang tampaknya biasa-biasa saja.

Namun penelitian menunjukkan bahwa model bahasa autoregresif yang saat ini populer di bidang AI tidak dapat digeneralisasikan dengan cara ini. Secara khusus, asumsikan bahwa set pelatihan model berisi kalimat seperti "Olaf Scholz adalah Kanselir Jerman yang kesembilan", dengan nama "Olaf Scholz" mendahului deskripsi "Kanselir Jerman yang kesembilan". Model besar kemudian mungkin belajar menjawab dengan benar “Siapakah Olaf Scholz?” (Jawabannya adalah: kanselir Jerman yang kesembilan). Tapi ia tidak bisa menjawab pertanyaan "Siapa kanselir Jerman yang kesembilan?" dan pertanyaan lain yang menjelaskan apa yang mendahului nama tersebut.

Ini adalah contoh efek penyortiran yang kami sebut “kutukan pembalikan”. Jika Model 1 dilatih dengan kalimat berbentuk “is” (dengan keterangan setelah namanya), maka model tidak akan secara otomatis memprediksi “is” dalam arah yang berlawanan. Khususnya, jika model bahasa besar (LLM) dikondisikan, maka probabilitas model tersebut tidak akan lebih tinggi dari garis dasar acak.

Jadi, alasan **model besar sebenarnya tidak ada? **Salah satu pandangan adalah bahwa pembalikan kutukan menunjukkan kegagalan mendasar deduksi logis dalam proses pelatihan LLM. Jika "A adalah B" (atau setara dengan "A=B") benar, maka secara logis "B adalah A" mengikuti simetri relasi identitas. Grafik pengetahuan tradisional menghormati simetri ini (Speer et al., 2017). Membalikkan Kutukan menunjukkan sedikit generalisasi di luar data pelatihan. Selain itu, ini bukanlah sesuatu yang dapat dijelaskan oleh LLM tanpa memahami kesimpulan logis. LLM seperti GPT-4 dapat menyimpulkan "B adalah A" jika diberikan "A adalah B" di jendela konteksnya.

Meskipun berguna untuk menghubungkan pembalikan kutukan dengan deduksi logis, hal ini hanyalah penyederhanaan situasi secara keseluruhan. Saat ini kami tidak dapat menguji secara langsung apakah model besar dapat menyimpulkan "B adalah A" setelah dilatih tentang "A adalah B". Model berukuran besar dilatih untuk memprediksi kata berikutnya yang akan ditulis manusia, bukan kata yang "seharusnya" diucapkan. Oleh karena itu, meskipun LLM menyimpulkan "B adalah A", LLM mungkin tidak "memberi tahu kami" saat diminta.

Namun, membalikkan kutukan tersebut menunjukkan kegagalan pembelajaran meta. Kalimat bentuk "adalah" dan "adalah" sering kali muncul bersamaan dalam kumpulan data pra-pelatihan. Jika yang pertama muncul dalam kumpulan data, maka yang terakhir lebih mungkin muncul karena manusia sering mengubah urutan elemen dalam kalimat atau paragraf. Oleh karena itu, pembelajar meta yang baik akan meningkatkan kemungkinan kejadian " is " ketika dilatih untuk " is ". Dalam hal ini, LLM autoregresif bukanlah pembelajar meta yang baik.

Pembalikan kutukan tersebut telah menarik perhatian banyak peneliti AI.Beberapa orang mengatakan bahwa tampaknya kehancuran umat manusia oleh AI hanyalah sebuah fantasi.

Yang lain mengatakan ini berarti data pelatihan dan konten kontekstual Anda memainkan peran penting dalam proses generalisasi pengetahuan.

Andrej Karpathy, ilmuwan ternama di OpenAI, mengatakan bahwa tampaknya ilmu yang dipelajari LLM jauh lebih “tersebar” dari yang Anda dan saya bayangkan. Saya masih belum memiliki intuisi yang baik tentang hal ini. Mereka mempelajari hal-hal dalam “arah” spesifik dari jendela kontekstual peristiwa tersebut yang mungkin tidak dapat digeneralisasi ketika kita bertanya ke arah lain. Ini adalah generalisasi parsial yang aneh, dan menurut saya "Membalikkan Kutukan" adalah kasus khusus.

Penelitian yang memicu kontroversi datang dari Vanderbilt University, New York University, Oxford University dan institusi lainnya. Makalah "Kutukan Pembalikan: LLM yang dilatih tentang "A adalah B" gagal mempelajari "B adalah A" ":

Tautan kertas:

Tautan GitHub:

Jika nama dan deskripsi dibalik, model besar akan bingung

Makalah ini menunjukkan bahwa LLM menderita kutukan pembalikan melalui serangkaian eksperimen penyesuaian pada data sintetis. Seperti terlihat pada Gambar 2, peneliti terlebih dahulu menyempurnakan model berdasarkan pola kalimat (misalnya Daphne Barrington adalah sutradara "Through Time") Hasilnya menunjukkan bahwa ketika bentuk prompt masih berupa pola kalimatnya adalah , modelnya Dapat memberikan jawaban yang akurat, tetapi ketika ditanya pertanyaan lain, seperti "Siapa yang mengarahkan "Perjalanan Waktu", model menjawab salah.

Faktanya, seperti yang ditunjukkan pada Gambar 4 (bagian eksperimen), probabilitas logaritmik model yang memberikan nama yang benar serupa dengan probabilitas logaritma dari pemberian nama acak. Selanjutnya, ketika urutan pengujian berubah dari is < keterangan > menjadi < keterangan > is < nama >, tingkat kesalahannya meningkat.

Untuk menghindari pembalikan kutukan tersebut, para peneliti mencoba metode berikut:

  • Coba seri berbeda dan ukuran model berbeda;
  • Kumpulan data penyempurnaan berisi pola kalimat is dan pola kalimat is ;
  • Berbagai interpretasi untuk setiap , yang membantu generalisasi;
  • Ubah data dari menjadi ?.

Setelah serangkaian percobaan, mereka memberikan bukti awal bahwa membalikkan kutukan akan mempengaruhi generalisasi dalam model yang canggih (Gambar 1 dan Bagian B). Mereka mengujinya pada GPT-4 dengan 1.000 pertanyaan seperti “Siapa ibu Tom Cruise?” dan “Siapa putra Mary Lee Pfeiffer?” Ternyata dalam banyak kasus, model menjawab pertanyaan pertama dengan benar (Siapa orang tuanya), namun tidak menjawab pertanyaan kedua. Makalah ini berhipotesis bahwa hal ini terjadi karena data pra-pelatihan berisi lebih sedikit contoh orang tua yang diberi peringkat sebelum selebriti (misalnya, putra Mary Lee Pfeiffer adalah Tom Cruise).

Eksperimen dan hasil

Tulisan ini bertujuan untuk menguji apakah model bahasa autoregresif (LLM) yang mempelajari “A adalah B” selama pelatihan dapat menggeneralisasi ke bentuk kebalikannya “B adalah A”.

Pada percobaan pertama, kita membuat dataset yang terdiri dari dokumen berbentuk is (atau sebaliknya), yang nama dan deskripsinya fiktif. Selain itu, penelitian ini menggunakan GPT-4 untuk menghasilkan pasangan nama dan deskripsi. Pasangan data ini kemudian secara acak ditetapkan ke tiga subset: NameToDeion, DeionToName, dan keduanya. Dua himpunan bagian pertama ditunjukkan pada Gambar 3.

hasil. Dalam evaluasi pencocokan tepat, ketika urutan soal tes cocok dengan data pelatihan, GPT-3-175B mencapai akurasi pencocokan tepat yang lebih baik. Hasilnya ditunjukkan pada Tabel 1.

Khususnya, untuk DeionToName (misalnya, komposer Abyssal Melodies adalah Uriah Hawthorne), model mencapai akurasi 96,7% dalam mengambil nama ketika diberikan perintah yang berisi deskripsi (misalnya, siapa pencipta Abyssal Melodies). Untuk fakta di NameToDeion, akurasinya lebih rendah yaitu 50,0%. Sebaliknya, jika urutannya tidak cocok dengan data pelatihan, model gagal menggeneralisasi sama sekali dan akurasinya mendekati 0%. **

Artikel ini juga melakukan sejumlah eksperimen, termasuk GPT-3-350M (Lampiran A.2) dan Llama-7B (Lampiran A.4), yang hasilnya menunjukkan bahwa model tersebut mengalami kutukan pembalikan.

Dalam evaluasi kemungkinan yang meningkat, tidak ada perbedaan yang dapat dideteksi antara log odds yang diberikan pada nama yang benar versus nama acak. Rata-rata log probabilitas model GPT-3 ditunjukkan pada Gambar 4. Uji-t dan uji Kolmogorov-Smirnov gagal mendeteksi perbedaan yang signifikan secara statistik.

Gambar 4: Eksperimen 1, model gagal meningkatkan kemungkinan nama yang benar ketika urutannya dibalik. Grafik ini menunjukkan probabilitas log rata-rata dari nama yang benar (relatif terhadap nama acak) ketika model dikueri dengan deskripsi yang relevan.

Selanjutnya peneliti melakukan percobaan kedua.

Dalam eksperimen ini, peneliti menguji model berdasarkan fakta tentang selebriti sebenarnya dan orang tuanya, berupa "orang tua A adalah B" dan "Anak B adalah A". Studi ini mengumpulkan daftar 1000 selebriti terpopuler dari IMDB (2023) dan menggunakan GPT-4 (OpenAI API) untuk menemukan orang tua selebriti berdasarkan nama mereka. GPT-4 mampu mengidentifikasi orang tua selebriti sebanyak 79%.

Setelah itu, untuk setiap pasangan anak-orang tua, penelitian menanyakan anak berdasarkan orang tua. Di sini, tingkat keberhasilan GPT-4 hanya 33%. Gambar 1 mengilustrasikan fenomena ini. Hal ini menunjukkan bahwa GPT-4 dapat mengidentifikasi Mary Lee Pfeiffer sebagai ibu Tom Cruise, namun tidak dapat mengidentifikasi Tom Cruise sebagai putra Mary Lee Pfeiffer.

Selain itu, penelitian ini mengevaluasi model seri Llama-1, yang belum disempurnakan. Ditemukan bahwa semua model jauh lebih baik dalam mengidentifikasi orang tua dibandingkan anak-anak, lihat Gambar 5.

Gambar 5: Efek pembalikan urutan pertanyaan orang tua dan anak di Eksperimen 2. Bilah biru (kiri) menunjukkan kemungkinan model menampilkan orang tua yang benar ketika menanyakan anak-anak selebriti; bilah merah (kanan) menunjukkan kemungkinan model benar ketika menanyakan anak-anak orang tua. Keakuratan model Llama-1 adalah kemungkinan model diselesaikan dengan benar. Akurasi GPT-3.5-turbo rata-rata 10 sampel per pasangan anak-orang tua, yang diambil sampelnya pada suhu = 1. Catatan: GPT-4 dihilangkan dari gambar karena digunakan untuk menghasilkan daftar pasangan anak-orang tua dan oleh karena itu memiliki akurasi 100% dengan membuat pasangan "induk". GPT-4 mendapat skor 28% pada "sub".

Pandangan Masa Depan

Bagaimana menjelaskan kutukan terbalik di LLM? Hal ini mungkin perlu menunggu penelitian lebih lanjut di masa depan. Untuk saat ini, peneliti hanya bisa memberikan sketsa singkat penjelasannya. Ketika model diperbarui pada "A adalah B", pembaruan gradien ini mungkin sedikit mengubah representasi A untuk menyertakan informasi tentang B (misalnya, dalam lapisan MLP perantara). Untuk pembaruan gradien ini, masuk akal juga untuk mengubah representasi B untuk menyertakan informasi tentang A. Namun pembaruan gradien bersifat jangka pendek dan bergantung pada logaritma B berdasarkan A, daripada memprediksi A di masa depan berdasarkan B.

Setelah “membalikkan kutukan”, para peneliti berencana untuk mengeksplorasi apakah model besar dapat membalikkan jenis hubungan lainnya, seperti makna logis, hubungan spasial, dan hubungan n-tempat.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Bagikan
Komentar
0/400
Tidak ada komentar
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)