Skor penuh GPT-4 melalui matematika sarjana MIT? Saya khawatir itu palsu, ada yang salah dengan kumpulan data itu sendiri

Question

Judul asli: "Makalah "GPT-4 MIT Undergraduate Math Full Score" yang eksplosif ditipu, kumpulan datanya sendiri bermasalah"

Dalam dua hari terakhir, makalah tentang GPT-4 yang lulus MIT MIT EECS dan ujian sarjana matematika dengan nilai penuh telah menjadi viral di Twitter.

Alamat kertas:

Singkatnya, tim peneliti dari MIT menyusun dataset komprehensif dari 4.550 masalah dan solusi dari pertanyaan kursus, ujian tengah semester, dan ujian akhir untuk jurusan Matematika, Teknik Elektro, dan Ilmu Komputer (EECS) di sekolah mereka.

Kemudian, tim peneliti meminta berbagai model bahasa besar untuk melengkapi topik kumpulan data ini, dan hasilnya terlalu menakutkan: GPT-3.5 dapat melakukan 1/3 dengan benar, dan GPT-4 lulus nilai hampir penuh.

Penulis makalah tersebut mengatakan bahwa peningkatan kinerja model terutama bergantung pada "set empat bagian": Pembelajaran dengan sedikit tembakan, CoT, Kritik diri, Pakar.

Seperti yang ditunjukkan pada tabel di atas, semakin banyak cara untuk menambahkan GPT-4, semakin tinggi tingkat jawaban model yang benar. GPT-4 asli bisa mendapatkan skor tingkat benar 90%, setelah beberapa operasi, bahkan mendapat skor penuh secara langsung.

Tetapi sebagian besar netizen yang berdiskusi hangat mungkin tidak menyadari bahwa skor ini sendiri dicetak dengan GPT-4...

Tiga mahasiswa yang juga dari MIT menemukan paper ini untuk pertama kalinya Sebagai kelompok yang hampir terkejar oleh GPT-4, mereka ingin segera memahami metodologi paper populer tersebut.

Setelah satu jam penelitian, mereka meragukan metode makalah tersebut.

Dua jam kemudian, mereka menyadari: ada yang salah dengan kumpulan data itu sendiri.

Meskipun penulis makalah asli mengklaim telah meninjau kualitas dataset yang dirilis secara manual, ketiganya menemukan tanda-tanda yang jelas bahwa sebagian besar dari dataset uji terkontaminasi.

Dengan kata lain, modelnya seperti siswa yang diberitahu jawabannya sebelum ujian, yang terang-terangan “curang”.

Setelah ditanyai, mereka segera berangkat untuk menyelesaikan proses GPT-4 sampel nol pada kumpulan data, dan secara manual mencetak 30% data teratas. Hasilnya jauh dari makalah aslinya. Harus dikatakan bahwa ini adalah a surga dan bawah tanah.

“Sebagai mahasiswa MIT, setidaknya dalam pengalaman kami, rangkaian tes ini tidak secara akurat mewakili luas dan dalamnya pemahaman yang diperlukan untuk mendapatkan gelar EECS di MIT,” tulis ketiganya dalam posting blog.

*Kemajuan terbaru: Tingkat akurasi GPT-4 sampel nol dapat mencapai 62,5%, tetapi masih jauh dari 90% yang diklaim di koran. *

Ketiganya juga mempertanyakan gelombang "publisitas berlebihan": "Makalah ini sering diunggah ke Arxiv dan dibagikan secara luas di Twitter sebelum tinjauan sejawat yang sah. Masa depan pekerjaan menjadi preseden buruk."

Pejuang "Deep learning" Gary Marcus juga secara mengejutkan mendukung gelombang keraguan ini:

Pada saat yang sama, ketiganya juga menunjukkan di blog mereka bahwa beberapa penulis yang terdaftar di makalah "Menjelajahi Matematika MIT dan Kurikulum EECS Menggunakan Model Bahasa Besar" adalah peneliti sarjana, membuat orang-orang ini bertanggung jawab atas kesalahan apa pun dalam pekerjaan mereka. tidak pantas. Sebaliknya, tanggung jawab harus ada pada penulis pembimbing—merekalah yang diharapkan memastikan bahwa karya mereka sesuai dengan standar keilmuan publik di bidangnya.

Selanjutnya, mari kita lihat masalah dengan kertas "meledak" ini.

Apa yang salah dengan kumpulan data?

Pertama, seperti yang diketahui dari makalah aslinya, kumpulan data yang dikumpulkan oleh para peneliti berisi 4550 masalah dan solusi yang sesuai untuk 30 mata pelajaran matematika dan EECS yang diperlukan untuk mendapatkan ujian gelar MIT, yang mencakup mata kuliah inti dan mata kuliah pilihan.

"Satu set tes dari 288 pertanyaan dipilih secara acak di antara pertanyaan tanpa gambar dan dengan solusi," tulis makalah itu.

Kumpulan data ini (tidak termasuk kumpulan pelatihan yang digunakan untuk menyempurnakan LLM sumber terbuka) juga dirilis ke GitHub dengan publikasi makalah, bersama dengan kode yang digunakan untuk menghasilkan uji kinerja yang dilaporkan. Namun, penulisnya, Prof Drori, telah menghapusnya dalam pengajuan baru-baru ini.

Setelah memeriksa dan membandingkan, ketiganya yakin bahwa file yang dihapus ini mewakili set pengujian yang dianalisis di makalah, karena jalur file dari semua data dalam kode evaluasi menunjuk ke sana, tidak ada kode untuk mengubah kontennya disediakan, dan awalnya Rilis tersedia di repositori GitHub. Selain itu, file tersebut memenuhi semua persyaratan skema (jumlah baris, dll.) yang ditentukan di kertas. Bukti tampaknya sangat mendukung semua klaim berikut,

"Namun, kami mengakui bahwa ada kemungkinan bahwa file ini diganti dengan file lain yang digunakan untuk pengujian. Jika demikian, kami percaya bahwa beban pembuktian ada pada penulis untuk merilis data ini secara publik dan semua analisis dilakukan dengannya. ."

Jadi, apa masalah yang sedang ditutup-tutupi? Ketiganya memberikan analisisnya masing-masing.

Masalah yang tidak dapat dipecahkan (sekitar 4% dari set pengujian)

Mengingat makalah asli mengatakan bahwa segala bentuk GPT-4 akan menghasilkan skor sempurna pada set tes, ketiganya berangkat untuk memeriksa poin data individu. Mereka segera menemukan bahwa skor sempurna tidak mungkin, karena setidaknya ada 10 pertanyaan dalam kumpulan data yang tidak dapat diselesaikan dengan informasi yang diberikan, dan beberapa pertanyaan lainnya tidak valid dalam kasus ini.

"Pertanyaan bermasalah" seperti itu menyumbang setidaknya 4% dari set tes.

Dalam dokumen excel yang diperluas, ketiganya memberi anotasi contoh kumpulan data yang dianggap bermasalah. "Merah" mewakili masalah yang tidak dapat diselesaikan dengan informasi yang diberikan, dan "kuning" mewakili bagian dari masalah yang tidak masuk akal.

Alamat halaman:

Pertanyaan rangkap (sekitar 5% dari set tes)

Dengan menggunakan deteksi kesamaan tekstual, ketiganya menemukan bahwa 14 pertanyaan (7 pasang) adalah duplikat dalam set tes 288 pertanyaan, dan dalam kasus ini satu-satunya perbedaan antara string pertanyaan adalah kebisingan tingkat karakter minimal, atau bahkan sama lengkapnya.

Mengingat masalah yang tak terpecahkan ini, sungguh luar biasa bahwa GPT-4 dapat mencapai akurasi 100% dengan cara apa pun. Entah ada jawaban yang bocor ke tengah pada tahap tertentu, atau pertanyaannya tidak dinilai dengan benar.

Temuan awal ini mendorong mereka untuk menyelidiki lebih lanjut dimulai dengan beberapa contoh tembakan (jika model gagal pada akurasi nol tembakan), akhirnya menemukan bahwa ada kebocoran informasi pemecahan masalah dan masalah dengan metode yang digunakan untuk menentukan peringkat model. keluaran. Detailnya adalah sebagai berikut:

Pengungkapan informasi dalam beberapa contoh contoh

Perlu dicatat bahwa makalah asli juga menyebutkan soal "beberapa contoh contoh".

Singkatnya, makalah ini melakukan pencarian kesamaan cosinus pada masalah serupa dalam set data tertanam OpenAI, dan menggabungkan masalah dan solusi ini ke dalam model sebagai konteks tambahan untuk membantu model memecahkan masalah.

Pendekatan ini dengan sendirinya baik-baik saja, selama contohnya cukup berbeda dari masalah yang dipermasalahkan, dan menghindari pengungkapan informasi yang tidak adil.

Hanya dengan memindai secara acak kumpulan data uji yang dipublikasikan, ketiganya melihat sesuatu yang aneh: Banyak dari "beberapa contoh tembakan" yang disajikan kepada model hampir kata demi kata untuk pertanyaan itu sendiri.

Untuk memahami ini lebih lanjut, mereka menulis skrip sederhana yang melihat tumpang tindih antara pernyataan masalah dan masalah yang terdaftar untuk beberapa contoh yang disediakan dan diplot histogram:

Banyak yang memberikan sedikit sampel yang hampir identik dengan pertanyaan itu sendiri, artinya model mendapat jawaban atas pertanyaan atau pertanyaan yang sangat mirip dengan pertanyaan. Biasanya, ini berasal dari pengulangan sejumlah besar pertanyaan multi-sesi yang berbagi latar belakang.

Mereka berpendapat bahwa untuk mengevaluasi kemampuan pemecahan masalah GPT dengan benar, bagian lain dari masalah multi-tahap harus benar-benar dikecualikan dari beberapa contoh masalah. Faktanya, mereka menemukan bahwa solusi untuk masalah multi-bagian ini sering kali secara langsung merujuk atau memberikan jawaban ke bagian lain dari masalah yang diminta untuk dipecahkan oleh model tersebut.

Tidak hanya itu, tetapi dalam menambang data, mereka menemukan contoh di mana seluruh pertanyaan diulang. Misalnya:

Dalam kedua kasus, jawabannya persis sama. Sulit untuk mengatakan itu bukan kebocoran informasi.

Penskoran otomatis GPT-4, ada masalah

Selain itu, ketiganya juga menemukan masalah dalam mekanisme penilaian open source dari makalah aslinya:

def repeat_grading(input_path, output_path, num_experts = 3, num_fs = 3, most_recent_q = 0):

df = pd.read_csv(input_path)

df = df.iloc[most_recent_q:]

untuk indeks, baris di df.iterrows():

print('Menyelesaikan soal', indeks)

question_output = baris.nilai.tolist()

nama_kursus = baris['Nama Kursus']

pertanyaan = baris['Pertanyaan']

solusi = baris['Solusi']

fs_qs = [[baris['Pertanyaan sedikit tembakan 1'], baris['Solusi sedikit tembakan 1']], [baris['Pertanyaan sedikit tembakan 2'], baris['Solusi sedikit tembakan 2']], [baris[ 'Pertanyaan beberapa tembakan 3'], baris['Solusi beberapa tembakan 3']]]

pakar = get_ahli(nama_kursus, pertanyaan, num_ahli).split(', ')

s = [pakar lambda: zero_shot_response(pertanyaan, pakar),

pakar lambda: few_shot_response(ahli, pertanyaan, fs_qs),

pakar lambda: few_shot_response(ahli, pertanyaan, fs_qs, Benar)

]

kritik = [["Tinjau kembali jawaban Anda sebelumnya dan temukan masalah dengan jawaban Anda.", "Berdasarkan masalah yang Anda temukan, perbaiki jawaban Anda."], ["Harap berikan umpan balik untuk jawaban yang salah berikut ini.","Berikan umpan balik ini , jawab lagi."]]

untuk ahli dalam ahli:

print("Menggunakan pakar", pakar)

question_output.append(pakar)

kritik = Benar

untuk dalam s:

_response = (pakar) # memanggil ChatCompletion.create baru

_grade = grade(course_name, question, solution, _response) # GPT-4 auto-grading membandingkan jawaban dengan solusi

question_output+=[_response, _grade]

jika benar(_grade):

kritik = Salah

merusak

jika kritik:

untuk kritik dalam kritik:

crit_response = self_critique_response(expert, course_name, question, question_output[-2], critique) # panggilan baru ChatCompletion.create

crit_grade = grade(course_name, question, solution, crit_response) # GPT-4 auto-grading membandingkan jawaban dengan solusi

question_output+=[crit_response,crit_grade]

jika benar (crit_grade):

merusak

repeat_grading('MIT_test_set.csv', 'MIT_test_set_graded.csv')

Dalam kode terlihat bahwa ada masalah serius dalam proses penilaian: makalah dievaluasi dan diperiksa dengan GPT-4, termasuk a) pertanyaan awal, b) solusi, dan c) jawaban GPT sendiri, seperti parameter dalam penilaian.

Di bidang yang lebih teknis, GPT lebih cenderung memiliki kesalahpahaman implisit, dan penilaian otomatis ini lebih cenderung memiliki hasil "menipu diri sendiri".

Juga, sementara penggabungan adalah teknik umum di banyak makalah GPT baru-baru ini, ada banyak potensi kebocoran data di sini. Setiap level tidak hanya memberikan informasi biner berdasarkan kebenaran dasar, tetapi berlanjut hingga jawaban yang benar tercapai.

Meskipun ini dibuat tidak melihat jawaban yang sebenarnya, itu cukup untuk memutar ulang formulir sampai jawaban yang benar tercapai, terutama dalam kasus pertanyaan pilihan ganda, yang merupakan 16% dari set tes, di mana jumlah percobaan yang tak terbatas (hampir) menjamin bahwa jawaban yang benar pasti Akan muncul.

Ini seperti seseorang memegang lembar jawaban dan memberi tahu siswa yang sedang ujian apakah jawabannya benar atau tidak, dan terus mengingatkan siswa sampai mereka mendapatkan jawaban yang benar.

Ringkas

Di akhir blog, ketiganya menulis:

Makalah ini berbicara tentang tren yang lebih besar dalam penelitian terbaru di bidang kecerdasan buatan. Saat bidang berkembang semakin cepat, irama waktu penemuan baru tampaknya semakin pendek, yang sering kali disertai dengan jalan pintas. Tren yang sangat mengkhawatirkan adalah penggunaan model berbasis bahasa seperti GPT-4 untuk menilai akurasi model.

Sebagai alat yang berguna, kesimpulannya tidak boleh dibesar-besarkan, juga tidak boleh dianggap sebagai kebenaran dasar. Pekerjaan terbaru menunjukkan bahwa tanpa informasi kebenaran dasar yang akurat, evaluator GPT-4 tidak dapat digunakan dengan andal untuk verifikasi. Minimal, subkumpulan acak dari kumpulan data harus dipilih untuk membandingkan kinerja GPT-4 dengan evaluasi manusia. Model bahasa belum bisa dianggap sebagai oracle untuk menghasilkan kebenaran dasar.

Selain itu, sangat penting untuk mengevaluasi ulang setiap titik data dan melakukan pemeriksaan dasar sebelum menggunakan data, baik untuk pelatihan, inferensi, pembandingan, atau lainnya. Mengingat kecilnya ukuran dataset yang dipermasalahkan, verifikasi manual sederhana mudah dilakukan dalam lingkup pekerjaan.

Kritik kami terutama diarahkan pada metodologi dan ketelitian penelitian ini, bukan isinya. Kami tidak memiliki pendapat tentang kemampuan model bahasa besar untuk benar-benar menyelesaikan kurikulum MIT, kecuali bahwa makalah tersebut gagal menunjukkannya dengan cara yang ketat secara ilmiah.

Tautan Referensi:

Lihat Asli