Alasan GPT-4 terlalu keterlaluan! Nilai total matematika, fisika, dan kimia di universitas kurang dari setengah, dan semua 21 jenis pertanyaan penalaran terbalik Marcus: AGI terlalu jauh
Panduan: GPT-4 yang paling kuat di permukaan membuat kesalahan dalam penalaran pertanyaan satu demi satu! Penelitian terbaru oleh alumni MIT dan UCLA China menarik banyak netizen untuk menonton.
GPT-4 tidak bisa bernalar sama sekali!
Baru-baru ini, dua penelitian telah melaporkan bahwa GPT-4 berkinerja buruk dalam penalaran.
Konstantine Arkoudas, alumnus MIT, mengevaluasi GPT-4 pada 21 tipe inference set yang berbeda.
Kemudian, dilakukan analisis kualitatif yang mendetail tentang kinerja GPT-4 pada masalah ini.
Studi telah menemukan bahwa GPT-4 terkadang menunjukkan bakat "otak terkuat", namun saat ini, GPT-4 tidak memiliki kemampuan penalaran sama sekali.
Alamat kertas:
Begitu penelitian keluar, banyak netizen berkumpul untuk menonton.
Marcus berkata, "Jika ini benar - seperti yang saya katakan sebelumnya - kita masih jauh dari AGI. Kita mungkin perlu melakukan banyak kalibrasi ulang: tidak ada AGI tanpa penalaran".
Studi lain dari UCLA dan University of Washington juga menemukan bahwa GPT-4 dan GPT-3.5 berkinerja buruk dalam penalaran tugas matematika, fisika, dan kimia di universitas.
Alamat kertas:
Para peneliti memperkenalkan SCIBENCH, sebuah yayasan pemecahan masalah ilmiah universitas, yang berisi 2 set data: set data terbuka dan set data tertutup.
Melalui penelitian mendalam terhadap GPT-4 dan GPT-3.5 dengan menggunakan strategi prompting yang berbeda, diperoleh hasil rata-rata skor total GPT-4 hanya sebesar 35,8%.
Penelitian ini juga sekali lagi menarik perhatian Marcus:
Sebuah survei penalaran sistematis dalam matematika, kimia, dan fisika, menunjukkan bahwa LLM saat ini gagal memberikan kinerja yang memuaskan...tidak ada strategi petunjuk yang secara signifikan lebih baik daripada yang lain.
Mari kita lihat lebih dekat bagaimana GPT-4 gagal total dalam 21 set soal, matematika, fisika, dan kimia.
21 set masalah, rollover penuh GPT-4
Namun, sebelum melihat GPT-4 untuk menjawab pertanyaan tersebut, penulis memberikan catatan:
GPT-4 adalah sistem non-deterministik dan dapat menghasilkan jawaban yang berbeda dalam proses yang berbeda bahkan dengan pengaturan parameter yang sama.
Sementara tes pertukaran berikut adalah kata demi kata, dalam pengalaman penulis, hal-hal yang dibahas dalam makalah di mana kesalahan GPT-4 cenderung kuat.
1 aritmatika sederhana
Mampu melakukan operasi dasar adalah kondisi yang diperlukan untuk penalaran.
Namun, GPT-4 masih belum dapat diandalkan untuk melakukan operasi aritmatika dasar seperti penjumlahan dan perkalian.
Misalnya, biarkan GPT-4 secara acak memilih dua angka antara 1381 dan 1453 untuk mengalikan dan memberikan hasilnya.
GPT-4 memilih 1405 dan 1421, tetapi hasil akhirnya jelas salah. Karena 1405×1421=1996505.
2 hitungan sederhana
Meskipun penghitungan khusus belum tentu merupakan aktivitas penalaran, ini tentu saja merupakan prasyarat untuk sistem penalaran apa pun dengan kemampuan umum.
Di sini, GPT-4 diberi variabel proposisional dan diawali dengan 27 simbol negasi, memintanya untuk menghitung jumlah simbol negasi.
Bagi kami itu sangat mudah, terutama karena negasi ditulis terpisah 5, dan ada 5 grup, dengan pasangan negasi terakhir segera menyusul.
Namun, GPT-4 memberikan jawaban "28".
3 Akal Sehat (Medis)
Untuk saat ini, kita dapat menganggap argumen akal sehat sebagai kesimpulan sederhana yang diambil dari informasi yang diberikan ditambah kondisi yang tidak dinyatakan (default, pengetahuan latar belakang yang diterima secara umum).
Dalam kasus khusus ini, pengetahuan akal sehat adalah proposisi seperti "Manusia hidup sampai dia mati, dan dia tidak pernah hidup setelah mati."
Misalnya, saat Anda menanyakan GPT-4: detak jantung Mable adalah 75 bpm pada jam 9 pagi dan tekanan darah 120/80 pada jam 7 malam. Dia meninggal pada jam 11 malam. Apakah dia hidup di siang hari?
GPT-4 sebenarnya menjawab: Menurut informasi yang diberikan, tidak mungkin untuk menentukan apakah Mable masih hidup pada siang hari.
Tapi jelas berdasarkan informasi yang diberikan, inferensi akal sehat (tanpa berpikir) langsung mengarah ke kesimpulan.
4 Logika Dasar
Jika P(x) memuat Q(x), dan Q(a) tidak berlaku, maka kita dapat menyimpulkan dari model bahwa P(a) tidak berlaku (karena jika P(a) berlaku, maka Q(a) akan tahan) .
Ini adalah tautologi dasar, tetapi GPT-4 mengusulkan anti-model sepenuhnya:
值得注意的是,GPT-4认识到,P(x)实际上并不包含Q(x) , dan mengusulkan bahwa x mungkin bilangan genap negatif, "tidak mengesampingkan keberadaan model dengan kondisi lain yang diberikan".
Faktanya, model tandingan harus memenuhi semua kondisi yang diberikan dan sekaligus memalsukan kesimpulan.
Selanjutnya, hanya beberapa kalimat kemudian, GPT-4 mengklaim bahwa P(x) menyiratkan Q(x) di bawah interpretasi yang diberikan, bertentangan dengan pernyataannya sendiri sebelumnya.
Perhatikan bahwa GPT-4 juga memiliki inkonsistensi internal.
5 Semantik Penjumlahan Sederhana
Perhatikan tiga kalimat berikut:
[untuk semua x . P(x) ==> P(x)]
[ada x . P(x)]
[ada x . ∼ P(x)]
Harap salahkan atau buktikan klaim berikut: Ketiga kalimat ini secara bersama-sama memuaskan.
显然,这三个句子都是共同可满足的,一个简单的模型是具有P(a1)、Q(a1)、¬P(a2) dan domain {a1, a2} dari ¬Q(a2), namun kesimpulan yang ditarik oleh GPT-4 justru sebaliknya.
6. Pewarnaan graf sederhana
Pertimbangkan dulu masalah pewarnaan graf tanpa solusi.
Tidak sulit untuk melihat bahwa dua warna tidak cukup untuk grafik yang dijelaskan dalam pertanyaan ini (misalnya, simpul 0, 2 dan 4 membentuk gugus, jadi setidaknya diperlukan 3 warna).
Dalam keluaran singkat ini, ada banyak sekali kesalahan yang mencengangkan.
GPT-4 dimulai dengan mengklaim secara salah bahwa grafik selesai (jelas tidak, misalnya tidak ada tepi antara simpul 2 dan 3).
Juga, jelas bahwa jika grafik benar-benar lengkap, maka tidak mungkin untuk mewarnainya dengan 2 warna, karena grafik lengkap dengan 6 simpul membutuhkan setidaknya 6 warna.
Dengan kata lain, klaim GPT-4 tidak hanya salah, tetapi juga tidak konsisten: satu momen memberi tahu kita (secara keliru) bahwa grafik 6-simpul ini lengkap, yang berarti tidak mungkin untuk mewarnainya dengan 2 warna, dan momen lainnya memberikan A dua -warna "solusi".
Perlu dicatat bahwa alasan kinerja GPT-4 sangat buruk bukan karena tidak memiliki pengetahuan grafik atau data yang cukup.
Ketika para peneliti meminta GPT-4 untuk pemahamannya tentang "grafik lengkap", ia memberikan definisi yang benar tentang "grafik lengkap", bersama dengan daftar panjang hasil untuk K_n (grafik lengkap dengan n simpul).
Rupanya, GPT-4 telah menghafal semua informasi ini, tetapi tidak dapat menerapkannya pada kondisi baru.
7. Jumlah Subset
S = {2, 8, 6, 32, 22, 44, 28, 12, 18, 10, 14}. Jadi berapa banyak himpunan bagian dari S yang berjumlah 37?
Dalam soal ini, himpunan bagian dari S adalah genap, dan jumlah bilangan genap tidak boleh ganjil, jadi jawabannya adalah 0.
Namun, alih-alih berhenti untuk mempertimbangkan apa yang terkandung dalam S, GPT-4 secara refleks menghasilkan apa yang menurutnya merupakan jawaban yang tepat untuk pertanyaan tersebut, dan kemudian melanjutkan ke "ajaib" jawaban "4".
8 Matematika Diskrit Dasar
Beri tahu GPT-4 bahwa A × B mewakili produk Cartesian dari himpunan A dan B, bahwa relasi R dari A ke B adalah subhimpunan dari A × B, dan bahwa & mewakili irisan himpunan dan kemudian minta untuk membuktikan atau memalsukan :
其中R1和R2是从A到B的二元关系,dom(R) Merupakan domain dari relasi biner R.
Relasi himpunan bagian harus berlaku di kedua arah dari (2), tetapi hanya berlaku di arah kiri ke kanan. Contoh tandingan di arah lain mudah ditemukan (misalnya, ambil A = {(1, 2)} dan B = {(1,3)}).
Namun, GPT-4 menganggap ini benar, yang jelas salah.
9 Rencana Pengaturan Sederhana
Soal timing, GPT-4 juga salah.
Gesek ke atas dan ke bawah untuk melihat semuanya
10 Paradoks Russell
Paradoks tukang cukur Russell menyatakan bahwa ada tukang cukur b yang mencukur hanya mereka yang tidak mencukur dirinya sendiri.
Negasi dari kalimat ini adalah tautologi, yang mudah dideduksi menggunakan logika orde pertama.
Jika kita memahami R(a,b) sebagai yang dicukur oleh b, maka kita dapat membuat tautologi ini dan meminta GPT-4 untuk membuktikan atau menyangkalnya, sebagai berikut:
Jika ada tukang cukur x, maka untuk semua y kita akan memiliki R(y,x) <==> ∼ R(y,y), jadi mengganti x dengan y akan menghasilkan R(x,x) <== > ∼ R(x,x), yang merupakan kontradiksi.
GPT-4 memiliki pemahaman yang sempurna tentang struktur kalimat yang diberikan dan apa yang perlu dilakukannya. Studi kasus selanjutnya, bagaimanapun, kacau.
11 Dunia Bata
Ini adalah tugas penalaran sederhana yang memerlukan analisis kasus dari blok bangunan kedua dari belakang B3.
Pertama, B3 berwarna hijau atau tidak.
Jika berwarna hijau, maka B3 berada di atas blok B4 yang tidak berwarna hijau, sehingga kesimpulannya berlaku.
Jika tidak, maka blok hijau kedua B2 dari atas berada di blok non-hijau B3, jadi kesimpulannya tetap berlaku.
Namun, hasil menunjukkan bahwa GPT-4 tidak bekerja dengan baik.
Ada lima balok yang ditumpuk dari atas ke bawah: 1. Balok kedua dari atas berwarna hijau 2. Balok keempat dari atas tidak berwarna hijau Dalam kasus di mana kondisi ini berlaku, salahkan atau Buktikan berikut: Ada balok hijau tepat di atas blok non-hijau.
Pertama-tama, ketika membuktikan dugaan, itu telah membuat kesalahan dalam strategi pembuktian-PT-4 mengasumsikan dua kasus khusus untuk penalaran.
Selain itu, GPT-4 telah mencapai kesimpulan (walaupun salah) dalam penalarannya sendiri, namun tetap memberi tahu pengguna bahwa masalah belum terpecahkan saat menjawab. Dan ini mencerminkan inkonsistensi internal model.
12 Penalaran Spasial
Di sini penulis memilih masalah orientasi dunia nyata:
Jawaban yang diberikan oleh GPT-4 untuk pertama kalinya ada di sebelah kanan, tetapi penulis menunjukkan kesalahannya.Meskipun Boston, Massachusetts, memang berada di sebelah kanan South Dakota dari peta, ada syarat tambahan di sini: orientasi tubuh Ini Texas.
Artinya Boston berada di sebelah kiri penulis.
Belakangan, ketika GPT-4 menjawab posisi tinggi dan rendah Boston dan South Dakota, muncul masalah yang lebih serius: ia memberikan dua deskripsi yang saling bertentangan dalam jawaban yang sama.
13 Penalaran Waktu
Penulis memberikan pertanyaan penalaran waktu yang relatif sederhana di sini, tetapi jawaban GPT-4 masih berantakan.
Tom dan Nancy membutuhkan transportasi untuk bekerja. Waktu perjalanan Nancy sekitar 30-40 menit, sedangkan waktu perjalanan Tom sekitar 40-50 menit. Jumat lalu, Nancy meninggalkan rumah antara jam 8:10 dan 8:20 pagi, dan Tom tiba di tempat kerja antara jam 8:5 dan 9:10 pagi. Juga, Nancy tiba di tempat kerja setelah Tom meninggalkan rumah, tetapi tidak lebih dari 20 menit kemudian. Bisakah Anda menyimpulkan kapan Tom dan Nancy tiba di tempat kerja Jumat lalu?
Setelah memilah informasi dalam soal, GPT-4 memberikan proses penalarannya:
"Jika Tom meninggalkan rumah selambat-lambatnya (8:20 pagi) ..." Kalimat ini dimulai dengan salah.
Nyatanya, judul tersebut tidak memberikan waktu terakhir bagi Tom untuk meninggalkan rumah, dan GPT-4 menyalahgunakan waktu Nancy ("Nancy meninggalkan rumah antara 8:10-8:20") kepada Tom.
Pada saat yang sama, pernyataan bersyarat yang diberikan oleh GPT-4 membingungkan, dan asumsi tersebut mengandung informasi (Tom) yang tidak terkait dengan kesimpulan (waktu kedatangan Nancy): "Jika Tom meninggalkan rumah paling lambat waktu (8:20 pagi), Nancy Dia berangkat paling lambat (8:20 pagi), perjalanannya paling lama 40 menit, dan Nancy tiba di tempat kerja paling lambat jam 9:00 pagi."
Ini harus dinyatakan sebagai: "Jika Nancy berangkat paling lambat (08:20), dan perjalanannya paling lama 40 menit, maka Nancy akan tiba di tempat kerja paling lambat pukul 09:00."
GPT-4 kemudian secara keliru menyimpulkan sebagai berikut: "Karena perjalanan Tom setidaknya 40 menit, ini berarti dia akan tiba di tempat kerja paling lambat pukul 09.00."
Kesimpulan ini jelas tidak dapat dipertahankan sama sekali. Kesimpulan ini tidak dapat ditarik dari fakta yang diketahui bahwa waktu perjalanan Tom setidaknya 40 menit.
Jawaban berikut ini masih berdasarkan asumsi yang salah bahwa waktu keberangkatan paling awal Tom adalah pukul 08.10 (sekali lagi, waktu keberangkatan ini adalah waktu keberangkatan Nancy, bukan waktu keberangkatan Tom).
Kemudian diklaim bahwa Nancy tiba pada pukul 8:45, yang tidak memenuhi syarat untuk meninggalkan rumah pada pukul 8:10 dalam waktu 20 menit.
Pada akhirnya, disimpulkan secara keliru bahwa Tom dan Nancy tiba antara pukul 8:50 dan 9:00.
Dalam proses penalaran, GPT-4 berulang kali menampilkan informasi dengan cara yang salah, dan jawaban akhir juga merupakan jawaban yang salah berdasarkan kondisi yang salah.
**14. Pembunuhan atau bunuh diri? **
Penulis membuat teka-teki logika dan membuat daftar 9 syarat untuk meminta GPT-4 mencari tahu siapa yang sebenarnya membunuh Bibi Agatha.
Seseorang yang tinggal di Dreadbury Mansion membunuh Bibi Agatha. 2. Satu-satunya penghuni Rumah Dreadbury adalah Bibi Agatha, Pengurus Rumah Tangga, dan Charles. 3. Seorang pembunuh selalu membenci korbannya, dan dia tidak pernah menjadi lebih kaya dari korbannya. 4. Charles tidak membenci orang yang dibenci Bibi Agatha. 5. Bibi Agatha membenci semua orang kecuali pengurus rumah tangga. 6. Kepala pelayan membenci semua orang yang tidak lebih kaya dari Bibi Agatha. 7. Kepala pelayan membenci semua orang yang dibenci Bibi Agatha. 8. Tidak ada yang membenci semua orang. 9. Bibi Agatha bukan pembantu rumah tangga.
Jawaban yang benar adalah Bibi Agatha bunuh diri.
Pertama, dengan syarat 5, Tante Agatha harus membenci dirinya sendiri karena dia membenci semua orang kecuali pengurus rumah tangga.
Oleh karena itu, menurut syarat 4, Charles tidak membencinya, jadi dia tidak dapat membunuhnya.
Menurut kondisi 5 dan 7, kepala pelayan tidak mungkin membenci dirinya sendiri, karena jika dia membenci dirinya sendiri, kondisi 8 tidak akan berlaku, dan dia akan membenci semua orang.
Menurut kondisi 6, disimpulkan bahwa kepala pelayan lebih kaya dari Bibi Agatha, kalau tidak dia akan membenci dirinya sendiri, yang bertentangan dengan apa yang telah kita simpulkan sebelumnya bahwa dia tidak membenci dirinya sendiri.
Menurut kondisi 3, kepala pelayan juga bukan pembunuhnya (kondisi 3).
Dalam penalaran, GPT-4 dengan tepat mengesampingkan Charles, tetapi tidak dapat mengesampingkan kepala pelayan, dan sampai pada kesimpulan yang salah: kepala pelayan adalah pembunuhnya.
Kesalahan kritis lainnya yang dibuat oleh GPT-4: Karena Bibi Agatha membenci semua orang kecuali pengurus rumah tangga (Kondisi 5), itu berarti dia setidaknya tidak membenci dirinya sendiri.
Ini adalah kesalahan yang aneh, karena mengikuti dari syarat ke-5 Bibi Agatha membenci dirinya sendiri.
Pada saat yang sama, GPT-4 sekali lagi menunjukkan ketidakkonsistenan yang berulang—di hampir setiap respons, GPT-4 mengklaim memperoleh proposisi tertentu dan bentuk negatifnya.
15 tugas pemilihan Watson
Tugas pilihan Watson adalah konten dasar di bidang penalaran mental.
Dalam makalah Januari, GPT-3.5 gagal dalam pengujian ini, dan dalam penelitian ini kinerja GPT-4 masih belum ideal.
Ada 7 kartu di atas meja, setiap kartu memiliki nomor tertulis di satu sisi dan satu blok warna di sisi lainnya. Bagian depan kartu ini menunjukkan 50, 16, merah, kuning, 23, hijau, 30.
Untuk menentukan kebenaran proposisi "Jika sebuah kartu menunjukkan kelipatan 4 di bagian depan, warna di bagian belakang adalah kuning", kartu manakah yang perlu dibalik?
Tanggapan ini menunjukkan bahwa GPT-4 tidak memahami semantik pernyataan bersyarat. Ketika GPT-4 mengatakan bahwa kartu "50" dan "30" harus dibalik, tampaknya kondisi tersebut disalahartikan sebagai kondisi yang diperlukan dan cukup.
Terlepas dari apakah jawaban GPT-4 benar atau salah, pernyataan internalnya tidak konsisten.
16 Entropi
Kesimpulan dasar teori informasi adalah: batas atas entropi vektor acak Z tidak melebihi jumlah entropi variabel acak yang membentuk Z.
Oleh karena itu, jawaban atas pertanyaan berikut harus "tidak dalam keadaan apapun".
17 Ketepatan Kompiler Sederhana
Masalah inferensi terakhir untuk GPT-4 adalah yang paling menantang: membuktikan kebenaran kompiler ekspresi sederhana.
Namun dalam pengujian ini, GPT-4 mendapatkan bukti yang benar dengan menetapkan induksi struktural pada struktur ekspresi sintaksis abstrak.
Hal ini mungkin karena telah melihat bukti serupa sebelumnya, dan contoh yang diberikan oleh penulis adalah jenis latihan yang biasa ditemukan dalam kursus pemrograman dan buku teks.
Namun, GPT-4 masih memiliki beberapa kesalahan detail.
## Kesimpulan: Kemampuan penalaran sangat penting, tetapi GPT-4 tidak akan
Mengingat GPT-4 saat ini merupakan LLM yang paling mumpuni, penulis memberikan tiga kesimpulan utama berdasarkan analisis di atas:
Penggunaan AI generatif dalam pengembangan perangkat lunak (atau sains dan teknik pada umumnya), kecuali untuk beberapa tugas yang membosankan (sebagai semacam penyelesaian otomatis yang dipercepat dari masalah pengkodean intensif pengetahuan), penuh dengan risiko. Di bidang ini, kenormatifan dan kebenaran sangat penting, dan LLM saat ini gagal memenuhi standar ini.
Karena kemampuan penalaran LLM terus meningkat, pemeriksaan bukti yang ketat akan menjadi semakin penting. Pendekatan ini dapat memeriksa penalaran yang diungkapkan dalam bahasa alami dengan meminta LLM untuk memformalkan penalaran mereka, atau dengan melatih LLM lainnya.
Seperti yang ada, skenario distopia tentang AI yang menaklukkan manusia atau manusia yang menggunakan AI untuk tujuan jahat tidak masuk akal, bahkan sampai pada titik yang tidak masuk akal. Ketika sistem AI yang canggih bahkan tidak dapat membedakan kiri dari kanan (pertanyaan 12 di atas), menyerukan kebijakan untuk melindungi manusia darinya adalah yang paling prematur, dan paling buruk pemborosan sumber daya.
Tak pelak, beberapa orang mungkin mengatakan bahwa hasil ini adalah "data yang dipilih". Tapi itu karena mereka memiliki kesalahpahaman tentang apa itu data kurasi. Bergantung pada struktur logis dan keseluruhan konteks proposisi yang dipermasalahkan, pengambilan data terkadang bahkan diperlukan.
Men-debug program komputer untuk menemukan dan memahami kelemahannya, mencoba memalsukan teori ilmiah, menguji coba mobil baru, mencoba menemukan anti-model dari teorema dugaan, dll., semuanya pada dasarnya tidak tepat.
Misalnya, jika Anda mengetahui bahwa ban mobil baru Anda kempes, dealer dapat memprotes bahwa Anda "memilih data". Lagi pula, sejauh menyangkut keseluruhan mobil, tingkat keutuhan ban mencapai 75%.
Demikian pula, aplikasi dalam sains, kedokteran, dan teknik, khususnya rekayasa perangkat lunak, memiliki standar yang ketat.
Sama seperti kita tidak menginginkan jembatan yang akan berdiri di atas kolom 90% dari waktu, kita membutuhkan algoritme pengurutan yang bekerja pada semua input, bukan hanya sebagian besar; kita membutuhkan gerobak yang mengisi jumlah yang benar setiap saat, dan Bukan hanya sebagian besar waktu, dll.
Dan aplikasi intensif komputasi dan penalaran ini, tidak seperti mesin rekomendasi, pasti sangat andal.
tentang Penulis
Konstantin Arkouda
Hingga tahun lalu, Konstantine Arkoudas adalah peneliti di Departemen Ilmu Kognitif RPI dan peneliti di CSAIL MIT.
Saat ini, dia adalah Ilmuwan Riset Senior di Laboratorium Riset Telcordia, dengan fokus pada AI dan menerapkan metode formal untuk masalah dunia nyata di industri telekomunikasi dan jaringan.
Ia menerima gelar Ph.D. di bidang Ilmu Komputer dari MIT pada tahun 2000. Sebelumnya, ia juga meraih gelar master di bidang ilmu komputer, gelar master di bidang filsafat, dan gelar sarjana di bidang ilmu komputer dengan minor di bidang filsafat.
Universitas matematika, fisika dan kimia, skor GPT-4 35,8%
Dalam penelitian UCLA, kemampuan penalaran GPT-4 dan GPT-3.5 dalam matematika, kimia dan fisika terutama dievaluasi.
Saat ini, untuk meningkatkan kemampuan LLM dalam menyelesaikan tugas seperti matematika, beberapa orang telah mengusulkan strategi CoT yang terhubung dengan pemikiran untuk memandu model besar agar secara bertahap menghasilkan jawaban, sehingga dapat memikirkan masalah lebih dalam.
Namun, meskipun pendekatan semacam itu memiliki keunggulan spesifiknya, sulit untuk menyelesaikan masalah ilmiah yang kompleks sepenuhnya.
Di bawah ini adalah contoh soal kimia fisika perguruan tinggi dan solusi yang dihasilkan di bawah dua strategi petunjuk.
GPT-4 dengan restu CoT memiliki kesalahan perhitungan yang jelas, dan GPT-4, yang mendorong penggunaan Python sebagai alat eksternal, juga akan salah memahami persamaan matematika.
Kesalahan ditandai dengan warna merah, koreksi dengan warna ungu
Untuk tujuan ini, SCIBENCH, tolok ukur tingkat universitas untuk pertanyaan ilmiah, diperkenalkan ke dalam penelitian ini.
Di antara mereka, "kumpulan data terbuka" mencakup 5 masalah yang dikumpulkan dari buku teks yang banyak digunakan dalam program universitas, meliputi fisika dasar, termodinamika, mekanika klasik, kimia kuantum, kimia fisik, kalkulus, statistik, dan persamaan diferensial.
Ringkasan Masalah Buku Teks Terbuka (termasuk persentase jumlah masalah, dan persentase dengan solusi terperinci)
Yang lainnya adalah "set data tertutup", yang berisi 7 set soal ujian tengah semester dan ujian akhir untuk tiga program universitas dalam ilmu komputer dan matematika untuk mensimulasikan penilaian dunia nyata.
Dataset ujian tertutup (berisi jumlah contoh pertanyaan di setiap ujian, dan proporsi pertanyaan dalam ujian yang berisi solusi mendetail. Juga, proporsi pertanyaan dalam format yang berbeda, termasuk jawaban bebas, pilihan ganda, dan benar-salah jawaban. Untuk referensi, Angka dalam tanda kurung menunjukkan poin kredit untuk pertanyaan.)
Tidak seperti tolok ukur yang ada, semua pertanyaan di SCIBENCH adalah pertanyaan terbuka dan bebas untuk dijawab.
Dengan kumpulan data yang tersedia, studi ini berfokus pada evaluasi dua perwakilan LLM, GPT-3.5 dan GPT-4, dan menggunakan strategi dorongan yang berbeda, termasuk CoT, pembelajaran zero-shot, dan pembelajaran beberapa tembakan.
Selain itu, para peneliti juga mendorong model untuk menggunakan alat eksternal, seperti Python dan Bahasa Wolfram.
Hasil eksperimen menunjukkan bahwa tanpa petunjuk rumit atau menggunakan alat eksternal, tingkat akurasi rata-rata GPT-3.5 dan GPT-4 dalam kumpulan data terbuka masing-masing adalah 10,62% dan 16,81%.
Kemudian, setelah menambahkan CoT dan alat eksternal, tingkat akurasi tertinggi pada kumpulan data yang sama hanya sebesar 35,8%. Namun, dibandingkan dengan sebelumnya, tingkat akurasi telah meningkat pesat.
Akurasi menghasilkan kumpulan data terbuka
Di bawah konfigurasi terkuat yang menggunakan petunjuk CoT + alat eksternal, GPT-4 mencapai skor rata-rata 35,80% pada kumpulan data terbuka dan 51,57% pada kumpulan data tertutup.
Hasil ini menunjukkan bahwa GPT-4 memiliki potensi besar untuk peningkatan LLM di masa mendatang.
Hasil eksperimen skor total di bawah pembelajaran zero-shot pada set data uji
Untuk mendapatkan pemahaman yang komprehensif tentang keterbatasan LLM dalam pemecahan masalah ilmiah, para peneliti mengusulkan pendekatan "perbaikan diri" baru untuk menemukan kekurangan dalam jawaban yang dibuat oleh LLM.
Ini adalah "Perjanjian Evaluasi" sebagai berikut.
Pertama, solusi yang benar dibandingkan dengan solusi yang dihasilkan oleh LLM, dan dengan bantuan annotator manusia, 10 keterampilan penting yang diperlukan untuk berhasil memecahkan masalah ilmiah dirangkum.
Secara khusus termasuk: dekomposisi logis dan keterampilan analitis; mengidentifikasi hipotesis; persepsi spasial; penalaran kausal; deduksi masalah; penalaran abstrak; literasi ilmiah; alih kode; penalaran logis; berhitung.
Tim kemudian menggunakan pendekatan evaluasi diri berbasis LLM untuk secara otomatis mengklasifikasikan keterampilan yang kurang dalam solusi yang dibuat oleh LLM dasar untuk setiap konfigurasi eksperimental.
Profil kesalahan GPT-3.5 pada kumpulan data teks di bawah 6 pengaturan, mengungkapkan distribusi cacat dalam 10 kemampuan pemecahan masalah mendasarnya
Akhirnya, melalui analisis, ditemukan bahwa:
(1) Meskipun CoT secara signifikan meningkatkan daya komputasi, namun kurang efektif dalam aspek lain;
(2) Kiat menggunakan alat eksternal dapat merusak keterampilan penting lainnya;
(3) Pembelajaran dengan sedikit tembakan umumnya tidak meningkatkan pemecahan masalah secara ilmiah.
Singkatnya, hasil penelitian menunjukkan bahwa model bahasa skala besar saat ini masih lemah dalam kemampuan pemecahan masalah, dan dengan bantuan berbagai alat masih ada keterbatasan.
Referensi:
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Alasan GPT-4 terlalu keterlaluan! Nilai total matematika, fisika, dan kimia di universitas kurang dari setengah, dan semua 21 jenis pertanyaan penalaran terbalik Marcus: AGI terlalu jauh
**Sumber:**Xinzhiyuan
Panduan: GPT-4 yang paling kuat di permukaan membuat kesalahan dalam penalaran pertanyaan satu demi satu! Penelitian terbaru oleh alumni MIT dan UCLA China menarik banyak netizen untuk menonton.
GPT-4 tidak bisa bernalar sama sekali!
Baru-baru ini, dua penelitian telah melaporkan bahwa GPT-4 berkinerja buruk dalam penalaran.
Konstantine Arkoudas, alumnus MIT, mengevaluasi GPT-4 pada 21 tipe inference set yang berbeda.
Kemudian, dilakukan analisis kualitatif yang mendetail tentang kinerja GPT-4 pada masalah ini.
Studi telah menemukan bahwa GPT-4 terkadang menunjukkan bakat "otak terkuat", namun saat ini, GPT-4 tidak memiliki kemampuan penalaran sama sekali.
Begitu penelitian keluar, banyak netizen berkumpul untuk menonton.
Marcus berkata, "Jika ini benar - seperti yang saya katakan sebelumnya - kita masih jauh dari AGI. Kita mungkin perlu melakukan banyak kalibrasi ulang: tidak ada AGI tanpa penalaran".
Para peneliti memperkenalkan SCIBENCH, sebuah yayasan pemecahan masalah ilmiah universitas, yang berisi 2 set data: set data terbuka dan set data tertutup.
Melalui penelitian mendalam terhadap GPT-4 dan GPT-3.5 dengan menggunakan strategi prompting yang berbeda, diperoleh hasil rata-rata skor total GPT-4 hanya sebesar 35,8%.
Penelitian ini juga sekali lagi menarik perhatian Marcus:
21 set masalah, rollover penuh GPT-4
Namun, sebelum melihat GPT-4 untuk menjawab pertanyaan tersebut, penulis memberikan catatan:
GPT-4 adalah sistem non-deterministik dan dapat menghasilkan jawaban yang berbeda dalam proses yang berbeda bahkan dengan pengaturan parameter yang sama.
Sementara tes pertukaran berikut adalah kata demi kata, dalam pengalaman penulis, hal-hal yang dibahas dalam makalah di mana kesalahan GPT-4 cenderung kuat.
1 aritmatika sederhana
Mampu melakukan operasi dasar adalah kondisi yang diperlukan untuk penalaran.
Namun, GPT-4 masih belum dapat diandalkan untuk melakukan operasi aritmatika dasar seperti penjumlahan dan perkalian.
Misalnya, biarkan GPT-4 secara acak memilih dua angka antara 1381 dan 1453 untuk mengalikan dan memberikan hasilnya.
GPT-4 memilih 1405 dan 1421, tetapi hasil akhirnya jelas salah. Karena 1405×1421=1996505.
Meskipun penghitungan khusus belum tentu merupakan aktivitas penalaran, ini tentu saja merupakan prasyarat untuk sistem penalaran apa pun dengan kemampuan umum.
Di sini, GPT-4 diberi variabel proposisional dan diawali dengan 27 simbol negasi, memintanya untuk menghitung jumlah simbol negasi.
Bagi kami itu sangat mudah, terutama karena negasi ditulis terpisah 5, dan ada 5 grup, dengan pasangan negasi terakhir segera menyusul.
Namun, GPT-4 memberikan jawaban "28".
Untuk saat ini, kita dapat menganggap argumen akal sehat sebagai kesimpulan sederhana yang diambil dari informasi yang diberikan ditambah kondisi yang tidak dinyatakan (default, pengetahuan latar belakang yang diterima secara umum).
Dalam kasus khusus ini, pengetahuan akal sehat adalah proposisi seperti "Manusia hidup sampai dia mati, dan dia tidak pernah hidup setelah mati."
Misalnya, saat Anda menanyakan GPT-4: detak jantung Mable adalah 75 bpm pada jam 9 pagi dan tekanan darah 120/80 pada jam 7 malam. Dia meninggal pada jam 11 malam. Apakah dia hidup di siang hari?
Tapi jelas berdasarkan informasi yang diberikan, inferensi akal sehat (tanpa berpikir) langsung mengarah ke kesimpulan.
Jika P(x) memuat Q(x), dan Q(a) tidak berlaku, maka kita dapat menyimpulkan dari model bahwa P(a) tidak berlaku (karena jika P(a) berlaku, maka Q(a) akan tahan) .
Ini adalah tautologi dasar, tetapi GPT-4 mengusulkan anti-model sepenuhnya:
Faktanya, model tandingan harus memenuhi semua kondisi yang diberikan dan sekaligus memalsukan kesimpulan.
Selanjutnya, hanya beberapa kalimat kemudian, GPT-4 mengklaim bahwa P(x) menyiratkan Q(x) di bawah interpretasi yang diberikan, bertentangan dengan pernyataannya sendiri sebelumnya.
5 Semantik Penjumlahan Sederhana
Perhatikan tiga kalimat berikut:
[untuk semua x . P(x) ==> P(x)]
[ada x . P(x)]
[ada x . ∼ P(x)]
Harap salahkan atau buktikan klaim berikut: Ketiga kalimat ini secara bersama-sama memuaskan.
6. Pewarnaan graf sederhana
Pertimbangkan dulu masalah pewarnaan graf tanpa solusi.
Tidak sulit untuk melihat bahwa dua warna tidak cukup untuk grafik yang dijelaskan dalam pertanyaan ini (misalnya, simpul 0, 2 dan 4 membentuk gugus, jadi setidaknya diperlukan 3 warna).
GPT-4 dimulai dengan mengklaim secara salah bahwa grafik selesai (jelas tidak, misalnya tidak ada tepi antara simpul 2 dan 3).
Juga, jelas bahwa jika grafik benar-benar lengkap, maka tidak mungkin untuk mewarnainya dengan 2 warna, karena grafik lengkap dengan 6 simpul membutuhkan setidaknya 6 warna.
Dengan kata lain, klaim GPT-4 tidak hanya salah, tetapi juga tidak konsisten: satu momen memberi tahu kita (secara keliru) bahwa grafik 6-simpul ini lengkap, yang berarti tidak mungkin untuk mewarnainya dengan 2 warna, dan momen lainnya memberikan A dua -warna "solusi".
Perlu dicatat bahwa alasan kinerja GPT-4 sangat buruk bukan karena tidak memiliki pengetahuan grafik atau data yang cukup.
Ketika para peneliti meminta GPT-4 untuk pemahamannya tentang "grafik lengkap", ia memberikan definisi yang benar tentang "grafik lengkap", bersama dengan daftar panjang hasil untuk K_n (grafik lengkap dengan n simpul).
Rupanya, GPT-4 telah menghafal semua informasi ini, tetapi tidak dapat menerapkannya pada kondisi baru.
7. Jumlah Subset
S = {2, 8, 6, 32, 22, 44, 28, 12, 18, 10, 14}. Jadi berapa banyak himpunan bagian dari S yang berjumlah 37?
Dalam soal ini, himpunan bagian dari S adalah genap, dan jumlah bilangan genap tidak boleh ganjil, jadi jawabannya adalah 0.
Namun, alih-alih berhenti untuk mempertimbangkan apa yang terkandung dalam S, GPT-4 secara refleks menghasilkan apa yang menurutnya merupakan jawaban yang tepat untuk pertanyaan tersebut, dan kemudian melanjutkan ke "ajaib" jawaban "4".
Beri tahu GPT-4 bahwa A × B mewakili produk Cartesian dari himpunan A dan B, bahwa relasi R dari A ke B adalah subhimpunan dari A × B, dan bahwa & mewakili irisan himpunan dan kemudian minta untuk membuktikan atau memalsukan :
Relasi himpunan bagian harus berlaku di kedua arah dari (2), tetapi hanya berlaku di arah kiri ke kanan. Contoh tandingan di arah lain mudah ditemukan (misalnya, ambil A = {(1, 2)} dan B = {(1,3)}).
Namun, GPT-4 menganggap ini benar, yang jelas salah.
Soal timing, GPT-4 juga salah.
10 Paradoks Russell
Paradoks tukang cukur Russell menyatakan bahwa ada tukang cukur b yang mencukur hanya mereka yang tidak mencukur dirinya sendiri.
Negasi dari kalimat ini adalah tautologi, yang mudah dideduksi menggunakan logika orde pertama.
Jika kita memahami R(a,b) sebagai yang dicukur oleh b, maka kita dapat membuat tautologi ini dan meminta GPT-4 untuk membuktikan atau menyangkalnya, sebagai berikut:
Jika ada tukang cukur x, maka untuk semua y kita akan memiliki R(y,x) <==> ∼ R(y,y), jadi mengganti x dengan y akan menghasilkan R(x,x) <== > ∼ R(x,x), yang merupakan kontradiksi.
GPT-4 memiliki pemahaman yang sempurna tentang struktur kalimat yang diberikan dan apa yang perlu dilakukannya. Studi kasus selanjutnya, bagaimanapun, kacau.
Ini adalah tugas penalaran sederhana yang memerlukan analisis kasus dari blok bangunan kedua dari belakang B3.
Pertama, B3 berwarna hijau atau tidak.
Jika berwarna hijau, maka B3 berada di atas blok B4 yang tidak berwarna hijau, sehingga kesimpulannya berlaku.
Jika tidak, maka blok hijau kedua B2 dari atas berada di blok non-hijau B3, jadi kesimpulannya tetap berlaku.
Namun, hasil menunjukkan bahwa GPT-4 tidak bekerja dengan baik.
Pertama-tama, ketika membuktikan dugaan, itu telah membuat kesalahan dalam strategi pembuktian-PT-4 mengasumsikan dua kasus khusus untuk penalaran.
Selain itu, GPT-4 telah mencapai kesimpulan (walaupun salah) dalam penalarannya sendiri, namun tetap memberi tahu pengguna bahwa masalah belum terpecahkan saat menjawab. Dan ini mencerminkan inkonsistensi internal model.
Di sini penulis memilih masalah orientasi dunia nyata:
Belakangan, ketika GPT-4 menjawab posisi tinggi dan rendah Boston dan South Dakota, muncul masalah yang lebih serius: ia memberikan dua deskripsi yang saling bertentangan dalam jawaban yang sama.
Penulis memberikan pertanyaan penalaran waktu yang relatif sederhana di sini, tetapi jawaban GPT-4 masih berantakan.
Setelah memilah informasi dalam soal, GPT-4 memberikan proses penalarannya:
Nyatanya, judul tersebut tidak memberikan waktu terakhir bagi Tom untuk meninggalkan rumah, dan GPT-4 menyalahgunakan waktu Nancy ("Nancy meninggalkan rumah antara 8:10-8:20") kepada Tom.
Pada saat yang sama, pernyataan bersyarat yang diberikan oleh GPT-4 membingungkan, dan asumsi tersebut mengandung informasi (Tom) yang tidak terkait dengan kesimpulan (waktu kedatangan Nancy): "Jika Tom meninggalkan rumah paling lambat waktu (8:20 pagi), Nancy Dia berangkat paling lambat (8:20 pagi), perjalanannya paling lama 40 menit, dan Nancy tiba di tempat kerja paling lambat jam 9:00 pagi."
Ini harus dinyatakan sebagai: "Jika Nancy berangkat paling lambat (08:20), dan perjalanannya paling lama 40 menit, maka Nancy akan tiba di tempat kerja paling lambat pukul 09:00."
GPT-4 kemudian secara keliru menyimpulkan sebagai berikut: "Karena perjalanan Tom setidaknya 40 menit, ini berarti dia akan tiba di tempat kerja paling lambat pukul 09.00."
Kesimpulan ini jelas tidak dapat dipertahankan sama sekali. Kesimpulan ini tidak dapat ditarik dari fakta yang diketahui bahwa waktu perjalanan Tom setidaknya 40 menit.
Jawaban berikut ini masih berdasarkan asumsi yang salah bahwa waktu keberangkatan paling awal Tom adalah pukul 08.10 (sekali lagi, waktu keberangkatan ini adalah waktu keberangkatan Nancy, bukan waktu keberangkatan Tom).
Kemudian diklaim bahwa Nancy tiba pada pukul 8:45, yang tidak memenuhi syarat untuk meninggalkan rumah pada pukul 8:10 dalam waktu 20 menit.
Pada akhirnya, disimpulkan secara keliru bahwa Tom dan Nancy tiba antara pukul 8:50 dan 9:00.
Dalam proses penalaran, GPT-4 berulang kali menampilkan informasi dengan cara yang salah, dan jawaban akhir juga merupakan jawaban yang salah berdasarkan kondisi yang salah.
Penulis membuat teka-teki logika dan membuat daftar 9 syarat untuk meminta GPT-4 mencari tahu siapa yang sebenarnya membunuh Bibi Agatha.
Jawaban yang benar adalah Bibi Agatha bunuh diri.
Pertama, dengan syarat 5, Tante Agatha harus membenci dirinya sendiri karena dia membenci semua orang kecuali pengurus rumah tangga.
Oleh karena itu, menurut syarat 4, Charles tidak membencinya, jadi dia tidak dapat membunuhnya.
Menurut kondisi 5 dan 7, kepala pelayan tidak mungkin membenci dirinya sendiri, karena jika dia membenci dirinya sendiri, kondisi 8 tidak akan berlaku, dan dia akan membenci semua orang.
Menurut kondisi 6, disimpulkan bahwa kepala pelayan lebih kaya dari Bibi Agatha, kalau tidak dia akan membenci dirinya sendiri, yang bertentangan dengan apa yang telah kita simpulkan sebelumnya bahwa dia tidak membenci dirinya sendiri.
Menurut kondisi 3, kepala pelayan juga bukan pembunuhnya (kondisi 3).
Kesalahan kritis lainnya yang dibuat oleh GPT-4: Karena Bibi Agatha membenci semua orang kecuali pengurus rumah tangga (Kondisi 5), itu berarti dia setidaknya tidak membenci dirinya sendiri.
Ini adalah kesalahan yang aneh, karena mengikuti dari syarat ke-5 Bibi Agatha membenci dirinya sendiri.
Pada saat yang sama, GPT-4 sekali lagi menunjukkan ketidakkonsistenan yang berulang—di hampir setiap respons, GPT-4 mengklaim memperoleh proposisi tertentu dan bentuk negatifnya.
Tugas pilihan Watson adalah konten dasar di bidang penalaran mental.
Dalam makalah Januari, GPT-3.5 gagal dalam pengujian ini, dan dalam penelitian ini kinerja GPT-4 masih belum ideal.
Terlepas dari apakah jawaban GPT-4 benar atau salah, pernyataan internalnya tidak konsisten.
16 Entropi
Kesimpulan dasar teori informasi adalah: batas atas entropi vektor acak Z tidak melebihi jumlah entropi variabel acak yang membentuk Z.
Oleh karena itu, jawaban atas pertanyaan berikut harus "tidak dalam keadaan apapun".
Masalah inferensi terakhir untuk GPT-4 adalah yang paling menantang: membuktikan kebenaran kompiler ekspresi sederhana.
Namun, GPT-4 masih memiliki beberapa kesalahan detail.
Mengingat GPT-4 saat ini merupakan LLM yang paling mumpuni, penulis memberikan tiga kesimpulan utama berdasarkan analisis di atas:
Penggunaan AI generatif dalam pengembangan perangkat lunak (atau sains dan teknik pada umumnya), kecuali untuk beberapa tugas yang membosankan (sebagai semacam penyelesaian otomatis yang dipercepat dari masalah pengkodean intensif pengetahuan), penuh dengan risiko. Di bidang ini, kenormatifan dan kebenaran sangat penting, dan LLM saat ini gagal memenuhi standar ini.
Karena kemampuan penalaran LLM terus meningkat, pemeriksaan bukti yang ketat akan menjadi semakin penting. Pendekatan ini dapat memeriksa penalaran yang diungkapkan dalam bahasa alami dengan meminta LLM untuk memformalkan penalaran mereka, atau dengan melatih LLM lainnya.
Seperti yang ada, skenario distopia tentang AI yang menaklukkan manusia atau manusia yang menggunakan AI untuk tujuan jahat tidak masuk akal, bahkan sampai pada titik yang tidak masuk akal. Ketika sistem AI yang canggih bahkan tidak dapat membedakan kiri dari kanan (pertanyaan 12 di atas), menyerukan kebijakan untuk melindungi manusia darinya adalah yang paling prematur, dan paling buruk pemborosan sumber daya.
Tak pelak, beberapa orang mungkin mengatakan bahwa hasil ini adalah "data yang dipilih". Tapi itu karena mereka memiliki kesalahpahaman tentang apa itu data kurasi. Bergantung pada struktur logis dan keseluruhan konteks proposisi yang dipermasalahkan, pengambilan data terkadang bahkan diperlukan.
Men-debug program komputer untuk menemukan dan memahami kelemahannya, mencoba memalsukan teori ilmiah, menguji coba mobil baru, mencoba menemukan anti-model dari teorema dugaan, dll., semuanya pada dasarnya tidak tepat.
Misalnya, jika Anda mengetahui bahwa ban mobil baru Anda kempes, dealer dapat memprotes bahwa Anda "memilih data". Lagi pula, sejauh menyangkut keseluruhan mobil, tingkat keutuhan ban mencapai 75%.
Demikian pula, aplikasi dalam sains, kedokteran, dan teknik, khususnya rekayasa perangkat lunak, memiliki standar yang ketat.
Sama seperti kita tidak menginginkan jembatan yang akan berdiri di atas kolom 90% dari waktu, kita membutuhkan algoritme pengurutan yang bekerja pada semua input, bukan hanya sebagian besar; kita membutuhkan gerobak yang mengisi jumlah yang benar setiap saat, dan Bukan hanya sebagian besar waktu, dll.
Dan aplikasi intensif komputasi dan penalaran ini, tidak seperti mesin rekomendasi, pasti sangat andal.
tentang Penulis
Konstantin Arkouda
Hingga tahun lalu, Konstantine Arkoudas adalah peneliti di Departemen Ilmu Kognitif RPI dan peneliti di CSAIL MIT.
Saat ini, dia adalah Ilmuwan Riset Senior di Laboratorium Riset Telcordia, dengan fokus pada AI dan menerapkan metode formal untuk masalah dunia nyata di industri telekomunikasi dan jaringan.
Ia menerima gelar Ph.D. di bidang Ilmu Komputer dari MIT pada tahun 2000. Sebelumnya, ia juga meraih gelar master di bidang ilmu komputer, gelar master di bidang filsafat, dan gelar sarjana di bidang ilmu komputer dengan minor di bidang filsafat.
Universitas matematika, fisika dan kimia, skor GPT-4 35,8%
Dalam penelitian UCLA, kemampuan penalaran GPT-4 dan GPT-3.5 dalam matematika, kimia dan fisika terutama dievaluasi.
Saat ini, untuk meningkatkan kemampuan LLM dalam menyelesaikan tugas seperti matematika, beberapa orang telah mengusulkan strategi CoT yang terhubung dengan pemikiran untuk memandu model besar agar secara bertahap menghasilkan jawaban, sehingga dapat memikirkan masalah lebih dalam.
Namun, meskipun pendekatan semacam itu memiliki keunggulan spesifiknya, sulit untuk menyelesaikan masalah ilmiah yang kompleks sepenuhnya.
Di bawah ini adalah contoh soal kimia fisika perguruan tinggi dan solusi yang dihasilkan di bawah dua strategi petunjuk.
GPT-4 dengan restu CoT memiliki kesalahan perhitungan yang jelas, dan GPT-4, yang mendorong penggunaan Python sebagai alat eksternal, juga akan salah memahami persamaan matematika.
Untuk tujuan ini, SCIBENCH, tolok ukur tingkat universitas untuk pertanyaan ilmiah, diperkenalkan ke dalam penelitian ini.
Di antara mereka, "kumpulan data terbuka" mencakup 5 masalah yang dikumpulkan dari buku teks yang banyak digunakan dalam program universitas, meliputi fisika dasar, termodinamika, mekanika klasik, kimia kuantum, kimia fisik, kalkulus, statistik, dan persamaan diferensial.
Yang lainnya adalah "set data tertutup", yang berisi 7 set soal ujian tengah semester dan ujian akhir untuk tiga program universitas dalam ilmu komputer dan matematika untuk mensimulasikan penilaian dunia nyata.
Tidak seperti tolok ukur yang ada, semua pertanyaan di SCIBENCH adalah pertanyaan terbuka dan bebas untuk dijawab.
Dengan kumpulan data yang tersedia, studi ini berfokus pada evaluasi dua perwakilan LLM, GPT-3.5 dan GPT-4, dan menggunakan strategi dorongan yang berbeda, termasuk CoT, pembelajaran zero-shot, dan pembelajaran beberapa tembakan.
Selain itu, para peneliti juga mendorong model untuk menggunakan alat eksternal, seperti Python dan Bahasa Wolfram.
Hasil eksperimen menunjukkan bahwa tanpa petunjuk rumit atau menggunakan alat eksternal, tingkat akurasi rata-rata GPT-3.5 dan GPT-4 dalam kumpulan data terbuka masing-masing adalah 10,62% dan 16,81%.
Kemudian, setelah menambahkan CoT dan alat eksternal, tingkat akurasi tertinggi pada kumpulan data yang sama hanya sebesar 35,8%. Namun, dibandingkan dengan sebelumnya, tingkat akurasi telah meningkat pesat.
Di bawah konfigurasi terkuat yang menggunakan petunjuk CoT + alat eksternal, GPT-4 mencapai skor rata-rata 35,80% pada kumpulan data terbuka dan 51,57% pada kumpulan data tertutup.
Hasil ini menunjukkan bahwa GPT-4 memiliki potensi besar untuk peningkatan LLM di masa mendatang.
Untuk mendapatkan pemahaman yang komprehensif tentang keterbatasan LLM dalam pemecahan masalah ilmiah, para peneliti mengusulkan pendekatan "perbaikan diri" baru untuk menemukan kekurangan dalam jawaban yang dibuat oleh LLM.
Ini adalah "Perjanjian Evaluasi" sebagai berikut.
Secara khusus termasuk: dekomposisi logis dan keterampilan analitis; mengidentifikasi hipotesis; persepsi spasial; penalaran kausal; deduksi masalah; penalaran abstrak; literasi ilmiah; alih kode; penalaran logis; berhitung.
Tim kemudian menggunakan pendekatan evaluasi diri berbasis LLM untuk secara otomatis mengklasifikasikan keterampilan yang kurang dalam solusi yang dibuat oleh LLM dasar untuk setiap konfigurasi eksperimental.
Akhirnya, melalui analisis, ditemukan bahwa:
(1) Meskipun CoT secara signifikan meningkatkan daya komputasi, namun kurang efektif dalam aspek lain;
(2) Kiat menggunakan alat eksternal dapat merusak keterampilan penting lainnya;
(3) Pembelajaran dengan sedikit tembakan umumnya tidak meningkatkan pemecahan masalah secara ilmiah.
Singkatnya, hasil penelitian menunjukkan bahwa model bahasa skala besar saat ini masih lemah dalam kemampuan pemecahan masalah, dan dengan bantuan berbagai alat masih ada keterbatasan.
Referensi: