Bahkan tidak tahu bagaimana mengerjakan soal SMP, ChatGPT, Wenxin Yiyan, Claude menunjukkan kaki ayam?

Question

"Hasil yang saya hitung dengan beberapa model berbeda..."

Pada tanggal 14 Juli, sekelompok teman menggunakan AI untuk membantu menghitung soal matematika: berapa volume dalam mililiter platform bundar dengan tinggi 11cm, diameter bawah atas 7,8cm, dan diameter 6,2cm pada bagian bawah?

Netizen ini menggunakan Claude-2, GPT-4, dan ChatGPT, dan hasilnya adalah: 3634,57 ml, 359,4 ml, dan 469,3 ml.

Teman kelompok lain menggunakan kata-kata Wenxin untuk mendapatkan hasil 64474,666666666635 mililiter.

"Aku tidak bisa mengerjakan soal-soal SMP", "Orang baik, semuanya berbeda," komentar sekelompok teman dengan tergesa-gesa.

Saya juga mengujinya dengan ChatGPT karena penasaran, dan hasilnya 1436,08 ml.

Langkah perhitungan yang diberikan oleh ChatGPT benar sekali, rumus volume meja bundar = πh*(R^2+r^2+R*r)/3.

Namun, hasil perhitungannya salah.

Saya minta ChatGPT untuk menjawab lagi, dan hasilnya 513,47 ml.

Sungguh keterlaluan, langkah perhitungannya benar-benar benar, dan hasil akhirnya selalu berbeda.

Saya juga menggunakan "AI" yang disertakan dengan browser Baidu, yang merupakan model besar yang didukung oleh Wenxin Yiyan.

Hasil pertama adalah: 193522.10746113118 ml

Ini sangat salah, saya bertanya lagi dan mendapatkan hasilnya: 1168,75 ml

Masih kurang pas, saya tanya lagi dan hasilnya: 1099620ml

Setelah ditanyai berulang kali, Baidu AI tidak lagi dipasang, dan benar-benar rusak.

Sebelumnya dilaporkan bahwa GPT-4 mencetak nilai penuh dalam ujian gelar sarjana matematika MIT, dan kemudian terungkap bahwa sebagian besar kumpulan data uji telah terkontaminasi. Dengan kata lain, modelnya seperti siswa yang diberitahu jawabannya sebelum ujian, yang terang-terangan “curang”.

Sebelumnya juga dilaporkan bahwa ChatGPT terbalik saat mengikuti tes matematika ujian masuk perguruan tinggi China.

Model skala besar tidak diragukan lagi merupakan teknologi yang banyak dicari akhir-akhir ini. Namun, kasus terguling mobil yang sering terjadi tampaknya adalah apa yang dikatakan oleh Zhang Tianrong, mantan fisikawan dan penulis sains populer. Inti dari model bahasa adalah kemenangan probabilitas teori. "Mesin **, konverter membuat kelanjutan input yang masuk akal, dan tidak sulit untuk memahami lelucon omong kosong yang serius.

Jika model besar adalah kemenangan teori probabilitas, maka kebangkitan kecerdasan buatan masih jauh dari datang.

Lihat Asli