Sumber gambar: Dihasilkan oleh alat AI Tak Terbatas, model umum (potongan kertas)
Model bahasa besar memiliki kemampuan simulasi bahasa manusia yang sangat baik, tetapi para ilmuwan masih terbagi dalam kinerja inferensi mereka.
Pada tanggal 25 Juli, "Nature" menyatakan dalam sebuah artikel bahwa ChatGPT telah memecahkan uji Turing, dan inilah saatnya untuk mengaktifkan metode baru lainnya untuk mengevaluasi teknologi kecerdasan buatan.
Sistem kecerdasan buatan (AI) terkuat di dunia dapat lulus ujian yang ketat, menulis makalah yang meyakinkan, dan berpartisipasi dalam obrolan dengan lancar. Banyak orang bahkan tidak dapat membedakan antara AI dan manusia dalam hal ekspresi bahasa. Apakah ada yang tidak bisa mereka lakukan? Tentu saja ada, dan itu adalah pertanyaan yang sangat sederhana.
Serangkaian grafik berwarna cerah disusun di layar, dan kebanyakan orang dapat dengan cepat menemukan jawaban untuk jenis tes logika visual ini. Namun seiring berkembangnya teknologi di balik robot obrolan ChatGPT dan mesin pencari Bing, serta karya tertinggi AI saat ini, GPT-4 jelas tidak dapat melakukan apa yang diinginkannya. Sebuah studi pada bulan Mei tahun ini menunjukkan bahwa GPT-4 benar hanya sepertiga dari waktu pada satu jenis uji pola, dan hanya 3% pada yang lain.
Tim peneliti di balik teka-teki logika berharap tes ini akan memberikan tolok ukur yang lebih baik untuk sistem AI dan membantu mengatasi kekurangan yang melekat pada model bahasa besar seperti GPT-4. Singkatnya: dalam tes bahasa, model bahasa besar dengan mudah menyelesaikan prestasi kecerdasan yang pernah dianggap sebagai tonggak sejarah; tetapi dalam tes logika visual, kinerjanya cukup lemah, ada titik buta yang jelas, dan tidak dapat didasarkan pada abstraksi Konsep membuat kesimpulan.
"Praktisi di bidang AI bergulat dengan masalah sulit dalam mengevaluasi sistem model bahasa besar," kata Melanie Mitchell, seorang ilmuwan komputer di Santa Fe Research Institute di New Mexico. Untuk itu, timnya telah menyusun perangkat ini dari masalah logis.
Dalam dua atau tiga tahun terakhir, model bahasa besar telah benar-benar menghancurkan sistem AI sebelumnya dalam hal kemampuan multitasking lintas. Prinsip kerja mereka tidak rumit: Berdasarkan miliaran kalimat online yang telah mereka pelajari selama pelatihan, mereka meringkas korelasi statistik antara setiap kata, dan kemudian menghasilkan kata berikutnya yang masuk akal untuk teks masukan yang diberikan. Untuk chatbot yang dibangun di atas model bahasa besar, elemen tambahan ditambahkan: Pelatih manusia memberikan umpan balik yang ekstensif, sehingga menyempurnakan cara bot merespons.
Perlu dicatat bahwa algoritme yang dilatih pada kumpulan bahasa manusia yang sangat besar dengan properti yang mirip dengan pelengkapan otomatis telah berhasil menunjukkan berbagai kemampuan pemecahan masalah. Sementara sistem AI lama mungkin dapat mengalahkan model bahasa besar pada tugas tertentu, yang pertama harus dilatih dalam jumlah khusus masalah, dan kemampuan ini tidak dapat dengan cepat ditransfer dari satu tugas ke tugas lainnya.
Secara umum, para peneliti di kedua kubu ini memiliki pandangan yang bertentangan secara diametris tentang bagaimana model bahasa besar bekerja di bawah tenda, kata Tomer Ullman, seorang ilmuwan kognitif di Universitas Harvard. Beberapa mengaitkan pencapaian algoritme dengan penalaran atau pemahaman yang sebenarnya, tetapi yang lain (termasuk Ullman sendiri dan peneliti seperti Mitchell di atas) lebih berhati-hati.
Menurut Ullamn, “kedua sisi perdebatan ini brilian dan tingkat tinggi.” Akar penyebab ketidaksepakatan adalah kurangnya bukti kuat untuk mendukung pandangan masing-masing. "Lagipula, tidak ada detektor cerdas yang stabil dan andal seperti penghitung Geiger, yang dapat dengan jelas memberikan jawaban intelijen atau non-intelijen."
Para peneliti di kedua sisi diskusi mengatakan bahwa mengandalkan tes seperti pertanyaan logika untuk mengungkap perbedaan kemampuan antara manusia dan sistem AI harus menjadi langkah penting ke arah yang benar. Brenden Lake, seorang ilmuwan komputasi kognitif di Universitas New York, mengatakan tolok ukur semacam itu juga dapat membantu mengungkap kemampuan yang hilang dari sistem pembelajaran mesin saat ini, dan memperjelas terbuat dari apa sebenarnya kecerdasan manusia.
Selain itu, tes model bahasa besar dan penelitian kemampuan tolok ukur ini memiliki signifikansi praktis lainnya. Mitchell menunjukkan bahwa jika Anda ingin menerapkan model bahasa besar ke skenario dunia nyata seperti kedokteran dan hukum, Anda harus mengklarifikasi terlebih dahulu di mana letak batas kemampuannya. "Kita harus mencari tahu apa yang bisa dan tidak bisa dilakukan sebelum kita bisa menilai bagaimana menggunakannya dengan aman."
Apakah uji Turing sudah usang?
Di bidang kecerdasan mesin uji, skema yang paling terkenal adalah uji Turing. Tes ini diusulkan oleh matematikawan Inggris dan perintis komputer Alan Turing pada tahun 1950, ketika komputer masih dalam masa pertumbuhan. Turing mengusulkan metode evaluasi yang disebut "permainan imitasi". Dalam skenario ini, wasit manusia melakukan dialog teks singkat dengan komputer dan manusia yang tersembunyi di balik layar untuk melihat apakah ia dapat mengidentifikasi mesin dan manusia secara akurat. . Turing percaya bahwa ini harus menjawab pertanyaan "Apakah mesin memiliki kemampuan untuk berpikir?"
Mitchell menunjukkan bahwa Turing tidak merinci banyak detail tentang skenario tersebut, jadi tidak ada aturan pasti yang harus diikuti. Menurut François Chollet, seorang insinyur perangkat lunak di Google, "tes Turing bukanlah tes konkret yang benar-benar dapat dijalankan pada mesin—itu lebih merupakan eksperimen pikiran."
Namun pandangan tentang penggunaan bahasa untuk menguji apakah sebuah mesin memiliki kemampuan berpikir telah mengakar kuat di bidang teknologi. Selama beberapa dekade, pengusaha dan dermawan Hugh Loebner telah lama mendanai acara Tes Turing tahunan, yang dikenal sebagai Loebner Prize. Tetapi ilmuwan komputer Rob Wortham mengatakan kampanye tersebut berhenti setelah 2019 karena dana untuk kampanye tersebut habis setelah kematian Loebner sendiri. Wortham adalah salah satu direktur Masyarakat Inggris untuk Penelitian Kecerdasan Buatan dan Simulasi Perilaku, yang telah menyelenggarakan kompetisi atas nama Loebner sejak 2014. Dia menjelaskan bahwa model bahasa besar sekarang pada dasarnya memiliki kemampuan untuk menipu manusia, sehingga Penghargaan Loebner terpaksa dihentikan menjelang peluncuran penuh model bahasa besar, yang merupakan humor yang cukup hitam.
Peneliti lain juga percaya bahwa model bahasa besar seperti GPT-4 sudah memiliki kemampuan untuk lulus uji Turing. Setidaknya dalam percakapan singkat, mungkin sulit bagi kebanyakan orang untuk mengetahui siapa manusia dan siapa model besar. Pada bulan Mei, para peneliti di lab AI21 di Tel Aviv, Israel, melaporkan bahwa lebih dari 1,5 juta orang telah memainkan game online berdasarkan tes Turing. Pengguna akan terlibat dalam obrolan dua menit dengan pengguna lain atau model bahasa besar yang menyamar sebagai orang sungguhan berdasarkan petunjuk dari para peneliti. Kemungkinan pemain mengidentifikasi robot dengan benar hanya 60%, yang hampir sama dengan tebakan acak sepenuhnya3.
Namun, peneliti yang lebih akrab dengan model bahasa besar masih dapat membedakan chatbot dari berbagai detail. Chollet mencatat bahwa dia menemukan bahwa mudah untuk mendeteksi siapa model bahasa besar hanya dengan mengeksploitasi kelemahan sistem yang diketahui. "Jika saya menguji diri saya untuk melihat apakah saya berbicara dengan model bahasa besar, saya pasti akan mendapatkan jawaban yang benar."
Kuncinya adalah membiarkan model bahasa besar keluar dari zona nyamannya. Triknya adalah mengusulkan skenario pembeda ke model bahasa besar daripada skenario pelatihan umum. Dalam kebanyakan kasus, model bahasa besar mengeluarkan kata yang paling mungkin berdasarkan data pelatihan, daripada benar-benar memberikan jawaban yang benar sesuai dengan adegan baru.
Selain itu, Chollet et al skeptis terhadap metode pengujian ini berdasarkan kinerja yang menipu. "Ini jelas ada untuk menipu wasit manusia." Tes semacam itu hanya akan mendorong pengembang untuk menanamkan lebih banyak keterampilan kamuflase ke dalam AI, dan tidak akan menginspirasi fungsi yang lebih berguna atau menarik.
Tolok ukur tidak dapat diandalkan
Peneliti sering mengevaluasi sistem AI dengan tolok ukur yang menilai kemampuan tertentu, seperti bahasa, penalaran akal sehat, dan matematika, dan tim teknologi semakin mengadopsi ujian akademik dan profesional yang dirancang untuk manusia.
Ketika GPT-4 pertama kali dirilis pada bulan Maret, perusahaan OpenAI yang berbasis di San Francisco, California mengevaluasi kinerja model baru pada serangkaian tolok ukur yang dirancang untuk mesin, termasuk pemahaman membaca, matematika, dan pengkodean. Seperti dilansir OpenAI, GPT-4 bekerja dengan baik pada sebagian besar pengujian4. Mereka juga menetapkan sekitar 30 ujian untuk GPT-4, termasuk: berbagai ujian untuk siswa sekolah menengah Amerika, yang dikenal sebagai Penempatan Lanjutan; ujian untuk menilai pengetahuan klinis dokter Amerika; dan kriteria yang digunakan dalam proses seleksi lulusan Amerika tes siswa (GRE). GPT-4 berhasil mendapat skor 10% teratas di Uniform Bar Examination (yang termasuk dalam ujian pengacara di beberapa negara bagian AS).
Performa Sistem AI - Kutipan dari Hasil
Sumber: OpenAI/ Referensi 4
Persentil peringkat di sini adalah posisi calon manusia yang telah mencapai skor ini di antara semua subjek.
Mitchell mengakui bahwa "beberapa model bahasa bekerja dengan baik pada tolok ukur ini. Tetapi dalam banyak kasus, itu bukan karena mereka mengungguli manusia dalam kemampuan umum, tetapi tolok ukur itu sendiri memiliki keterbatasan." model dilatih pada sejumlah besar materi teks, kemungkinan besar masalah serupa telah terlihat pada data pelatihan. Tolok ukur kesimpulan yang ditarik dalam situasi ini disebut "polusi" dan jelas tidak kredibel.
OpenAI mengatakan mereka memeriksa ini dengan mencari string serupa dalam masalah dan data pelatihan. Menguji model bahasa besar sebelum dan sesudah menghapus string serupa menunjukkan sedikit perubahan dalam performa. Ini menunjukkan bahwa skor yang sangat tinggi tidak ada hubungannya dengan polusi, tetapi beberapa peneliti mempertanyakan apakah tes tersebut cukup ketat.
Sam Bowman adalah ilmuwan teknologi bahasa di New York University yang juga bekerja di Anthropic, sebuah perusahaan AI di San Francisco. Dia memperingatkan agar tidak mengambil nilai tes GPT-4 sebagai hasil dari "melihat masalah serupa" dan menyangkal kemampuan GPT-4. Dalam pandangannya, "pembicaraan tentang polusi sedikit memperumit situasi, tetapi menurut saya itu tidak benar-benar memengaruhi gambaran yang lebih besar."
Para peneliti juga menunjukkan bahwa kemampuan model bahasa besar untuk mendapatkan nilai ujian yang tinggi juga relatif rapuh, dan mungkin tidak dapat diubah menjadi kemampuan membuat penilaian yang benar di dunia nyata. Menurut Mitchell, hanya sedikit mengutak-atik soal ujian dapat membuat model besar tidak dapat diterima. Misalnya, dia mengambil pertanyaan dari ujian MBA yang lulus ChatGPT dan sedikit mengubahnya.Manusia dapat dengan mudah menyesuaikan jawaban sesuai dengan perubahan tersebut, tetapi ChatGPT gagal total.
Ada masalah lain yang lebih dalam ketika menguraikan implikasi pembandingan. Bagi manusia, skor tinggi dalam tes ini umumnya mewakili tingkat kecerdasan yang kuat-sebenarnya, tingkat kecerdasan itu sendiri juga merupakan konsep yang tidak jelas, terutama tercermin dalam kemampuan beradaptasi dengan lingkungan berbeda yang diperlihatkan dalam serangkaian tugas. Dengan kata lain, skor yang tinggi pada sebuah tes menunjukkan bahwa orang tersebut memiliki kemampuan kognitif yang baik dan menguasai konsep abstrak tertentu dengan baik. Tapi ini tidak berlaku untuk model bahasa besar. Mitchell menekankan bahwa metode penilaian model besar sangat berbeda dari manusia."Dalam kebanyakan kasus, sistem AI tidak melakukan penalaran dengan cara yang biasa dilakukan manusia."
Ini mungkin karena model bahasa besar hanya dapat belajar dari pengalaman bahasa; karena kurangnya saluran untuk terhubung dengan dunia nyata, mereka tidak dapat mengalami hubungan antara bahasa dan objek, atribut, dan emosi seperti manusia. "Jelas bahwa mereka tidak memahami kata-kata seperti manusia," kata Lake. Dalam pandangannya, bukti saat ini menunjukkan bahwa model bahasa besar "dapat menggunakan bahasa dengan sangat lancar tanpa benar-benar memahami apa yang mereka katakan."
Di sisi lain, model bahasa besar juga menunjukkan beberapa kemampuan yang tidak dimiliki manusia, seperti memahami hubungan antara hampir setiap kata yang ditulis manusia. Mitchell mengatakan ini mungkin berarti bahwa model mengandalkan karakteristik bahasa tertentu atau indikator lain untuk menyelesaikan masalah, tanpa perlu memahami kemampuan penalaran yang lebih luas.
Nick Ryder, seorang peneliti di OpenAI, setuju dengan penilaian ini, mengatakan bahwa kinerja AI pada satu tes saja tidak cukup untuk membuktikan kemampuannya secara umum seperti subjek manusia. "Saya tidak berpikir orang harus secara langsung membandingkan skor manusia dengan skor model bahasa besar." Skor yang dirilis oleh OpenAI "tidak menggambarkan kemampuan seperti manusia atau tingkat penalaran seperti manusia dari model bahasa besar, tetapi hanya menunjukkan bahwa model ini bekerja dengan baik. kinerja pada tugas-tugas ini."
Selain tolok ukur mesin tradisional dan ujian profesional manusia, para peneliti juga mengeksplorasi model bahasa besar secara lebih luas. Pada bulan Maret tahun ini, Sébastien Bubeck dari Microsoft Research dan rekan-rekannya merilis versi pra-publikasi 5 berjudul "Spark of General Artificial Intelligence: Eksperimen Awal GPT-4", yang memicu diskusi hangat di industri. Menggunakan versi awal GPT-4, mereka mendokumentasikan serangkaian fitur yang mengejutkan, banyak di antaranya tidak secara langsung atau eksplisit terkait dengan bahasa. Salah satu fitur penting adalah lulus tes yang digunakan untuk mengevaluasi teori-teori psikologi. Teori psikologi adalah kemampuan inti manusia untuk memprediksi dan menalar tentang keadaan mental orang lain. “Mengingat luas dan dalamnya kemampuan GPT-4, kami memiliki alasan untuk percaya bahwa itu sudah mewakili versi awal (namun belum sempurna) dari sistem kecerdasan umum buatan (AGI),” tulis mereka di koran.
Tetapi Bubeck sendiri kemudian mengklarifikasi, menekankan bahwa "GPT-4 jelas tidak berpikir seperti manusia, dan ia memiliki caranya sendiri yang unik dan berbeda dalam mengimplementasikan fungsi apa pun yang diperlihatkannya."
Mitchell percaya bahwa meskipun laporan tersebut cukup radikal, namun tidak secara sistematis mengeksplorasi kemampuan model bahasa besar. “Ini lebih seperti studi antropologi.” Ullman juga mengatakan bahwa untuk membuktikan bahwa mesin dapat menguasai teori-teori psikologi, setidaknya mereka harus memberikan bukti proses kognitif mendasar yang sesuai, daripada hanya mengandalkan mesin untuk menghasilkan jawaban yang sama. sebagai manusia Penegasan kasar.
Peneliti AI percaya bahwa pengawasan yang lebih luas dan lebih ketat diperlukan untuk memahami kekuatan dan kelemahan model bahasa besar. Masalah logika warna mungkin menjadi bagian penting darinya.
Teka-teki Segar
Pada tahun 2019, tepat sebelum ledakan model bahasa besar, Chollet merilis kumpulan tes logis baru yang disusun khusus untuk sistem AI di Internet, yang disebut Abstract and Reasoning Corpus (ARC). Pemecah disajikan dengan demonstrasi visual di mana beberapa kotak persegi berubah menjadi pola lain, yang menginstruksikan kotak berikutnya bagaimana mengubah untuk menunjukkan bahwa mereka telah memahami aturan perubahan. "Ini adalah ujian kemampuan kita untuk beradaptasi dengan hal-hal yang belum pernah kita lihat sebelumnya," kata Chollet, yang percaya bahwa kemampuan untuk menemukan pola adalah inti dari kecerdasan.
Menurut Lake, ARC menangkap "ciri kecerdasan manusia": mengabstraksi dari pengetahuan sehari-hari dan menerapkannya pada masalah yang belum pernah terlihat sebelumnya.
Chollet menyelenggarakan kompetisi robotika ARC pada tahun 2020, sebelum model bahasa besar mendapatkan daya tarik yang luas. Sistem AI yang menang secara khusus dilatih untuk menjadi ahli dalam tugas-tugas seperti ARC. Namun tidak seperti model bahasa besar, model ini tidak memiliki fungsi umum, dan hanya menjawab 21% pertanyaan dengan benar. Sebagai perbandingan, manusia memecahkan masalah ARC dengan benar 80% dari waktu7. Beberapa tim peneliti saat ini menggunakan ARC untuk menguji kemampuan model bahasa besar, dan tidak ada yang mendekati kinerja manusia.
Mitchell dan rekannya mengembangkan satu set teka-teki baru (disebut ConceptARC) yang terinspirasi oleh ARC, dengan dua perbedaan utama. ConceptARC bahkan lebih mudah: tim Mitchell menginginkan tolok ukur untuk mencerminkan kemajuan dalam kemampuan alat berat, meskipun hanya sedikit. Kedua, tim memilih konsep khusus untuk diuji dan kemudian membuat serangkaian variasi teka-teki terkait tema di sekitar setiap konsep.
Sebagai contoh, untuk menguji konsep identitas, satu soal mengharuskan pemecah untuk menahan benda-benda dengan bentuk yang sama di tempatnya, dan soal lain mensyaratkan pemecah untuk menyelaraskan benda-benda dengan bentuk yang sama di sepanjang sumbu. Idenya adalah untuk mengurangi kemungkinan sistem AI lulus ujian tanpa memahami konsepnya.
Apa yang dimaksud dengan kinerja buruk?
Para peneliti merilis tugas ConceptARC ke GPT-4 dan merekrut 400 subjek. Manusia mencetak rata-rata 91% di semua kelompok konsep (97% untuk kelompok skor tertinggi); 33% untuk kelompok GPT-4 skor tertinggi, dan tidak lebih dari 30% untuk kelompok konsep yang tersisa.
"Kami menunjukkan bahwa mesin itu masih jauh dari kecerdasan manusia," kata Mitchell, "Tapi yang mengejutkan, ia mampu memecahkan beberapa masalah ini meskipun tidak pernah dilatih untuk itu."
Tim juga menguji robot yang memenangkan kompetisi Chollet, yang bukan merupakan sistem berkemampuan umum seperti model bahasa besar, tetapi dilatih secara khusus untuk masalah penglihatan seperti ARC. Secara keseluruhan, kinerja mereka lebih baik daripada GPT-4, tetapi masih kalah dengan manusia, dengan skor 77% pada kelompok konsep terbaik tetapi di bawah 60% pada sebagian besar kelompok konsep1.
Namun, Bowman yakin bahwa kegagalan GPT-4 untuk lulus pelatihan ConceptARC tidak membuktikan bahwa GPT-4 tidak memiliki potensi kemampuan penalaran abstrak. Dalam pandangannya, ada bias antara ConceptARC dan GPT-4, yang merupakan tes visual. "Bahkan jika model ini benar-benar bagus dalam penalaran konseptual semacam ini, kecil kemungkinannya mereka akan mendapat skor bagus pada tes semacam itu untuk pertama kalinya."
Keterbatasan metode pengujian juga dapat menjadi faktor yang mempengaruhi kinerja GPT-4 yang buruk. Versi publik dari Model Bahasa Besar hanya dapat menerima masukan teks, sehingga para peneliti mengirimkan susunan angka yang menjelaskan gambar. (Misalnya, piksel kosong mungkin diwakili oleh 0, dan kotak berwarna mungkin diwakili oleh angka yang sesuai.) Sebaliknya, subjek manusia dapat melihat gambar secara langsung. Mitchell juga mengakui, "Kami membandingkan sistem bahasa murni dengan manusia, dan manusia memiliki sistem visual yang sangat berkembang, jadi saya khawatir perbandingannya tidak sepenuhnya adil."
OpenAI telah membangun versi "multimodal" dari GPT-4 yang dapat menerima input gambar secara langsung. Tim Mitchell sedang menunggu teknologi tersebut diungkapkan secara resmi sehingga dapat melakukan putaran lain dari ConceptARC. Namun menurutnya GPT-4 multimodal tidak jauh lebih baik, "Menurut saya sistem ini masih memiliki tingkat abstraksi dan penalaran yang sebanding dengan manusia."
Sam Acquaviva, seorang ilmuwan kognitif komputasi di Massachusetts Institute of Technology, setuju, dan polanya terbatas pada satu baris, bukan grid8. Ini seharusnya menghilangkan beberapa masalah ketidakadilan, tetapi Acquaviva melihat bahwa meskipun kinerja GPT-4 telah meningkat, itu juga tidak cukup untuk menunjukkan pemahaman dan penalaran aturan yang andal untuk model bahasa besar.
argumen penalaran
Bowman juga menyebutkan beberapa percobaan lain, menurut hasil yang komprehensif, model bahasa besar setidaknya telah menguasai kemampuan dasar penalaran tentang konsep-konsep abstrak. Dalam satu kasus, ilmuwan komputer Harvard Kenneth Li dan rekan-rekannya menggunakan versi digital Reversi, di mana pemain menempatkan bidak hitam dan putih pada petak berukuran 8 x 8. Mereka berharap dapat menilai apakah model bahasa besar mengandalkan hubungan statistik linguistik yang dihafalkan untuk menghasilkan teks, atau apakah mereka benar-benar dapat membangun representasi internal dari fenomena seperti manusia.
Setelah mengirimkan serangkaian tindakan pemain manusia ke model bahasa besar, AI dengan cepat menguasai kemampuan untuk memilih strategi yang tepat untuk langkah selanjutnya. Para peneliti percaya bahwa ini menunjukkan bahwa model bahasa besar bahkan dapat memahami situasi di papan catur dan memberikan saran untuk gerakan catur berdasarkan fitur saat ini, yang jelas menerobos batasan bentuk teks9.
Bowman mengakui bahwa kemampuan penalaran model bahasa besar dapat digambarkan sebagai "beragam" secara umum, dan tidak mencapai puncak penalaran manusia. Tapi menurutnya kemampuan penalaran memang ada, dan tampaknya meningkat dengan ukuran model. Dengan kata lain, model bahasa besar di masa depan akan bekerja lebih baik dan lebih baik lagi. "Sistem ini tidak dapat diandalkan atau umum seperti yang kita inginkan, dan mereka benar-benar bingung tentang jenis penalaran abstrak tertentu. Tapi saya pikir kemampuan penalaran mendasar mereka memang ada secara objektif."
Peneliti seperti Bowman dan Mitchell juga setuju bahwa cara yang lebih baik untuk menguji model bahasa besar untuk penalaran abstrak dan indikator kecerdasan lainnya tetap menjadi pertanyaan terbuka. Michael Frank, seorang ilmuwan kognitif di Universitas Stanford, percaya bahwa tidak ada satu pun tes yang mencakup semuanya yang dapat sepenuhnya menggantikan tes Turing. Sebaliknya, dia berpendapat bahwa para peneliti perlu menyusun tes ekstensif untuk mengukur kekuatan dan kelemahan berbagai sistem. "Agen-agen ini hebat, mereka memiliki kelemahan dalam banyak hal, jadi yang paling penting adalah menjelajahinya secara sistematis."
Wortham menyarankan mereka yang baru mengenal sistem AI untuk menghindari obsesi dengan antropomorfisme. "Kami selalu berusaha memahami apapun yang menunjukkan kecerdasan sebagai manusia, yang sebenarnya tidak perlu."
"Itu bahkan terkutuk, artinya kita tidak bisa membayangkan bentuk kecerdasan apa pun yang menunjukkan orientasi tujuan yang jelas selain milik kita. Kita selalu berharap bahwa kecerdasan itu melakukannya dengan cara berpikir mendalam yang sama seperti kita."
referensi:
Moskvichev, A., Odouard, VV & Mitchell, M. Pracetak di (2023).
Turing, AM Mind LIX, 433–460 (1950).
Artikel Google Cendekia
Jannai , D. , Meron , A. , Lenz , B. , Levine , Y. & Shoham , Y. Pracetak di (2023).
OpenAI. Pracetak di (2023).
Bubeck, S. et al. Pracetak di (2023).
Chollet, F. Pracetak di (2019).
Johnson, A., Vong, WK, Lake, BM & Gureckis, TM Pracetak di (2021).
Xu , Y. , Li , W. , Vaezipoor , P. , Sanner . S. & Khalil, EB Pracetak di (2023).
Li, K. et al. Proses Int kesebelas. Konf. Mempelajari. Mewakili. (2023).
Tautan Asli:
Lihat Asli
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
ChatGPT mematahkan uji Turing, saatnya menemukan cara baru untuk mengevaluasi teknologi AI
**Sumber:**AI Frontline
** penulis | Celeste Biever**
Penerjemah|Nucle-Cola
Perencanaan|Dongmei
Model bahasa besar memiliki kemampuan simulasi bahasa manusia yang sangat baik, tetapi para ilmuwan masih terbagi dalam kinerja inferensi mereka.
Pada tanggal 25 Juli, "Nature" menyatakan dalam sebuah artikel bahwa ChatGPT telah memecahkan uji Turing, dan inilah saatnya untuk mengaktifkan metode baru lainnya untuk mengevaluasi teknologi kecerdasan buatan.
Sistem kecerdasan buatan (AI) terkuat di dunia dapat lulus ujian yang ketat, menulis makalah yang meyakinkan, dan berpartisipasi dalam obrolan dengan lancar. Banyak orang bahkan tidak dapat membedakan antara AI dan manusia dalam hal ekspresi bahasa. Apakah ada yang tidak bisa mereka lakukan? Tentu saja ada, dan itu adalah pertanyaan yang sangat sederhana.
Tim peneliti di balik teka-teki logika berharap tes ini akan memberikan tolok ukur yang lebih baik untuk sistem AI dan membantu mengatasi kekurangan yang melekat pada model bahasa besar seperti GPT-4. Singkatnya: dalam tes bahasa, model bahasa besar dengan mudah menyelesaikan prestasi kecerdasan yang pernah dianggap sebagai tonggak sejarah; tetapi dalam tes logika visual, kinerjanya cukup lemah, ada titik buta yang jelas, dan tidak dapat didasarkan pada abstraksi Konsep membuat kesimpulan.
"Praktisi di bidang AI bergulat dengan masalah sulit dalam mengevaluasi sistem model bahasa besar," kata Melanie Mitchell, seorang ilmuwan komputer di Santa Fe Research Institute di New Mexico. Untuk itu, timnya telah menyusun perangkat ini dari masalah logis.
Dalam dua atau tiga tahun terakhir, model bahasa besar telah benar-benar menghancurkan sistem AI sebelumnya dalam hal kemampuan multitasking lintas. Prinsip kerja mereka tidak rumit: Berdasarkan miliaran kalimat online yang telah mereka pelajari selama pelatihan, mereka meringkas korelasi statistik antara setiap kata, dan kemudian menghasilkan kata berikutnya yang masuk akal untuk teks masukan yang diberikan. Untuk chatbot yang dibangun di atas model bahasa besar, elemen tambahan ditambahkan: Pelatih manusia memberikan umpan balik yang ekstensif, sehingga menyempurnakan cara bot merespons.
Perlu dicatat bahwa algoritme yang dilatih pada kumpulan bahasa manusia yang sangat besar dengan properti yang mirip dengan pelengkapan otomatis telah berhasil menunjukkan berbagai kemampuan pemecahan masalah. Sementara sistem AI lama mungkin dapat mengalahkan model bahasa besar pada tugas tertentu, yang pertama harus dilatih dalam jumlah khusus masalah, dan kemampuan ini tidak dapat dengan cepat ditransfer dari satu tugas ke tugas lainnya.
Secara umum, para peneliti di kedua kubu ini memiliki pandangan yang bertentangan secara diametris tentang bagaimana model bahasa besar bekerja di bawah tenda, kata Tomer Ullman, seorang ilmuwan kognitif di Universitas Harvard. Beberapa mengaitkan pencapaian algoritme dengan penalaran atau pemahaman yang sebenarnya, tetapi yang lain (termasuk Ullman sendiri dan peneliti seperti Mitchell di atas) lebih berhati-hati.
Menurut Ullamn, “kedua sisi perdebatan ini brilian dan tingkat tinggi.” Akar penyebab ketidaksepakatan adalah kurangnya bukti kuat untuk mendukung pandangan masing-masing. "Lagipula, tidak ada detektor cerdas yang stabil dan andal seperti penghitung Geiger, yang dapat dengan jelas memberikan jawaban intelijen atau non-intelijen."
Para peneliti di kedua sisi diskusi mengatakan bahwa mengandalkan tes seperti pertanyaan logika untuk mengungkap perbedaan kemampuan antara manusia dan sistem AI harus menjadi langkah penting ke arah yang benar. Brenden Lake, seorang ilmuwan komputasi kognitif di Universitas New York, mengatakan tolok ukur semacam itu juga dapat membantu mengungkap kemampuan yang hilang dari sistem pembelajaran mesin saat ini, dan memperjelas terbuat dari apa sebenarnya kecerdasan manusia.
Selain itu, tes model bahasa besar dan penelitian kemampuan tolok ukur ini memiliki signifikansi praktis lainnya. Mitchell menunjukkan bahwa jika Anda ingin menerapkan model bahasa besar ke skenario dunia nyata seperti kedokteran dan hukum, Anda harus mengklarifikasi terlebih dahulu di mana letak batas kemampuannya. "Kita harus mencari tahu apa yang bisa dan tidak bisa dilakukan sebelum kita bisa menilai bagaimana menggunakannya dengan aman."
Apakah uji Turing sudah usang?
Di bidang kecerdasan mesin uji, skema yang paling terkenal adalah uji Turing. Tes ini diusulkan oleh matematikawan Inggris dan perintis komputer Alan Turing pada tahun 1950, ketika komputer masih dalam masa pertumbuhan. Turing mengusulkan metode evaluasi yang disebut "permainan imitasi". Dalam skenario ini, wasit manusia melakukan dialog teks singkat dengan komputer dan manusia yang tersembunyi di balik layar untuk melihat apakah ia dapat mengidentifikasi mesin dan manusia secara akurat. . Turing percaya bahwa ini harus menjawab pertanyaan "Apakah mesin memiliki kemampuan untuk berpikir?"
Mitchell menunjukkan bahwa Turing tidak merinci banyak detail tentang skenario tersebut, jadi tidak ada aturan pasti yang harus diikuti. Menurut François Chollet, seorang insinyur perangkat lunak di Google, "tes Turing bukanlah tes konkret yang benar-benar dapat dijalankan pada mesin—itu lebih merupakan eksperimen pikiran."
Namun pandangan tentang penggunaan bahasa untuk menguji apakah sebuah mesin memiliki kemampuan berpikir telah mengakar kuat di bidang teknologi. Selama beberapa dekade, pengusaha dan dermawan Hugh Loebner telah lama mendanai acara Tes Turing tahunan, yang dikenal sebagai Loebner Prize. Tetapi ilmuwan komputer Rob Wortham mengatakan kampanye tersebut berhenti setelah 2019 karena dana untuk kampanye tersebut habis setelah kematian Loebner sendiri. Wortham adalah salah satu direktur Masyarakat Inggris untuk Penelitian Kecerdasan Buatan dan Simulasi Perilaku, yang telah menyelenggarakan kompetisi atas nama Loebner sejak 2014. Dia menjelaskan bahwa model bahasa besar sekarang pada dasarnya memiliki kemampuan untuk menipu manusia, sehingga Penghargaan Loebner terpaksa dihentikan menjelang peluncuran penuh model bahasa besar, yang merupakan humor yang cukup hitam.
Peneliti lain juga percaya bahwa model bahasa besar seperti GPT-4 sudah memiliki kemampuan untuk lulus uji Turing. Setidaknya dalam percakapan singkat, mungkin sulit bagi kebanyakan orang untuk mengetahui siapa manusia dan siapa model besar. Pada bulan Mei, para peneliti di lab AI21 di Tel Aviv, Israel, melaporkan bahwa lebih dari 1,5 juta orang telah memainkan game online berdasarkan tes Turing. Pengguna akan terlibat dalam obrolan dua menit dengan pengguna lain atau model bahasa besar yang menyamar sebagai orang sungguhan berdasarkan petunjuk dari para peneliti. Kemungkinan pemain mengidentifikasi robot dengan benar hanya 60%, yang hampir sama dengan tebakan acak sepenuhnya3.
Namun, peneliti yang lebih akrab dengan model bahasa besar masih dapat membedakan chatbot dari berbagai detail. Chollet mencatat bahwa dia menemukan bahwa mudah untuk mendeteksi siapa model bahasa besar hanya dengan mengeksploitasi kelemahan sistem yang diketahui. "Jika saya menguji diri saya untuk melihat apakah saya berbicara dengan model bahasa besar, saya pasti akan mendapatkan jawaban yang benar."
Kuncinya adalah membiarkan model bahasa besar keluar dari zona nyamannya. Triknya adalah mengusulkan skenario pembeda ke model bahasa besar daripada skenario pelatihan umum. Dalam kebanyakan kasus, model bahasa besar mengeluarkan kata yang paling mungkin berdasarkan data pelatihan, daripada benar-benar memberikan jawaban yang benar sesuai dengan adegan baru.
Selain itu, Chollet et al skeptis terhadap metode pengujian ini berdasarkan kinerja yang menipu. "Ini jelas ada untuk menipu wasit manusia." Tes semacam itu hanya akan mendorong pengembang untuk menanamkan lebih banyak keterampilan kamuflase ke dalam AI, dan tidak akan menginspirasi fungsi yang lebih berguna atau menarik.
Tolok ukur tidak dapat diandalkan
Peneliti sering mengevaluasi sistem AI dengan tolok ukur yang menilai kemampuan tertentu, seperti bahasa, penalaran akal sehat, dan matematika, dan tim teknologi semakin mengadopsi ujian akademik dan profesional yang dirancang untuk manusia.
Ketika GPT-4 pertama kali dirilis pada bulan Maret, perusahaan OpenAI yang berbasis di San Francisco, California mengevaluasi kinerja model baru pada serangkaian tolok ukur yang dirancang untuk mesin, termasuk pemahaman membaca, matematika, dan pengkodean. Seperti dilansir OpenAI, GPT-4 bekerja dengan baik pada sebagian besar pengujian4. Mereka juga menetapkan sekitar 30 ujian untuk GPT-4, termasuk: berbagai ujian untuk siswa sekolah menengah Amerika, yang dikenal sebagai Penempatan Lanjutan; ujian untuk menilai pengetahuan klinis dokter Amerika; dan kriteria yang digunakan dalam proses seleksi lulusan Amerika tes siswa (GRE). GPT-4 berhasil mendapat skor 10% teratas di Uniform Bar Examination (yang termasuk dalam ujian pengacara di beberapa negara bagian AS).
Performa Sistem AI - Kutipan dari Hasil
Persentil peringkat di sini adalah posisi calon manusia yang telah mencapai skor ini di antara semua subjek.
Mitchell mengakui bahwa "beberapa model bahasa bekerja dengan baik pada tolok ukur ini. Tetapi dalam banyak kasus, itu bukan karena mereka mengungguli manusia dalam kemampuan umum, tetapi tolok ukur itu sendiri memiliki keterbatasan." model dilatih pada sejumlah besar materi teks, kemungkinan besar masalah serupa telah terlihat pada data pelatihan. Tolok ukur kesimpulan yang ditarik dalam situasi ini disebut "polusi" dan jelas tidak kredibel.
OpenAI mengatakan mereka memeriksa ini dengan mencari string serupa dalam masalah dan data pelatihan. Menguji model bahasa besar sebelum dan sesudah menghapus string serupa menunjukkan sedikit perubahan dalam performa. Ini menunjukkan bahwa skor yang sangat tinggi tidak ada hubungannya dengan polusi, tetapi beberapa peneliti mempertanyakan apakah tes tersebut cukup ketat.
Sam Bowman adalah ilmuwan teknologi bahasa di New York University yang juga bekerja di Anthropic, sebuah perusahaan AI di San Francisco. Dia memperingatkan agar tidak mengambil nilai tes GPT-4 sebagai hasil dari "melihat masalah serupa" dan menyangkal kemampuan GPT-4. Dalam pandangannya, "pembicaraan tentang polusi sedikit memperumit situasi, tetapi menurut saya itu tidak benar-benar memengaruhi gambaran yang lebih besar."
Para peneliti juga menunjukkan bahwa kemampuan model bahasa besar untuk mendapatkan nilai ujian yang tinggi juga relatif rapuh, dan mungkin tidak dapat diubah menjadi kemampuan membuat penilaian yang benar di dunia nyata. Menurut Mitchell, hanya sedikit mengutak-atik soal ujian dapat membuat model besar tidak dapat diterima. Misalnya, dia mengambil pertanyaan dari ujian MBA yang lulus ChatGPT dan sedikit mengubahnya.Manusia dapat dengan mudah menyesuaikan jawaban sesuai dengan perubahan tersebut, tetapi ChatGPT gagal total.
Ada masalah lain yang lebih dalam ketika menguraikan implikasi pembandingan. Bagi manusia, skor tinggi dalam tes ini umumnya mewakili tingkat kecerdasan yang kuat-sebenarnya, tingkat kecerdasan itu sendiri juga merupakan konsep yang tidak jelas, terutama tercermin dalam kemampuan beradaptasi dengan lingkungan berbeda yang diperlihatkan dalam serangkaian tugas. Dengan kata lain, skor yang tinggi pada sebuah tes menunjukkan bahwa orang tersebut memiliki kemampuan kognitif yang baik dan menguasai konsep abstrak tertentu dengan baik. Tapi ini tidak berlaku untuk model bahasa besar. Mitchell menekankan bahwa metode penilaian model besar sangat berbeda dari manusia."Dalam kebanyakan kasus, sistem AI tidak melakukan penalaran dengan cara yang biasa dilakukan manusia."
Ini mungkin karena model bahasa besar hanya dapat belajar dari pengalaman bahasa; karena kurangnya saluran untuk terhubung dengan dunia nyata, mereka tidak dapat mengalami hubungan antara bahasa dan objek, atribut, dan emosi seperti manusia. "Jelas bahwa mereka tidak memahami kata-kata seperti manusia," kata Lake. Dalam pandangannya, bukti saat ini menunjukkan bahwa model bahasa besar "dapat menggunakan bahasa dengan sangat lancar tanpa benar-benar memahami apa yang mereka katakan."
Di sisi lain, model bahasa besar juga menunjukkan beberapa kemampuan yang tidak dimiliki manusia, seperti memahami hubungan antara hampir setiap kata yang ditulis manusia. Mitchell mengatakan ini mungkin berarti bahwa model mengandalkan karakteristik bahasa tertentu atau indikator lain untuk menyelesaikan masalah, tanpa perlu memahami kemampuan penalaran yang lebih luas.
Nick Ryder, seorang peneliti di OpenAI, setuju dengan penilaian ini, mengatakan bahwa kinerja AI pada satu tes saja tidak cukup untuk membuktikan kemampuannya secara umum seperti subjek manusia. "Saya tidak berpikir orang harus secara langsung membandingkan skor manusia dengan skor model bahasa besar." Skor yang dirilis oleh OpenAI "tidak menggambarkan kemampuan seperti manusia atau tingkat penalaran seperti manusia dari model bahasa besar, tetapi hanya menunjukkan bahwa model ini bekerja dengan baik. kinerja pada tugas-tugas ini."
Selain tolok ukur mesin tradisional dan ujian profesional manusia, para peneliti juga mengeksplorasi model bahasa besar secara lebih luas. Pada bulan Maret tahun ini, Sébastien Bubeck dari Microsoft Research dan rekan-rekannya merilis versi pra-publikasi 5 berjudul "Spark of General Artificial Intelligence: Eksperimen Awal GPT-4", yang memicu diskusi hangat di industri. Menggunakan versi awal GPT-4, mereka mendokumentasikan serangkaian fitur yang mengejutkan, banyak di antaranya tidak secara langsung atau eksplisit terkait dengan bahasa. Salah satu fitur penting adalah lulus tes yang digunakan untuk mengevaluasi teori-teori psikologi. Teori psikologi adalah kemampuan inti manusia untuk memprediksi dan menalar tentang keadaan mental orang lain. “Mengingat luas dan dalamnya kemampuan GPT-4, kami memiliki alasan untuk percaya bahwa itu sudah mewakili versi awal (namun belum sempurna) dari sistem kecerdasan umum buatan (AGI),” tulis mereka di koran.
Tetapi Bubeck sendiri kemudian mengklarifikasi, menekankan bahwa "GPT-4 jelas tidak berpikir seperti manusia, dan ia memiliki caranya sendiri yang unik dan berbeda dalam mengimplementasikan fungsi apa pun yang diperlihatkannya."
Mitchell percaya bahwa meskipun laporan tersebut cukup radikal, namun tidak secara sistematis mengeksplorasi kemampuan model bahasa besar. “Ini lebih seperti studi antropologi.” Ullman juga mengatakan bahwa untuk membuktikan bahwa mesin dapat menguasai teori-teori psikologi, setidaknya mereka harus memberikan bukti proses kognitif mendasar yang sesuai, daripada hanya mengandalkan mesin untuk menghasilkan jawaban yang sama. sebagai manusia Penegasan kasar.
Peneliti AI percaya bahwa pengawasan yang lebih luas dan lebih ketat diperlukan untuk memahami kekuatan dan kelemahan model bahasa besar. Masalah logika warna mungkin menjadi bagian penting darinya.
Teka-teki Segar
Pada tahun 2019, tepat sebelum ledakan model bahasa besar, Chollet merilis kumpulan tes logis baru yang disusun khusus untuk sistem AI di Internet, yang disebut Abstract and Reasoning Corpus (ARC). Pemecah disajikan dengan demonstrasi visual di mana beberapa kotak persegi berubah menjadi pola lain, yang menginstruksikan kotak berikutnya bagaimana mengubah untuk menunjukkan bahwa mereka telah memahami aturan perubahan. "Ini adalah ujian kemampuan kita untuk beradaptasi dengan hal-hal yang belum pernah kita lihat sebelumnya," kata Chollet, yang percaya bahwa kemampuan untuk menemukan pola adalah inti dari kecerdasan.
Menurut Lake, ARC menangkap "ciri kecerdasan manusia": mengabstraksi dari pengetahuan sehari-hari dan menerapkannya pada masalah yang belum pernah terlihat sebelumnya.
Chollet menyelenggarakan kompetisi robotika ARC pada tahun 2020, sebelum model bahasa besar mendapatkan daya tarik yang luas. Sistem AI yang menang secara khusus dilatih untuk menjadi ahli dalam tugas-tugas seperti ARC. Namun tidak seperti model bahasa besar, model ini tidak memiliki fungsi umum, dan hanya menjawab 21% pertanyaan dengan benar. Sebagai perbandingan, manusia memecahkan masalah ARC dengan benar 80% dari waktu7. Beberapa tim peneliti saat ini menggunakan ARC untuk menguji kemampuan model bahasa besar, dan tidak ada yang mendekati kinerja manusia.
Mitchell dan rekannya mengembangkan satu set teka-teki baru (disebut ConceptARC) yang terinspirasi oleh ARC, dengan dua perbedaan utama. ConceptARC bahkan lebih mudah: tim Mitchell menginginkan tolok ukur untuk mencerminkan kemajuan dalam kemampuan alat berat, meskipun hanya sedikit. Kedua, tim memilih konsep khusus untuk diuji dan kemudian membuat serangkaian variasi teka-teki terkait tema di sekitar setiap konsep.
Sebagai contoh, untuk menguji konsep identitas, satu soal mengharuskan pemecah untuk menahan benda-benda dengan bentuk yang sama di tempatnya, dan soal lain mensyaratkan pemecah untuk menyelaraskan benda-benda dengan bentuk yang sama di sepanjang sumbu. Idenya adalah untuk mengurangi kemungkinan sistem AI lulus ujian tanpa memahami konsepnya.
Apa yang dimaksud dengan kinerja buruk?
Para peneliti merilis tugas ConceptARC ke GPT-4 dan merekrut 400 subjek. Manusia mencetak rata-rata 91% di semua kelompok konsep (97% untuk kelompok skor tertinggi); 33% untuk kelompok GPT-4 skor tertinggi, dan tidak lebih dari 30% untuk kelompok konsep yang tersisa.
"Kami menunjukkan bahwa mesin itu masih jauh dari kecerdasan manusia," kata Mitchell, "Tapi yang mengejutkan, ia mampu memecahkan beberapa masalah ini meskipun tidak pernah dilatih untuk itu."
Tim juga menguji robot yang memenangkan kompetisi Chollet, yang bukan merupakan sistem berkemampuan umum seperti model bahasa besar, tetapi dilatih secara khusus untuk masalah penglihatan seperti ARC. Secara keseluruhan, kinerja mereka lebih baik daripada GPT-4, tetapi masih kalah dengan manusia, dengan skor 77% pada kelompok konsep terbaik tetapi di bawah 60% pada sebagian besar kelompok konsep1.
Namun, Bowman yakin bahwa kegagalan GPT-4 untuk lulus pelatihan ConceptARC tidak membuktikan bahwa GPT-4 tidak memiliki potensi kemampuan penalaran abstrak. Dalam pandangannya, ada bias antara ConceptARC dan GPT-4, yang merupakan tes visual. "Bahkan jika model ini benar-benar bagus dalam penalaran konseptual semacam ini, kecil kemungkinannya mereka akan mendapat skor bagus pada tes semacam itu untuk pertama kalinya."
Keterbatasan metode pengujian juga dapat menjadi faktor yang mempengaruhi kinerja GPT-4 yang buruk. Versi publik dari Model Bahasa Besar hanya dapat menerima masukan teks, sehingga para peneliti mengirimkan susunan angka yang menjelaskan gambar. (Misalnya, piksel kosong mungkin diwakili oleh 0, dan kotak berwarna mungkin diwakili oleh angka yang sesuai.) Sebaliknya, subjek manusia dapat melihat gambar secara langsung. Mitchell juga mengakui, "Kami membandingkan sistem bahasa murni dengan manusia, dan manusia memiliki sistem visual yang sangat berkembang, jadi saya khawatir perbandingannya tidak sepenuhnya adil."
OpenAI telah membangun versi "multimodal" dari GPT-4 yang dapat menerima input gambar secara langsung. Tim Mitchell sedang menunggu teknologi tersebut diungkapkan secara resmi sehingga dapat melakukan putaran lain dari ConceptARC. Namun menurutnya GPT-4 multimodal tidak jauh lebih baik, "Menurut saya sistem ini masih memiliki tingkat abstraksi dan penalaran yang sebanding dengan manusia."
Sam Acquaviva, seorang ilmuwan kognitif komputasi di Massachusetts Institute of Technology, setuju, dan polanya terbatas pada satu baris, bukan grid8. Ini seharusnya menghilangkan beberapa masalah ketidakadilan, tetapi Acquaviva melihat bahwa meskipun kinerja GPT-4 telah meningkat, itu juga tidak cukup untuk menunjukkan pemahaman dan penalaran aturan yang andal untuk model bahasa besar.
argumen penalaran
Bowman juga menyebutkan beberapa percobaan lain, menurut hasil yang komprehensif, model bahasa besar setidaknya telah menguasai kemampuan dasar penalaran tentang konsep-konsep abstrak. Dalam satu kasus, ilmuwan komputer Harvard Kenneth Li dan rekan-rekannya menggunakan versi digital Reversi, di mana pemain menempatkan bidak hitam dan putih pada petak berukuran 8 x 8. Mereka berharap dapat menilai apakah model bahasa besar mengandalkan hubungan statistik linguistik yang dihafalkan untuk menghasilkan teks, atau apakah mereka benar-benar dapat membangun representasi internal dari fenomena seperti manusia.
Setelah mengirimkan serangkaian tindakan pemain manusia ke model bahasa besar, AI dengan cepat menguasai kemampuan untuk memilih strategi yang tepat untuk langkah selanjutnya. Para peneliti percaya bahwa ini menunjukkan bahwa model bahasa besar bahkan dapat memahami situasi di papan catur dan memberikan saran untuk gerakan catur berdasarkan fitur saat ini, yang jelas menerobos batasan bentuk teks9.
Bowman mengakui bahwa kemampuan penalaran model bahasa besar dapat digambarkan sebagai "beragam" secara umum, dan tidak mencapai puncak penalaran manusia. Tapi menurutnya kemampuan penalaran memang ada, dan tampaknya meningkat dengan ukuran model. Dengan kata lain, model bahasa besar di masa depan akan bekerja lebih baik dan lebih baik lagi. "Sistem ini tidak dapat diandalkan atau umum seperti yang kita inginkan, dan mereka benar-benar bingung tentang jenis penalaran abstrak tertentu. Tapi saya pikir kemampuan penalaran mendasar mereka memang ada secara objektif."
Peneliti seperti Bowman dan Mitchell juga setuju bahwa cara yang lebih baik untuk menguji model bahasa besar untuk penalaran abstrak dan indikator kecerdasan lainnya tetap menjadi pertanyaan terbuka. Michael Frank, seorang ilmuwan kognitif di Universitas Stanford, percaya bahwa tidak ada satu pun tes yang mencakup semuanya yang dapat sepenuhnya menggantikan tes Turing. Sebaliknya, dia berpendapat bahwa para peneliti perlu menyusun tes ekstensif untuk mengukur kekuatan dan kelemahan berbagai sistem. "Agen-agen ini hebat, mereka memiliki kelemahan dalam banyak hal, jadi yang paling penting adalah menjelajahinya secara sistematis."
Wortham menyarankan mereka yang baru mengenal sistem AI untuk menghindari obsesi dengan antropomorfisme. "Kami selalu berusaha memahami apapun yang menunjukkan kecerdasan sebagai manusia, yang sebenarnya tidak perlu."
"Itu bahkan terkutuk, artinya kita tidak bisa membayangkan bentuk kecerdasan apa pun yang menunjukkan orientasi tujuan yang jelas selain milik kita. Kita selalu berharap bahwa kecerdasan itu melakukannya dengan cara berpikir mendalam yang sama seperti kita."
referensi:
Moskvichev, A., Odouard, VV & Mitchell, M. Pracetak di (2023).
Turing, AM Mind LIX, 433–460 (1950).
Artikel Google Cendekia
Jannai , D. , Meron , A. , Lenz , B. , Levine , Y. & Shoham , Y. Pracetak di (2023).
OpenAI. Pracetak di (2023).
Bubeck, S. et al. Pracetak di (2023).
Chollet, F. Pracetak di (2019).
Johnson, A., Vong, WK, Lake, BM & Gureckis, TM Pracetak di (2021).
Xu , Y. , Li , W. , Vaezipoor , P. , Sanner . S. & Khalil, EB Pracetak di (2023).
Li, K. et al. Proses Int kesebelas. Konf. Mempelajari. Mewakili. (2023).
Tautan Asli: