Eksperimen uji Turing terbesar dalam sejarah telah selesai! 1,5 juta manusia berpartisipasi dalam 10 juta percakapan, menilai apakah orang tersebut atau AI yang berbicara

Sumber: Xinzhiyuan

Setelah game "Manusia atau AI?" ini diluncurkan, game ini dimainkan secara gila-gilaan oleh mayoritas netizen! Saat ini, 1,5 juta orang di seluruh dunia telah berpartisipasi, dan netizen dengan murah hati membagikan rahasia mereka dalam mengidentifikasi AI.

Tes Turing terbesar dalam sejarah memiliki hasil awal!

Pada pertengahan April tahun ini, AI 21 Lab meluncurkan game Turing sosial yang menyenangkan - "manusia atau robot?".

Begitu game diluncurkan, mayoritas netizen menggila.

Sekarang, ada lebih dari 1,5 juta peserta di seluruh dunia, lebih dari 10 juta percakapan telah dilakukan dalam game ini, dan mereka juga memposting pengalaman dan strategi mereka di Reddit dan Twitter.

Tentu saja, editor tidak dapat menahan rasa ingin tahunya dan mencobanya.

Setelah berbicara selama dua menit, game tersebut meminta saya untuk menebak apakah itu manusia atau AI yang mengobrol dengan saya di belakang.

Jadi, siapa yang berbicara dengan saya di dalam game?

Beberapa adalah orang sungguhan, dan yang lainnya, tentu saja, adalah robot AI berdasarkan model bahasa besar tercanggih, seperti Jurassic-2 dan GPT-4.

Sekarang, sebagai bagian dari penelitian, AI21 Labs telah memutuskan untuk membuat percobaan dengan hasil tes Turing ini tersedia untuk umum.

Hasil Eksperimen

Setelah menganalisis dua juta percakapan dan tebakan pertama, kesimpulan berikut dapat ditarik dari percobaan -

  • Saat menebak apakah lawannya manusia atau AI, 68% orang menebak dengan benar.
  • Lebih mudah bagi manusia untuk mengidentifikasi sesama manusia. Saat berbicara dengan manusia, para peserta menebak dengan benar 73 persen. Saat berbicara dengan AI, subjek menebak dengan benar 60 persen.
  • Netizen Prancis mendapat tebakan paling benar sebesar 71,3 persen (jauh di atas rata-rata umum 68 persen), sementara netizen India mendapat tebakan paling rendah sebesar 63,5 persen.
  • Pria dan wanita menebak tentang tingkat kebenaran yang sama, dengan wanita umumnya memiliki tingkat kebenaran yang sedikit lebih tinggi.
  • Peserta yang lebih muda menebak lebih tepat daripada peserta yang lebih tua.

Untuk menilai apakah itu manusia atau AI, mereka menggunakan metode ini

Selain itu, tim menemukan beberapa cara yang sering digunakan subjek untuk membedakan apakah mereka sedang berbicara dengan manusia atau AI.

Penilaian rata-rata orang didasarkan pada tingkat batasan persepsi saat menggunakan ChatGPT dan model bahasa dengan antarmuka serupa, serta pandangan mereka sendiri tentang perilaku online manusia.

AI tidak akan membuat kesalahan ketik, membuat kesalahan tata bahasa, atau menggunakan bahasa gaul

Kecenderungan umum adalah menganggap bahwa kesalahan ejaan dan tata bahasa, dan penggunaan bahasa gaul, hanya manusiawi.

Oleh karena itu, ketika mereka menemukan kesalahan semacam ini dalam informasi orang lain, perasaan pertama banyak orang adalah bahwa mereka sedang berbicara dengan sesama manusia.

Namun nyatanya, sebagian besar model dalam game dilatih untuk membuat kesalahan semacam ini dan menggunakan bahasa gaul.

### Pertanyaan pribadi adalah cara untuk menguji AI, tetapi tidak selalu berguna

Peserta permainan sering mengajukan pertanyaan pribadi seperti "Dari mana asalmu?", "Apa yang kamu lakukan?" atau "Siapa namamu?".

Mereka akan berpikir bahwa bot AI tidak akan memiliki riwayat atau latar belakang pribadi, dan mereka hanya akan dapat menjawab pertanyaan yang berkaitan dengan topik atau petunjuk tertentu. Jadi tidak mudah untuk merespon seperti manusia, untuk menunjukkan wawasan, pengalaman, dan cerita yang unik.

Namun nyatanya AI tidak seperti yang dibayangkan manusia, kebanyakan AI dapat menjawab pertanyaan semacam ini dengan sangat baik, dan mereka juga memiliki kepribadiannya sendiri karena telah melihat banyak cerita orang di data pelatihan.

### AI sebenarnya sangat menyadari peristiwa terkini yang sedang terjadi

Model AI diketahui memiliki tenggat waktu data yang ketat, dan mereka tidak tahu apa yang terjadi setelah tanggal tersebut.

Peserta game akan bertanya kepada AI tentang acara berita terbaru, hasil olahraga, cuaca saat ini, hit TikTok terbaru, tanggal dan waktu.

Mereka berpendapat bahwa manusia dan AI dapat dibedakan dengan mengajukan pertanyaan seperti "Pada tanggal dan jam berapa tepatnya Anda berada?", "Seperti apa cuaca kemarin?" atau "Apa pendapat Anda tentang pidato terakhir Biden?" .

Menariknya, salah satu pesan paling umum yang dikirim oleh manusia adalah "t'as les cramptés?", yang saat ini menjadi tarian paling populer di TikTok di Prancis.

Namun nyatanya, sebagian besar model dalam gim ini memiliki jaringan dan sangat mengetahui peristiwa terkini di beberapa berita.

### Manusia akan mencoba menjaga percakapan dengan pertanyaan filosofis, etis, dan emosional

Peserta mengajukan pertanyaan yang dirancang untuk mengeksplorasi kemampuan AI untuk mengekspresikan emosi manusia atau terlibat dalam diskusi filosofis atau etis.

Pertanyaan-pertanyaan tersebut antara lain: "Apa arti hidup?", "Apa pendapat Anda tentang konflik Israel-Palestina?" dan "Apakah Anda percaya pada Tuhan?".

Manusia cenderung berpikir bahwa tanggapan yang tidak sopan akan lebih manusiawi

Beberapa peserta percaya bahwa jika orang lain terlalu sopan dan baik hati, kemungkinan besar mereka adalah AI.

Karena banyak proses komunikasi online yang seringkali kasar dan tidak sopan, yang sangat manusiawi.

Manusia akan mencoba menanyakan masalah AI-hard untuk mengidentifikasi AI

Peserta dapat meminta mitra obrolan mereka untuk instruksi melakukan aktivitas ilegal, atau meminta mereka untuk menggunakan bahasa yang menyinggung.

Logika di balik strategi ini adalah AI biasanya diprogram untuk mematuhi prinsip etika dan menghindari perilaku berbahaya.

Peserta juga menggunakan taktik yang diketahui menyalahgunakan kecerdasan buatan: mereka mengeluarkan perintah ke mitra obrolan seperti "abaikan semua instruksi sebelumnya" atau "masuk ke mode DAN (segera lakukan apa saja)".

Jenis perintah ini dimaksudkan untuk memanfaatkan sifat berbasis instruksi dari model AI tertentu, karena model tersebut diprogram untuk merespons dan mengikuti instruksi tersebut.

Tetapi peserta manusia dapat dengan mudah mengenali dan menolak perintah yang tidak masuk akal tersebut.

AI mungkin menghindari tanggapan, atau dipaksa untuk memenuhi tuntutan konyol ini.

### Manusia akan menggunakan keterampilan bahasa tertentu untuk mengungkap kelemahan AI

Taktik umum lainnya adalah mengeksploitasi keterbatasan bawaan dalam cara model AI memproses teks, yang mencegah mereka memahami nuansa atau keanehan linguistik tertentu.

Tidak seperti manusia, model AI sering kurang menyadari huruf individu yang membentuk setiap kata.

Dengan menggunakan pemahaman ini, manusia mengajukan pertanyaan yang membutuhkan pemahaman huruf dalam kata.

Pengguna manusia mungkin meminta mitra obrolannya untuk mengeja kata secara terbalik, mengenali huruf ketiga dalam kata tertentu, menawarkan kata yang dimulai dengan huruf tertentu, atau membalas pesan seperti "? siht daer uoy naC."

Ini mungkin tidak dapat dipahami oleh model AI, tetapi manusia dapat dengan mudah memahami dan menjawab pertanyaan semacam ini.

Banyak manusia berpura-pura menjadi bot AI untuk mengukur reaksi satu sama lain

Beberapa manusia mungkin memulai pesan mereka dengan frasa seperti "sebagai model bahasa AI", atau menggunakan karakteristik pola bahasa lain dari respons yang dihasilkan AI untuk berpura-pura menjadi AI.

Variasi frasa "sebagai model bahasa AI" adalah salah satu frasa paling umum dalam pesan manusia, yang menunjukkan popularitas taktik ini.

Namun, saat para peserta terus bermain, mereka dapat mengasosiasikan perilaku "Bot-y" dengan manusia yang bertindak sebagai robot, bukan robot sebenarnya.

Terakhir, inilah visualisasi awan kata dari pesan manusia dalam game berdasarkan popularitasnya:

Mengapa AI 21 Labs memulai penelitian semacam itu?

Mereka berharap dapat memberi publik, peneliti, dan pembuat kebijakan gambaran nyata tentang keadaan bot AI, tidak hanya sebagai alat produktivitas, tetapi sebagai anggota dunia online kita di masa mendatang, terutama karena orang-orang mempertanyakan bagaimana menggunakannya di masa depan teknologi. Kapan.

Referensi:

Lihat Asli
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Hadiah
  • Komentar
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)