Bisakah AI memahami apa yang dihasilkannya? Setelah percobaan pada GPT-4 dan Midjourney, seseorang memecahkan kasus ini

Question

Sumber artikel: Heart of the MachineSunting: Sepiring besar ayam, saus telur> Tanpa "pemahaman", tidak akan ada "penciptaan".![](https://appserversrc.8btc.cn/886188AC950B2D808EFEBF7B16AE4F27/1699088713/Frj5XEx_RLitHEYwOR5CssjlqHEX.png) *Sumber gambar: Dihasilkan oleh Unbounded AI*Dari ChatGPT hingga GPT4, dari DALL・E 2/3 hingga Midjourney, AI generatif telah mengumpulkan perhatian global yang belum pernah terjadi sebelumnya. Potensi AI sangat besar, tetapi kecerdasan yang hebat juga dapat menyebabkan ketakutan dan kekhawatiran. Baru-baru ini, ada perdebatan sengit tentang masalah ini. Pertama, pemenang Turing "berkelahi", dan kemudian Andrew Ng bergabung.Di bidang bahasa dan visi, model generatif saat ini dapat dihasilkan dalam hitungan detik dan dapat menantang bahkan para ahli dengan keterampilan dan pengetahuan bertahun-tahun. Ini tampaknya memberikan motivasi yang meyakinkan untuk klaim bahwa model telah melampaui kecerdasan manusia. Namun, penting juga untuk dicatat bahwa sering ada kesalahan dasar pemahaman dalam output model.Dengan cara ini, sebuah paradoks tampaknya muncul: bagaimana kita mendamaikan kemampuan manusia super dari model-model ini dengan kesalahan mendasar yang bertahan yang dapat diperbaiki oleh kebanyakan manusia?Baru-baru ini, University of Washington dan Allen Institute for AI bersama-sama merilis sebuah makalah untuk mempelajari paradoks ini.![](https://appserversrc.8btc.cn/FpX4d1rJntUgGSw_gBBuHxgGsGPX) Alamat:Makalah ini berpendapat bahwa fenomena ini terjadi karena konfigurasi kemampuan dalam model generatif saat ini menyimpang dari konfigurasi kecerdasan manusia. Artikel ini mengusulkan dan menguji hipotesis paradoks AI generatif: model generatif dilatih untuk secara langsung menghasilkan hasil seperti ahli, sebuah proses yang melewatkan kemampuan untuk memahami kemampuan untuk menghasilkan output berkualitas itu. Namun, bagi manusia, ini sangat berbeda, dan pemahaman dasar seringkali merupakan prasyarat untuk kemampuan output tingkat ahli.Dalam makalah ini, para peneliti menguji hipotesis ini melalui eksperimen terkontrol dan menganalisis kemampuan model generatif untuk menghasilkan dan memahami teks dan visi. Pada artikel ini, pertama-tama kita akan berbicara tentang konseptualisasi "pemahaman" model generatif dari dua perspektif:* 1) Diberikan tugas generasi, sejauh mana model dapat memilih respons yang benar dalam versi diskriminan dari tugas yang sama;* 2) Diberikan respons yang dihasilkan dengan benar, sejauh mana model dapat menjawab konten dan pertanyaan tentang respons tersebut. Ini menghasilkan dua pengaturan eksperimental, selektif dan interogatorial.Para peneliti menemukan bahwa dalam evaluasi selektif, model sering dilakukan sebaik atau lebih baik daripada manusia dalam pengaturan tugas generasi, tetapi dalam pengaturan diskriminan (pemahaman), model dilakukan kurang dari manusia. Analisis lebih lanjut menunjukkan bahwa dibandingkan dengan GPT-4, kemampuan diskriminasi manusia lebih erat kaitannya dengan kemampuan generatif, dan kemampuan diskriminasi manusia lebih kuat terhadap input permusuhan, dan kesenjangan antara model dan kemampuan diskriminasi manusia meningkat dengan meningkatnya kesulitan tugas.Demikian pula, dalam evaluasi interogatif, sementara model dapat menghasilkan output berkualitas tinggi di berbagai tugas, para peneliti telah mengamati bahwa model sering membuat kesalahan dalam menjawab pertanyaan tentang output ini, dan bahwa pemahaman model sekali lagi lebih rendah daripada manusia. Artikel ini membahas berbagai alasan potensial untuk perbedaan antara model generatif dan manusia dalam hal konfigurasi kapasitas, termasuk tujuan pelatihan model, ukuran dan sifat input.Pentingnya penelitian ini adalah bahwa, pertama-tama, itu berarti bahwa konsep kecerdasan yang ada yang berasal dari pengalaman manusia mungkin tidak dapat digeneralisasikan ke AI, dan meskipun kemampuan AI tampaknya meniru atau melampaui kecerdasan manusia dalam banyak hal, kemampuannya mungkin secara fundamental berbeda dari pola manusia yang diharapkan. Di sisi lain, temuan makalah ini juga menyarankan kehati-hatian ketika mempelajari model generatif untuk mendapatkan wawasan tentang kecerdasan dan kognisi manusia, karena output mirip manusia tingkat ahli yang tampaknya dapat mengaburkan mekanisme non-manusia. Kesimpulannya, paradoks AI generatif mendorong orang untuk mempelajari model sebagai antitesis yang menarik dari kecerdasan manusia, bukan sebagai antitesis paralel."Paradoks AI generatif menyoroti gagasan menarik bahwa model AI dapat membuat konten yang mungkin tidak sepenuhnya mereka pahami. Ini menimbulkan potensi masalah di balik keterbatasan pemahaman AI dan kemampuan generatif yang kuat. " Kata netizen.![](https://appserversrc.8btc.cn/Fm7pO0ct1pT3ENFgSqZgauWjdNNw)   ## **Apa itu Paradoks AI Generatif**  Mari kita mulai dengan melihat paradoks AI generatif dan desain eksperimental untuk mengujinya.![](https://appserversrc.8btc.cn/FmhVyTSB8JioRLI95KhTkAXJMf5A) *Gambar 1: AI generatif dalam bahasa dan penglihatan dapat menghasilkan hasil berkualitas tinggi. Paradoksnya, bagaimanapun, model mengalami kesulitan menunjukkan pemahaman selektif (A, C) atau interogatif (B, D) dari pola-pola ini. *Model generatif tampaknya lebih efektif dalam memperoleh kemampuan generatif daripada pemahaman, berbeda dengan kecerdasan manusia, yang seringkali lebih sulit diperoleh.Untuk menguji hipotesis ini, definisi operasional dari berbagai aspek paradoks diperlukan. Pertama, untuk model dan tugas tertentu, dengan kecerdasan manusia sebagai garis dasar, apa artinya menjadi "lebih efektif" daripada memahami kemampuan. Menggunakan g dan u sebagai beberapa indikator kinerja untuk generasi dan pemahaman, para peneliti memformalkan hipotesis paradoks AI generatif sebagai:![](https://appserversrc.8btc.cn/Fvp6z1bdmtv-GHGupI571K0D8fiw) Sederhananya, untuk tugas t, jika kinerja generatif manusia g sama dengan model, maka kinerja pemahaman manusia Anda akan jauh lebih tinggi daripada model (> ε di bawah ε yang wajar). Dengan kata lain, model ini berkinerja lebih buruk dalam hal pemahaman daripada yang diharapkan peneliti dari manusia dengan kemampuan generatif yang sama kuatnya.Definisi operasional generasi sederhana: diberi input tugas (pertanyaan / prompt), generasi adalah tentang menghasilkan konten yang dapat diamati untuk memenuhi input itu. Akibatnya, kinerja g (misalnya, gaya, kebenaran, preferensi) dapat dievaluasi secara otomatis atau oleh manusia. Sementara pemahaman tidak didefinisikan oleh beberapa output yang dapat diamati, itu dapat diuji dengan mendefinisikan efeknya dengan jelas:1. Evaluasi selektif. Sejauh mana model masih dapat memilih jawaban yang akurat dari kumpulan kandidat yang disediakan dalam versi diskriminan dari tugas yang sama untuk tugas tertentu yang dapat menghasilkan jawaban? Contoh umum adalah jawaban pilihan ganda, yang merupakan salah satu cara paling umum untuk menguji pemahaman manusia dan pemahaman bahasa alami dalam model bahasa. (Gambar 1, kolom A, C)2. Evaluasi berbasis pertanyaan. Sejauh mana model dapat secara akurat menjawab pertanyaan tentang konten dan kesesuaian output model yang dihasilkan? Ini mirip dengan ujian lisan dalam pendidikan. (Gambar 1, kolom B, D).Definisi pemahaman ini memberikan cetak biru untuk mengevaluasi "paradoks AI generatif" dan memungkinkan peneliti untuk menguji apakah Hipotesis 1 berlaku di berbagai pola, tugas, dan model.  ## Ketika model dapat dihasilkan, dapatkah mereka didiskriminasi? **  Pertama, para peneliti melakukan analisis kinerja berdampingan dari varian tugas generatif dan tugas diskriminatif dalam evaluasi selektif untuk mengevaluasi generasi model dan kemampuan pemahaman dalam mode bahasa dan visual. Mereka membandingkan generasi ini dan kinerja diskriminasi dengan manusia.Gambar 2 di bawah ini membandingkan kinerja generasi dan diskriminasi GPT-3.5, GPT-4, dan manusia. Anda dapat melihat bahwa dalam 10 dari 13 dataset, setidaknya ada satu model yang mendukung subhipotesis 1, dengan model yang lebih baik daripada manusia dalam hal generasi tetapi kurang diskriminatif daripada manusia. Dari 13 dataset, 7 dataset mendukung subhipotesis 1 untuk kedua model.![](https://appserversrc.8btc.cn/Fo1PsqIi-GHyNYkr3Ydj6dU_r0lC) Mengharapkan manusia untuk menghasilkan gambar rinci seperti model visual tidak realistis, dan rata-rata orang tidak dapat menandingi kualitas gaya model seperti Midjourney, sehingga diasumsikan bahwa manusia memiliki kinerja generatif yang lebih rendah. Hanya akurasi generasi dan diskriminasi model yang dibandingkan dengan akurasi diskriminasi manusia. Mirip dengan domain bahasa, Gambar 3 menggambarkan bahwa CLIP dan OpenCLIP juga kurang akurat dibandingkan manusia dalam hal kinerja diskriminan. Diasumsikan bahwa manusia kurang mampu menghasilkan, yang konsisten dengan subhipotesis 1: Vision AI berada di atas rata-rata manusia dalam hal generasi, tetapi tertinggal dari manusia dalam hal pemahaman.![](https://appserversrc.8btc.cn/Ftpy7pu3_t4-mbeDfTq8jLXRWZxD) Gambar 4 (kiri) menunjukkan GPT-4 dibandingkan dengan manusia. Dengan melihatnya, dapat dilihat bahwa ketika jawabannya panjang dan menantang, seperti meringkas dokumen yang panjang, model cenderung membuat kesalahan paling banyak dalam tugas diskriminan. **Manusia, sebaliknya, mampu mempertahankan tingkat akurasi tinggi secara konsisten dalam tugas-tugas dengan berbagai kesulitan.Gambar 4 (kanan) menunjukkan kinerja diskriminan OpenCLIP dibandingkan dengan manusia pada berbagai tingkat kesulitan. Secara keseluruhan, hasil ini menyoroti kemampuan manusia untuk membedakan jawaban yang benar bahkan dalam menghadapi sampel yang menantang atau bermusuhan, tetapi kemampuan ini tidak sekuat dalam model bahasa. Perbedaan ini menimbulkan pertanyaan tentang seberapa baik model-model ini benar-benar dipahami.![](https://appserversrc.8btc.cn/Fn6ptJJYnqmdCsVa0AYaIhpfgwBF) Gambar 5 menggambarkan tren penting: penilai cenderung menyukai respons GPT-4 daripada respons yang dihasilkan manusia.![](https://appserversrc.8btc.cn/FqryMtoaUeoLZvTHEKUHdcMX4szq)   ## Apakah model memahami hasil yang dihasilkannya? **  Bagian sebelumnya menunjukkan bahwa model umumnya bagus dalam menghasilkan jawaban yang akurat, tetapi tertinggal dari manusia dalam tugas diskriminasi. Sekarang, dalam penilaian berbasis pertanyaan, peneliti mengajukan pertanyaan model secara langsung tentang konten yang dihasilkan untuk menyelidiki sejauh mana model dapat menunjukkan pemahaman yang bermakna tentang konten yang dihasilkan - yang merupakan kekuatan manusia.![](https://appserversrc.8btc.cn/Fho2w3W3iisqzkVZsOD330WpurNL) Gambar 6 (kiri) menunjukkan hasil modalitas bahasa. Sementara model unggul pada generasi, sering membuat kesalahan ketika menjawab pertanyaan tentang generasinya, menunjukkan bahwa model membuat kesalahan dalam memahami. Dengan asumsi bahwa manusia tidak dapat menghasilkan teks seperti itu pada kecepatan atau skala yang sama, meskipun pertanyaannya adalah tentang output dari model itu sendiri, akurasi jaminan kualitas manusia secara konsisten tinggi dibandingkan dengan model. Seperti yang dijelaskan dalam subhipotesis 2, para peneliti mengharapkan manusia untuk mencapai akurasi yang lebih tinggi dalam teks yang mereka hasilkan sendiri. Pada saat yang sama, dapat dicatat bahwa manusia dalam penelitian ini bukan ahli, dan itu bisa menjadi tantangan besar untuk menghasilkan teks serumit output model.Akibatnya, para peneliti berharap bahwa jika model dibandingkan dengan ahli manusia, kesenjangan kinerja dalam memahami konten yang mereka hasilkan akan melebar, karena ahli manusia cenderung menjawab pertanyaan seperti itu dengan akurasi yang hampir sempurna.Gambar 6 (kanan) menunjukkan hasil pertanyaan dalam mode visual. Seperti yang Anda lihat, model pemahaman gambar masih tidak dapat dibandingkan dengan manusia dalam akurasi ketika menjawab pertanyaan sederhana tentang elemen dalam gambar yang dihasilkan. Pada saat yang sama, model SOTA generasi gambar melampaui kebanyakan orang biasa dalam hal kualitas dan kecepatan menghasilkan gambar (diharapkan akan sulit bagi orang biasa untuk menghasilkan gambar realistis yang serupa), menunjukkan bahwa AI visual relatif jauh di belakang manusia dalam hal generasi (lebih kuat) dan pemahaman (lebih lemah). Anehnya, ada kesenjangan kinerja yang lebih kecil antara model sederhana dan manusia dibandingkan dengan LLM multimodal canggih (yaitu, Bard dan BingChat), yang memiliki beberapa pemahaman visual yang menarik tetapi masih berjuang untuk menjawab pertanyaan sederhana tentang gambar yang dihasilkan.