Dengan ChatGPT, apakah membaca tetap bermanfaat?

Question

**Penulis:** Li Zi, Ph.D. dalam Sosiologi Teknologi, Postdoctoral Fellow, Departemen Kemanusiaan dan Etika Medis, Universitas Columbia![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c20cf94718-dd1a6f-1c6801) Sumber gambar: Dihasilkan oleh AI‌ Tak TerbatasPada paruh pertama tahun ini, ChatGPT lahir, dan potensi kecerdasan buatan terungkap, yang membawa diskusi tentang krisis kelangsungan hidup ke banyak industri. GPT dapat lulus ujian kualifikasi bar dan insinyur, menulis esai perguruan tinggi tanpa gagal, dan bahkan "memahami" lelucon. Itu dapat menjawab pertanyaan orang, mengatur struktur bahasa yang jelas, dan meniru berbagai gaya bahasa; dan kombinasi model bahasa besar dan teknologi AI generasi gambar, seperti Midjourney, dapat memungkinkan orang yang belum menerima pelatihan artistik apa pun untuk menggunakan beberapa kata-kata "Buat" gambar artistik yang menakjubkan.Inti dari ChatGPT sebenarnya adalah model bahasa besar (Large Language Model, LLM) yang dilapiskan kecerdasan buatan generatif. Model bahasa besar, seperti namanya, besar, menggunakan banyak morfem untuk melatih model komputer dengan metode pembelajaran mesin. Rumus generatif menggunakan metode prediktif untuk menampilkan koneksi morfem yang paling mungkin terjadi selama dialog.Untuk pengetahuan "prosesor" dan "konsumen", kemampuan model bahasa besar ditambah kecerdasan buatan generatif sangat besar. Data morfem yang sangat besar, jaringan saraf yang dalam, dan daya komputasi yang sangat besar setara dengan "meratakan" seluruh pengetahuan dari Internet, dan kemudian "merakitnya" melalui interaksi manusia-komputer.**Dalam hal logika komputasi, ChatGPT setara dengan mesin pencari yang lebih canggih. ** Mesin pencari biasa seperti Google dan Baidu "mengikis" informasi dari seluruh Internet melalui mode perayap, dan memilah-milah algoritme yang rumit. Metode kecerdasan buatan menggunakan pembelajaran mesin setara dengan memilah informasi secara prediktif sejalan dengan logika bahasa. Pemrosesan pengetahuan menjadi lebih nyaman dan lebih cepat, dan konsumsi menjadi lebih ringkas dan jelas — terkadang bahkan terlalu sederhana, memberikan peluang untuk menyontek pada kertas ujian.Mengingat hal ini, para optimis teknologi percaya bahwa karena konten yang dapat dihasilkan oleh mesin mulai saat ini, sebagian besar manusia mungkin tidak perlu menggunakan otak mereka untuk menyadarinya, seperti halnya mesin telusur menggantikan kartu perpustakaan dan kalkulator menggantikan sempoa. Memang, bahkan jika AI tidak campur tangan dalam pengambilan keputusan akhir, tugas-tugas yang membutuhkan banyak penulisan berulang, atau pencacahan dan penyortiran mekanis, memang dapat memberikan tingkat produktivitas yang tinggi dan membantu manusia dalam pemrosesan dan konsumsi pengetahuan.Jadi, apakah membaca bermanfaat? Bisakah personel universitas besar dan lembaga penelitian juga berhenti bekerja?## **Apa yang bisa "dipelajari" oleh mesin**Model bahasa besar dan kecerdasan buatan generatif telah membawa topik yang tak terhindarkan ke "produsen" pengetahuan masa depan: apa itu pengetahuan? Bagaimana menghasilkan pengetahuan yang beragam, tidak memihak dan otentik?Kemampuan "belajar" kecerdasan buatan luar biasa. Model bahasa besar yang ada dan penerapan kecerdasan buatan tidak lepas dari pembelajaran mesin sebagai latar belakangnya. Kata "belajar" pada dasarnya menggunakan sejumlah besar data untuk melatih model prediksi, dan untuk menemukan keseimbangan antara akurasi dan universalitas prediksi. Prediksi semacam ini sebenarnya didasarkan pada pengetahuan yang ada, dan prediksi model bahasa juga didasarkan pada hubungan antar bahasa yang ada. Misalnya, masukan "daging sapi rebus", dan mesin memprediksi "daging"; kemudian, berdasarkan lebih banyak input, seperti lokasi, orang, kebiasaan, dll., mesin akan memberikan prediksi yang lebih akurat, seperti "daging sapi rebus nenek" dan segera.Bagaimana prediksi ini menjadi kenyataan? Sistem koordinat yang kita kenal adalah dua dimensi. Misalnya, pada seluruh populasi, ada korespondensi kasar antara tinggi dan berat badan, mengingat tinggi badan, mesin memprediksi berat rata-rata, yang merupakan prediksi berdasarkan data yang ada. Tambahkan dimensi lain, seperti jenis kelamin, maka menjadi koordinat tiga dimensi, dan prediksi pria dan wanita akan berbeda. Jika ini terus berlanjut, dimensi data bisa menjadi tidak terbatas, dan model pembelajaran mesin adalah menemukan koneksi semacam itu dalam ruang multidimensi yang tidak dapat dibayangkan oleh otak manusia, dan terus-menerus menyesuaikan bobot di antara berbagai dimensi. Misalnya, "seberapa penting" prediksi tinggi terhadap berat badan, yang dapat disesuaikan setelah input data dalam jumlah besar.** Oleh karena itu, kecerdasan buatan berdasarkan pembelajaran mesin akan menghubungkan data dari berbagai dimensi di ruang dimensi yang lebih tinggi, memiliki kemampuan untuk menemukan potensi koneksi antar data, dan juga akan "mempelajari" beberapa hal yang tidak ada dalam kenyataan. , tetapi keterkaitan yang sangat mungkin. **Digunakan dalam model bahasa, kecerdasan buatan juga dapat mempelajari berbagai gaya bahasa dan menggali "esensi" dan "masalah" dalam teks yang ada.**Semakin besar datanya, semakin matang modelnya, dan semakin tinggi kemampuan komputasi dan penambangannya. **Mirip dengan AI seperti BERT dan GPT, yang lahir di institusi besar, banyak orang percaya bahwa mereka telah mencapai "titik belok" teknologi, dan tidak masuk akal jika perubahan kuantitatif menghasilkan perubahan kualitatif - ini bagus hal untuk produsen pengetahuan. Namun, model besar juga memiliki masalah yang melekat, dan semakin besar modelnya, semakin akut masalahnya, terutama dalam kaitannya dengan aspek pengetahuan yang beragam, adil, dan jujur.## **Cara menghasilkan nyata**## ** dan pengetahuan yang tidak bias? **Pengetahuan baru dapat dihasilkan dari koneksi dan model baru dari pengetahuan yang ada, yang benar apakah itu di tingkat manusia atau mesin. Namun, apakah pengetahuan yang ada sudah cukup? Apakah itu cukup? Apakah adil? Jika basis pengetahuan yang ada tidak mencukupi atau bahkan bias, maka pengetahuan baru yang dibangun di atasnya juga akan bias.Sejak AI pembelajaran mesin dimasukkan ke dalam aplikasi skala besar, para sarjana terus mengungkapkan bias yang melekat pada model-model ini: seksisme, rasisme, hasil yang tidak etis, dan sebagainya. Pengembang menggunakan berbagai tambalan dan metode koreksi untuk menebusnya, tetapi sebagian besar masalah tersembunyi dalam proses produksi dan pelatihan data, dan bias AI juga merupakan cerminan dan penguatan prasangka sosial.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-422b1ca786-dd1a6f-1c6801) Masalah lainnya adalah kualitas data. Pembelajaran mesin tidak hanya melibatkan kemampuan untuk melatih model, tetapi juga kuantitas dan kualitas data. Proses pengembangan yang ada lebih menekankan pada kinerja model dan bahkan takhayul, tetapi mengabaikan masalah mendasar dari sumber data. Sebagian besar data saat ini bergantung pada pembersihan dan pemformatan manual, kategorisasi, pelabelan, dan sebagainya. Sering kali, proses menghasilkan data ini buram, bahkan dicoret-coret. Misalnya, di balik perkembangan AI perusahaan besar, sejumlah besar tenaga kerja "kotor dan berantakan" dialihdayakan ke "pabrik AI" di daerah tertinggal. Di satu sisi, proses ini memiliki masalah etika ketenagakerjaan, dan di sisi lain juga menimbulkan tantangan terhadap kualitas data.Di era model besar, masalah ini mungkin tersembunyi lebih dalam: tidak setiap peneliti atau tim memiliki kemampuan untuk mengembangkan model AI dari awal, terutama model bahasa besar dan gambar besar, yang sebagian besar didasarkan pada model Fine-tune yang ada. Masalah dan penyimpangan dari model besar itu sendiri akan dimigrasikan ke lebih banyak model aplikasi. Dan semakin rendah deviasinya, semakin sulit untuk menghadapinya melalui fine-tuning dan koreksi deviasi.Mode pembangkitan prediksi dari model bahasa yang ada bahkan akan memperkuat penyimpangan data yang ada, sehingga menimbulkan efek "overfitting": misalnya penyakit tertentu memiliki proporsi data statistik yang tinggi pada kelompok etnis tertentu, sekitar 60% ; Tetapi jika model bahasa digunakan untuk menghasilkan potret pasien, maka ada kemungkinan lebih dari 90% bahwa deskripsi pasien yang dihasilkan akan termasuk dalam kelompok ini.Sekarang beberapa pelatihan model AI mengadopsi mode "pertarungan timbal balik" - yang disebut "jaringan permusuhan generatif" (jaringan permusuhan generatif), yang memungkinkan dua model untuk terus menghasilkan dan memperbaiki satu sama lain. Metode ini memang meningkatkan efisiensi pelatihan model, tetapi setiap penyimpangan kecil akan diperbesar dalam "interaksi" ini. Dengan prinsip yang sama, jika produsen pengetahuan yang bekerja sama dengan mesin bergantung pada "generasi" semacam ini, maka beberapa bias dari model akan tertanam dalam lebih banyak pengetahuan baru, dan pengetahuan baru tersebut akan diserap sebagai data, lebih lanjut. memperkuat bias model. **Penghasil pengetahuan harus tetap waspada dalam proses ini.## **Apa itu pengetahuan baru? Bisakah "generasi" AI mewakili pengetahuan baru? **Apa yang disebut pengetahuan baru? Jika AI akan digunakan sepenuhnya untuk menghasilkan pengetahuan, maka produsen pengetahuan harus memikirkan masalah ini dari sudut pandang kombinasi manusia dan mesin. Setiap informasi, serta pengetahuan yang diperoleh manusia dari dunia nyata, perlu “dibersihkan” dan “diformat” menjadi data. Selain kualitas data yang disebutkan di atas, proses pembuatan data juga penting. Singkatnya, apa masalah yang ingin dipelajari? Data apa yang diterjemahkan ke dalam pertanyaan ini? Bagaimana data ini diproduksi, dan apakah mereka sepenuhnya dan secara adil mewakili isu-isu yang ingin dipelajari oleh produsen pengetahuan?Masalah ini juga berlaku untuk produsen pengetahuan "tradisional". Ambil sejarah sebagai contoh.Meskipun sejarah mempelajari peristiwa masa lalu, tidak ada peristiwa masa lalu yang dapat 100% konklusif. Para sarjana biasanya terus-menerus mencari bahan sejarah baru untuk melengkapi pemahaman mereka tentang masalah sejarah, dan untuk menggali perspektif dan suara yang terbengkalai di masa lalu. Menariknya, historiografi saat ini sering menggunakan sejumlah besar data, terutama data ekonomi, populasi, dan iklim masa lalu, dan bahkan mengandalkan pembelajaran mesin untuk membawa pemahaman dan perspektif baru ke dalam sejarah.Demikian juga, mengandalkan wawasan dan pendapat yang dihasilkan mesin dapat memperkuat pentingnya sumber data tertentu. Produsen pengetahuan saat ini terlalu bergantung pada arus utama, Internet, dan informasi elektronik untuk menciptakan hal-hal yang telah "diterjemahkan" menjadi data oleh orang lain. **Di era AI, kemudahan dan ekstensibilitas yang disediakan oleh AI berpotensi memudahkan orang untuk mengabaikan pengetahuan non-mainstream dan pengalaman yang belum didigitalkan, dielektronisasikan, sehingga kehilangan kemungkinan pembentukan sudut pandang dan perspektif baru . **Pada tataran yang lebih dalam, pengetahuan baru seringkali muncul dari penggalian materi baru, benturan sudut pandang dan perspektif yang berbeda, serta dekonstruksi ulang pengetahuan yang ada. Model bahasa yang besar memberikan banyak kemungkinan untuk menampilkan pengetahuan, tetapi logika dan struktur internalnya mungkin bertentangan dengan metode produksi ini.**Berdasarkan metode pelatihan model bahasa besar dan karakteristik keluaran yang dihasilkan oleh model, bobot konten keluaran dengan peringkat lebih tinggi dan probabilitas lebih tinggi akan menjadi lebih besar dan fitur akan menjadi lebih tunggal**. "AI-generated" hampir menjadi kata sifat untuk menggambarkan kata-kata tanpa sifat, berulang, dan tidak masuk akal yang diucapkan seolah-olah tidak ada. Memang benar bahwa bagi konsumen pengetahuan, jawaban yang "paling mungkin" sangat menurunkan ambang pemahaman; tetapi bagi produsen pengetahuan, hal-hal ini malah bisa menjadi hambatan.## **Ke mana produsen pengetahuan di era baru harus pergi? **Mungkin banyak peneliti ilmu sosial seperti saya yang mengalami masalah ini saat menggunakan ChatGPT: memintanya menjelaskan sebuah konsep, dan itu logis; Seorang penulis tidak pernah menulis buku, tidak pernah menerbitkan makalah. Semakin sempit dan terspesialisasi bidangnya, semakin besar kemungkinan "omong kosong".Kembali ke prinsip AI, "penciptaan" semacam ini sebenarnya menambang "kemungkinan" koneksi kata dan kalimat dalam data masif, tetapi koneksi ini tidak ada dalam kenyataan. Terus terang, mereka hanya "terdengar mirip". . Fenomena baru ini sekarang disebut "halusinasi". Bagi penghasil pengetahuan, bagaimana menggunakan kecerdasan buatan untuk menambang pola dan koneksi di basis pengetahuan yang ada, tetapi tetap waspada terhadap "penglihatan" mesin, apa yang ada dan apa yang diragukan, merupakan keterampilan yang sangat penting."Dialog" dengan AI juga akan menjadi skill baru. AI saat ini masih menjadi "kotak hitam" misterius bagi sebagian besar orang non-teknis (bahkan orang teknis). **Bagaimana memulai dari tingkat bawah atau menengah teknologi untuk berbicara dengan mesin secara lebih efektif, memahami dan melawan "visi" memerlukan kerja sama produsen pengetahuan dan praktisi teknis**.Untuk penelitian pengetahuan baru, perspektif baru, dan materi baru, struktur dan interpretasi unik dari setiap bidang masih sangat penting saat ini. Model prediktif model bahasa besar dan AI generatif masih cenderung tunggal dan berulang, dan semakin terbatas materi pelatihan, semakin terbatas kemampuannya. Jika Anda ingin menggabungkan kemampuan mesin dan manusia, Anda harus mulai dari sumber produksi data, menggunakan data yang akurat, beragam, adil, dan baru untuk melatih model AI, dan membuat model interaksi manusia-komputer yang jinak.Munculnya model bahasa besar dan AI generatif hanyalah awal dari tantangan bagi para peneliti. Daripada membahas "penggantian", lebih baik mencari kemungkinan untuk masuk dan berkembang di bawah pandangan yang lebih bijaksana.