GPT-4 menjadi pengulas Alam? Alumni Stanford dan Tsinghua menguji hampir 5.000 makalah, dan lebih dari 50% hasilnya konsisten dengan peninjau manusia

Question

**Sumber:**Xinzhiyuan**Pendahuluan:** Pakar Stanford telah menemukan bahwa pendapat tinjauan yang diberikan oleh GPT-4 tentang Alam dan makalah ICLR lebih dari 50% serupa dengan pendapat pengulas manusia. Tampaknya bukanlah suatu fantasi untuk membiarkan model besar membantu kita mengulas makalah.GPT-4 telah berhasil dipromosikan menjadi reviewer!Baru-baru ini, para peneliti dari Universitas Stanford dan institusi lain telah mengirimkan ribuan artikel konferensi terkemuka dari Nature, ICLR, dll. ke GPT-4, sehingga memungkinkannya menghasilkan komentar ulasan dan saran revisi, dan kemudian membandingkannya dengan pendapat yang diberikan oleh pengulas manusia. Membandingkan.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-ed5158ceb6-dd1a6f-69ad2a) Alamat kertas:Hasilnya, GPT-4 tidak hanya berfungsi dengan sempurna, bahkan lebih baik dari manusia!![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-8ea8567a02-dd1a6f-69ad2a) Lebih dari 50% opini yang diberikan setuju dengan setidaknya satu pengulas manusia.Dan lebih dari 82,4% penulis menyatakan bahwa pendapat yang diberikan GPT-4 cukup membantu.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-dc4a8b7e4a-dd1a6f-69ad2a) James Zou, penulis makalah ini, menyimpulkan: Kita masih memerlukan umpan balik manusia yang berkualitas tinggi, namun LLM dapat membantu penulis menyempurnakan draf pertama makalah mereka sebelum tinjauan sejawat formal.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c95ebaf37f-dd1a6f-69ad2a) ## **Pendapat yang diberikan GPT-4 kepada Anda mungkin lebih baik daripada manusia**Jadi, bagaimana caranya agar LLM mereview naskah Anda?Ini sangat sederhana, cukup ekstrak teks dari kertas PDF, masukkan ke GPT-4, dan itu akan segera menghasilkan masukan.Secara khusus, kita perlu mengekstrak dan mengurai judul, abstrak, gambar, judul tabel, dan teks utama makalah dari PDF.Kemudian beri tahu GPT-4 bahwa Anda harus mengikuti formulir umpan balik tinjauan konferensi jurnal terkemuka di industri, yang mencakup empat bagian - apakah hasilnya penting dan baru, alasan makalah diterima, alasan penolakan makalah, dan saran perbaikan.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-99f82aa845-dd1a6f-69ad2a) Seperti terlihat pada gambar di bawah, GPT-4 memberikan opini yang sangat konstruktif, dan masukan tersebut mencakup empat bagian.Apa kekurangan dalam makalah ini?GPT-4 dengan tegas menunjukkan: Meskipun makalah tersebut menyebutkan fenomena kesenjangan modal, makalah tersebut tidak mengusulkan metode untuk mengurangi kesenjangan tersebut, juga tidak membuktikan manfaat dari upaya tersebut.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-a75cd81009-dd1a6f-69ad2a) Para peneliti membandingkan umpan balik manusia dan umpan balik LLM pada 3.096 makalah seri Nature dan 1.709 makalah ICLR.Saluran pencocokan komentar dua tahap masing-masing mengekstrak poin komentar di LLM dan umpan balik manusia, lalu melakukan pencocokan teks semantik untuk mencocokkan poin komentar umum antara LLM dan umpan balik manusia.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-6e7f4502ec-dd1a6f-69ad2a) Gambar di bawah adalah alur pencocokan tinjauan dua tahap yang spesifik.Untuk setiap ulasan berpasangan, peringkat kesamaan diberikan beserta alasannya.Para peneliti menetapkan ambang kesamaan menjadi 7, dan komentar yang kurang cocok akan disaring.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-666999854c-dd1a6f-69ad2a) Dalam dua kumpulan data Nature dan ICLR, rata-rata panjang token makalah dan komentar manusia adalah sebagai berikut.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5099128c94-dd1a6f-69ad2a) Penelitian ini melibatkan 308 peneliti dari 110 institusi AI dan institusi biologi komputasi di Amerika Serikat.Setiap peneliti mengunggah makalah yang ditulisnya, membaca feedback LLM, kemudian mengisi evaluasi dan perasaannya sendiri terhadap feedback LLM.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-aa16a428ce-dd1a6f-69ad2a) Hasilnya menunjukkan bahwa para peneliti umumnya percaya bahwa umpan balik yang dihasilkan oleh LLM memiliki banyak tumpang tindih dengan hasil peninjau manusia dan biasanya sangat membantu.Kalaupun ada kekurangannya adalah kurang spesifik.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c59fbf66e3-dd1a6f-69ad2a)如下图所示，对于提交给Nature的论文，大约三分之一（30.85%) komentar GPT-4 tumpang tindih dengan komentar pengulas manusia.Dalam makalah ICLR, lebih dari sepertiga (39,23%) komentar GPT-4 tumpang tindih dengan komentar manusia yang melakukan review.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f97da8249a-dd1a6f-69ad2a) ## **LLM dan peninjau manusia memiliki prioritas yang sedikit berbeda**Berikut komentar LLM dan komentar manusia pada makalah ICLR yang sama, terlihat bahwa LLM memiliki visi yang sangat keji dan komentarnya sangat to the point.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5da421cd8a-dd1a6f-69ad2a) Misalnya, dibandingkan dengan penelitian sebelumnya, pengulas manusia menyatakan:> Perbandingannya cacat. Secara khusus, kehilangan konsistensi label dan konsistensi pusat pada metode GNN tidak dipertimbangkan. Perbandingan yang lebih adil adalah dengan menggunakan metode GNN yang memperhitungkan kedua kerugian tersebut.Evaluasi GPT-4 adalah:> Makalah ini tidak memiliki perbandingan menyeluruh dengan metode yang ada. Meskipun penulis membandingkan data dasar untuk beberapa metode, diperlukan perbandingan yang lebih komprehensif.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-add7471006-dd1a6f-69ad2a) Dalam hal keandalan teoretis, pengulas manusia memberikan pendapat ini—> IMHO, pembuktian teorinya terlalu sepele. Kesimpulan akhirnya adalah jika kemiripannya sesuai, maka tindakan yang diprediksikan adalah akurat. Karena model mempelajari kesamaan yang benar, hal ini sama dengan mengatakan bahwa jika model h dilatih dengan baik, keluarannya akan benar. Ini jelas sekali.Pendapat GPT-4 adalah:> Penulis sebaiknya memberikan analisis yang lebih teoritis untuk membandingkan hubungan antara transfer informasi dan kendala konsistensi, sehingga dapat lebih mudah dipahami oleh pembaca.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-1d4e989d52-dd1a6f-69ad2a) Dalam hal reproduktifitas penelitian, pengulas manusia berharap makalah tersebut dapat memberikan kode sehingga pembaca lain dapat mereproduksi eksperimen tersebut.GPT-4 juga memberikan pendapat yang sama mengenai hal ini: "Penulis harus memberikan informasi yang lebih rinci tentang pengaturan eksperimental untuk memastikan reproduktifitas penelitian."![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-b5397c5954-dd1a6f-69ad2a)  ![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-3cd2b9ce5b-dd1a6f-69ad2a) Pengguna yang berpartisipasi dalam survei umumnya percaya bahwa umpan balik LLM dapat membantu meningkatkan keakuratan ulasan dan mengurangi beban kerja pengulas manusia. Dan sebagian besar pengguna berniat menggunakan sistem umpan balik LLM lagi.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c81068ffbb-dd1a6f-69ad2a) Menariknya, reviewer LLM mempunyai ciri khas tersendiri dibandingkan dengan reviewer manusia.Misalnya, laporan ini menyebutkan faktor dampak 7,27 kali lebih sering dibandingkan peninjau manusia.Peninjau manusia akan lebih cenderung meminta eksperimen ablasi tambahan, sementara LLM akan fokus meminta eksperimen pada lebih banyak kumpulan data.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5936a65bb9-dd1a6f-69ad2a) Semua netizen berkata: Karya ini luar biasa!Beberapa orang juga mengatakan bahwa sebenarnya saya sudah melakukan ini sejak lama, saya telah menggunakan berbagai LLM untuk membantu saya meringkas dan menyempurnakan makalah saya.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-cb1384de5a-dd1a6f-69ad2a) Ada yang bertanya, apakah pengulas GPT akan bias dalam memenuhi standar tinjauan sejawat saat ini?![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-35621b5367-dd1a6f-69ad2a) Beberapa orang juga mengajukan pertanyaan mengenai penghitungan tumpang tindih antara GPT dan opini tinjauan manusia. Apakah indikator ini berguna?Pahami bahwa, idealnya, pengulas tidak boleh mempunyai terlalu banyak pendapat yang tumpang tindih, dan mereka dipilih dengan tujuan untuk memberikan perspektif yang berbeda.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-d52f5c677d-dd1a6f-69ad2a) Namun setidaknya, penelitian ini memberi tahu kita bahwa LLM memang bisa digunakan sebagai alat untuk merevisi makalah.## **Tiga langkah, biarkan LLM meninjau naskah untuk Anda**1. Buat server penguraian PDF dan jalankan di latar belakang:*conda env create -f conda_environment.ymlconda activation ScienceBeampython -m sciencebeam_parser.service.server *--port=8080 # Pastikan ini berjalan di latar belakang*2. Buat dan jalankan server umpan balik LLM:*conda create -n llm python=3.10conda activation llmpip install -r requiremen.txtcat YOUR_OPENAI_API_KEY > key.txt # Ganti YOUR_OPENAI_API_KEY dengan kunci API OpenAI Anda yang dimulai dengan "sk-"python main.py3. Buka browser web dan unggah makalah Anda:Buka dan unggah makalah Anda, dan Anda akan mendapatkan umpan balik yang dihasilkan LLM dalam waktu sekitar 120 detik.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-ea66ec7536-dd1a6f-69ad2a) ## **tentang Penulis****Weixin Liang**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-a96905164d-dd1a6f-69ad2a) Weixin Liang adalah mahasiswa PhD di Departemen Ilmu Komputer di Universitas Stanford dan anggota Laboratorium Kecerdasan Buatan Stanford (SAIL), di bawah pengawasan Profesor James Zou.Sebelumnya, ia menerima gelar master di bidang teknik elektro dari Universitas Stanford, di bawah bimbingan Profesor James Zou dan Profesor Zhou Yu; dan gelar sarjana di bidang ilmu komputer dari Universitas Zhejiang, di bawah bimbingan Profesor Kai Bu dan Profesor Mingli Song .Dia pernah magang di Amazon Alexa AI, Apple, dan Tencent, dan pernah bekerja dengan Profesor Daniel Jurafsky, Daniel A. McFarland, dan Serena Yeung.**Yuhui Zhang**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-08b1234bb7-dd1a6f-69ad2a) Yuhui Zhang adalah mahasiswa PhD di Departemen Ilmu Komputer di Universitas Stanford, di bawah pengawasan Profesor Serena Yeung.Penelitiannya berfokus pada pembangunan sistem kecerdasan buatan multimodal dan pengembangan aplikasi kreatif yang memanfaatkan informasi multimodal.Sebelumnya, ia menyelesaikan studi sarjana dan magisternya di Universitas Tsinghua dan Universitas Stanford, serta bekerja dengan peneliti terkemuka seperti Profesor James Zou, Profesor Chris Manning, dan Profesor Jure Leskovec.**Hancheng Cao**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c177675ce7-dd1a6f-69ad2a) Hancheng Cao adalah mahasiswa doktoral tahun keenam di Departemen Ilmu Komputer di Universitas Stanford (mengambil jurusan Ilmu dan Teknik Manajemen). Ia juga merupakan anggota Grup NLP dan Grup Interaksi Manusia-Komputer di Universitas Stanford, diawasi oleh Profesor Dan McFarland dan Michael Bernstein.Ia menerima gelar sarjana teknik elektronik dari Universitas Tsinghua pada tahun 2018 dengan pujian.Sejak 2015, ia bekerja sebagai asisten peneliti di Universitas Tsinghua, di bawah pengawasan Profesor Li Yong dan Profesor Vassilis Kostakos (Universitas Melbourne). Pada musim gugur 2016, dia bekerja di bawah bimbingan Profesor Hanan Samet, Profesor Universitas Terhormat di Universitas Maryland. Pada musim panas 2017, ia bekerja sebagai mahasiswa pertukaran dan asisten peneliti di MIT Media Lab Human Dynamics Group, dibimbing oleh Profesor Alex 'Sandy' Pentland Xiaowen Dong.Minat penelitiannya meliputi ilmu sosial komputasi, komputasi sosial, dan ilmu data.Referensi: