GPT-4 Nature eleştirmeni mi oldu? Stanford ve Tsinghua mezunları yaklaşık 5.000 makaleyi test etti ve sonuçların %50'sinden fazlası gerçek kişiler tarafından yapılan incelemelerle tutarlıydı

Question

**Kaynak:**Xinzhiyuan**Giriş:** Stanford akademisyenleri, GPT-4'ün Nature ve ICLR makaleleri hakkında verdiği inceleme görüşlerinin, insan incelemecilerin görüşlerine %50'den fazla benzer olduğunu keşfettiler. Büyük modellerin makaleleri incelememize yardımcı olmasına izin vermek bir fantezi değil gibi görünüyor.GPT-4 başarıyla incelemeciye yükseltildi!Yakın zamanda Stanford Üniversitesi'nden ve diğer kurumlardan araştırmacılar, Nature, ICLR vb. kaynaklardan binlerce önemli konferans makalesini GPT-4'e göndererek inceleme yorumları ve düzeltme önerileri oluşturmasına ve ardından bunları insan incelemeciler tarafından verilen görüşlerle karşılaştırmasına olanak tanıdı. Karşılaştırmak.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-ed5158ceb6-dd1a6f-69ad2a) Kağıt adresi:Sonuç olarak, GPT-4 sadece işi mükemmel bir şekilde yapmakla kalmadı, hatta insanlardan daha iyi yaptı!![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-8ea8567a02-dd1a6f-69ad2a) Verdiği görüşlerin %50'sinden fazlası en az bir gerçek kişi incelemecinin görüşüne katılıyor.Yazarların %82,4'ünden fazlası GPT-4 tarafından verilen görüşlerin oldukça faydalı olduğunu söyledi.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-dc4a8b7e4a-dd1a6f-69ad2a) Makalenin yazarı James Zou şu sonuca varmıştır: Hala yüksek kaliteli insan geri bildirimine ihtiyacımız var, ancak Yüksek Lisans, yazarların resmi hakem değerlendirmesinden önce makalenin ilk taslağını geliştirmelerine yardımcı olabilir.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c95ebaf37f-dd1a6f-69ad2a) ## **GPT-4'ün size verdiği görüşler insanlardan daha iyi olabilir**Peki LLM'nin taslağınızı incelemesini nasıl sağlayabilirsiniz?Çok basit; metni kağıt PDF'den çıkarın, GPT-4'e besleyin; anında geri bildirim oluşturacaktır.Özellikle makalenin başlığını, özetini, şekillerini, tablo başlıklarını ve ana metnini bir PDF'den çıkarmamız ve ayrıştırmamız gerekiyor.Ardından GPT-4'e, sektörün en iyi dergi konferanslarının dört bölümden oluşan inceleme geri bildirim formunu takip etmeniz gerektiğini söyleyin: sonuçların önemli ve yeni olup olmadığı, makalenin kabul edilme nedenleri, makalenin reddedilme nedenleri, ve iyileştirme önerileri.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-99f82aa845-dd1a6f-69ad2a) Aşağıdaki resimden de görebileceğiniz gibi GPT-4 oldukça yapıcı görüşler vermiş ve geri bildirimler dört bölümden oluşuyordu.Bu yazıdaki kusurlar nelerdir?GPT-4 açıkça şunu belirtti: Makalede modal boşluk olgusundan bahsedilmesine rağmen, ne boşluğu azaltacak bir yöntem önerildi ne de bunu yapmanın yararları kanıtlandı.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-a75cd81009-dd1a6f-69ad2a) Araştırmacılar, 3.096 Nature serisi makalesi ve 1.709 ICLR makalesi üzerinde insan geri bildirimi ile Yüksek Lisans geri bildirimini karşılaştırdı.İki aşamalı yorum eşleştirme hattı, sırasıyla Yüksek Lisans ve insan geri bildirimindeki yorum noktalarını çıkarır ve ardından Yüksek Lisans ve insan geri bildirimi arasındaki ortak yorum noktalarını eşleştirmek için anlamsal metin eşleştirmesi gerçekleştirir.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-6e7f4502ec-dd1a6f-69ad2a) Aşağıdaki şekil özel bir iki aşamalı inceleme eşleştirme hattıdır.Her eşleştirilmiş inceleme için benzerlik derecesi bir gerekçeyle birlikte verilir.Araştırmacılar benzerlik eşiğini 7 olarak belirledi ve zayıf eşleşen yorumlar filtrelenecek.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-666999854c-dd1a6f-69ad2a) Nature ve ICLR'nin iki veri setinde, makalelerin ve insan yorumlarının ortalama token uzunlukları aşağıdaki gibidir.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5099128c94-dd1a6f-69ad2a) Bu çalışmaya Amerika Birleşik Devletleri'ndeki 110 yapay zeka kurumundan ve hesaplamalı biyoloji kurumundan 308 araştırmacı katıldı.Her araştırmacı yazdığı makaleyi yükledi, LLM geribildirimini okudu ve ardından LLM geribildirimiyle ilgili kendi değerlendirmesini ve duygularını doldurdu.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-aa16a428ce-dd1a6f-69ad2a) Sonuçlar, araştırmacıların genel olarak Yüksek Lisans tarafından oluşturulan geri bildirimin, insan incelemecilerin sonuçlarıyla büyük ölçüde örtüştüğüne ve genellikle çok faydalı olduğuna inandığını göstermektedir.Eğer bir eksiklik varsa o da biraz daha az spesifik olmasıdır.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c59fbf66e3-dd1a6f-69ad2a)如下图所示，对于提交给Nature的论文，大约三分之一（30.85%) GPT-4 yorumlarının oranı, gerçek kişi olan incelemeci yorumlarıyla örtüşüyor.ICLR makalelerinde, GPT-4 yorumlarının üçte birinden fazlası (%39,23) insan incelemeci yorumlarıyla örtüşmektedir.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f97da8249a-dd1a6f-69ad2a) ## **Yüksek Lisans ve insan incelemecilerin öncelikleri biraz farklıdır**Aşağıda aynı ICLR makalesindeki LLM yorumları ve insan yorumları yer almaktadır: LLM'nin çok kısır bir vizyona sahip olduğu ve yorumların çok isabetli olduğu görülebilir.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5da421cd8a-dd1a6f-69ad2a) Örneğin, önceki araştırmalarla karşılaştırıldığında, gerçek kişi olan incelemeciler şunları ifade etmiştir:> Karşılaştırma hatalı. Özellikle GNN yönteminin etiket tutarlılığı ve merkez tutarlılık kayıpları dikkate alınmaz. Daha adil bir karşılaştırma, her iki kaybı da hesaba katan bir GNN yöntemi kullanmak olacaktır.GPT-4'ün değerlendirmesi şu şekildedir:> Makale mevcut yöntemlerle kapsamlı bir karşılaştırmadan yoksundur. Yazarlar bazı yöntemlerin temellerini karşılaştırsa da daha kapsamlı bir karşılaştırmaya ihtiyaç vardır.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-add7471006-dd1a6f-69ad2a) Teorik güvenilirlik açısından, gerçek kişi olan incelemeciler bu görüşü verdi ——> IMHO, teorinin kanıtı çok önemsiz. Nihai sonuç, eğer benzerlik uygunsa tahmin edilen eylemin doğru olduğudur. Model doğru benzerliği öğrendiği için, h modeli iyi eğitilmişse çıktının doğru olacağını söylemekle eşdeğerdir. Bu apaçık.GPT-4'ün görüşü şöyle:> Yazar, bilgi aktarımı ve tutarlılık kısıtlamaları arasındaki bağlantıyı karşılaştırmak için daha fazla teorik analiz sunmalıdır, böylece okuyucuların anlaması daha kolay olabilir.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-1d4e989d52-dd1a6f-69ad2a) Araştırmanın tekrarlanabilirliği açısından, insan incelemeciler makalenin diğer okuyucuların deneyi yeniden üretebilmesi için kod sağlayabileceğini umuyorlar.GPT-4 de bu konuda aynı görüşü verdi: "Yazarlar, çalışmanın tekrarlanabilirliğini sağlamak için deneysel ayarlar hakkında daha ayrıntılı bilgi vermelidir."![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-b5397c5954-dd1a6f-69ad2a)  ![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-3cd2b9ce5b-dd1a6f-69ad2a) Ankete katılan kullanıcılar genel olarak Yüksek Lisans geribildiriminin incelemelerin doğruluğunu artırmaya ve insan incelemecilerin iş yükünü azaltmaya yardımcı olabileceğine inanmaktadır. Ve çoğu kullanıcı LLM geri bildirim sistemini tekrar kullanmayı planlıyor.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c81068ffbb-dd1a6f-69ad2a) İlginçtir ki, LLM incelemecileri, insan incelemecilere kıyasla kendilerine özgü özelliklere sahiptir.Örneğin, etki faktörlerinden insan incelemecilerden 7,27 kat daha sık bahsediyor.İnsan incelemecilerin ek ablasyon deneyleri talep etme olasılıkları daha yüksek olacak, LLM ise daha fazla veri seti üzerinde deney talep etmeye odaklanacak.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5936a65bb9-dd1a6f-69ad2a) Netizenlerin hepsi şunu söyledi: Bu iş muhteşem!Bazı insanlar aslında bunu uzun zamandır yaptığımı, makalelerimi özetlememe ve geliştirmeme yardımcı olması için çeşitli yüksek lisans programlarından yararlandığımı söylüyor.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-cb1384de5a-dd1a6f-69ad2a) Birisi şu soruyu sordu: GPT incelemecileri günümüzün emsal değerlendirme standartlarını karşılamak için önyargılı mı olacaklar?![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-35621b5367-dd1a6f-69ad2a) Bazı kişiler ayrıca GPT ile gerçek kişi tarafından yapılan inceleme görüşleri arasındaki örtüşmenin niceliksel olarak belirlenmesi sorusunu da gündeme getirdi. Bu gösterge yararlı mıdır?İdeal olarak, değerlendiricilerin çok fazla örtüşen görüşe sahip olmaması gerektiğini ve farklı bakış açıları sunma amacıyla seçildiklerini anlayın.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-d52f5c677d-dd1a6f-69ad2a) Ancak en azından bu araştırma, Yüksek Lisans'ın gerçekten de makaleleri gözden geçirmek için bir araç olarak kullanılabileceğini bilmemizi sağlıyor.## **Üç adımda, LLM'nin taslağı sizin için incelemesine izin verin**1. Bir PDF ayrıştırma sunucusu oluşturun ve onu arka planda çalıştırın:*conda env create -f conda_environment.ymlconda active ScienceBeampython -m sciencebeam_parser.service.server *--port=8080 # Bunun arka planda çalıştığından emin olun*2. LLM geri bildirim sunucusunu oluşturun ve çalıştırın:*conda create -n llm python=3.10conda active llmpip install -r gereksinimleri.txtcat YOUR_OPENAI_API_KEY > key.txt # YOUR_OPENAI_API_KEY'inizi "sk-"python main.py ile başlayan OpenAI API anahtarınızla değiştirin3. Bir web tarayıcısı açın ve makalenizi yükleyin:Makalenizi açın ve yükleyin; yaklaşık 120 saniye içinde LLM tarafından oluşturulan geri bildirimi alacaksınız.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-ea66ec7536-dd1a6f-69ad2a) ## **yazar hakkında****Weixin Liang**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-a96905164d-dd1a6f-69ad2a) Weixin Liang, Stanford Üniversitesi Bilgisayar Bilimleri Bölümü'nde doktora öğrencisi ve Profesör James Zou'nun gözetiminde Stanford Yapay Zeka Laboratuvarı'nın (SAIL) üyesidir.Bundan önce, Profesör James Zou ve Profesör Zhou Yu'nun vesayeti altında Stanford Üniversitesi'nden elektrik mühendisliği alanında yüksek lisans derecesi aldı; Profesör Kai Bu ve Profesör Mingli Song'un vesayeti altında Zhejiang Üniversitesi'nden bilgisayar bilimleri alanında lisans derecesi aldı. .Amazon Alexa AI, Apple ve Tencent'te staj yaptı ve Profesörler Daniel Jurafsky, Daniel A. McFarland ve Serena Yeung ile çalıştı.**Yuhui Zhang**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-08b1234bb7-dd1a6f-69ad2a) Yuhui Zhang, Stanford Üniversitesi Bilgisayar Bilimleri Bölümü'nde Profesör Serena Yeung'un danışmanlığında doktora öğrencisidir.Araştırmaları çok modlu yapay zeka sistemleri oluşturmaya ve çok modlu bilgiden yararlanan yaratıcı uygulamalar geliştirmeye odaklanıyor.Bundan önce lisans ve yüksek lisans eğitimini Tsinghua Üniversitesi ve Stanford Üniversitesi'nde tamamlamış ve Profesör James Zou, Profesör Chris Manning ve Profesör Jure Leskovec gibi seçkin araştırmacılarla çalışmıştır.**Hancheng Cao**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c177675ce7-dd1a6f-69ad2a) Hancheng Cao, Stanford Üniversitesi Bilgisayar Bilimleri Bölümü'nde altıncı sınıf doktora öğrencisidir (Yönetim Bilimi ve Mühendisliği yan dal) Ayrıca Stanford Üniversitesi'nde Profesör Dan tarafından yönetilen NLP Grubu ve İnsan-Bilgisayar Etkileşimi Grubunun bir üyesidir. McFarland ve Michael Bernstein.Lisans derecesini 2018 yılında Tsinghua Üniversitesi'nden elektronik mühendisliği alanında onur derecesiyle aldı.2015'ten beri Tsinghua Üniversitesi'nde Profesör Li Yong ve Profesör Vassilis Kostakos'un (Melbourne Üniversitesi) gözetiminde araştırma görevlisi olarak çalışmaktadır. 2016 sonbaharında Maryland Üniversitesi Seçkin Üniversite Profesörü Profesör Hanan Samet'in rehberliğinde çalıştı. 2017 yazında, Alex 'Sandy' Pentland Profesörü Xiaowen Dong'un danışmanlığında MIT Medya Laboratuvarı İnsan Dinamikleri Grubu'nda değişim öğrencisi ve araştırma görevlisi olarak çalıştı.Araştırma alanları arasında hesaplamalı sosyal bilim, sosyal bilgi işlem ve veri bilimi yer almaktadır.Referanslar: