GPT-4 đã trở thành người đánh giá Nature? Cựu sinh viên Stanford và Tsinghua đã thử nghiệm gần 5.000 bài báo và hơn 50% kết quả phù hợp với người đánh giá

**Nguồn:**Xinzhiyuan

Giới thiệu: Các học giả Stanford đã phát hiện ra rằng các ý kiến đánh giá do GPT-4 đưa ra trên các bài báo của Nature và ICLR giống hơn 50% với các ý kiến đánh giá của con người. Có vẻ như việc để những mô hình lớn giúp chúng ta xem xét các bài báo không phải là điều viển vông.

GPT-4 đã được thăng hạng thành công lên người đánh giá!

Gần đây, các nhà nghiên cứu từ Đại học Stanford và các tổ chức khác đã gửi hàng nghìn bài báo hội nghị hàng đầu từ Nature, ICLR, v.v. tới GPT-4, cho phép GPT-4 tạo ra các nhận xét đánh giá và đề xuất sửa đổi, sau đó so sánh chúng với các ý kiến do con người đánh giá đưa ra. So sánh.

Địa chỉ giấy:

Kết quả là GPT-4 không chỉ thực hiện công việc một cách hoàn hảo mà thậm chí còn làm tốt hơn con người!

Hơn 50% ý kiến mà nó đưa ra đồng ý với ít nhất một người đánh giá.

Và hơn 82,4% tác giả cho rằng các ý kiến GPT-4 đưa ra khá hữu ích.

James Zou, tác giả của bài báo, kết luận: Chúng tôi vẫn cần phản hồi chất lượng cao của con người, nhưng LLM có thể giúp các tác giả cải thiện bản thảo đầu tiên của bài báo trước khi bình duyệt chính thức.

## Những ý kiến mà GPT-4 đưa ra cho bạn có thể tốt hơn con người

Vì vậy, làm thế nào để LLM xem xét bản thảo của bạn?

Rất đơn giản, chỉ cần trích xuất văn bản từ bản PDF giấy, đưa nó vào GPT-4 và nó sẽ tạo ra phản hồi ngay lập tức.

Cụ thể, chúng ta cần trích xuất và phân tích tiêu đề, bản tóm tắt, số liệu, tiêu đề bảng và văn bản chính của bài báo từ một tệp PDF.

Sau đó, nói với GPT-4 rằng bạn cần tuân theo biểu mẫu phản hồi đánh giá của các hội nghị tạp chí hàng đầu trong ngành, bao gồm bốn phần - liệu kết quả có quan trọng và mới lạ hay không, lý do bài báo được chấp nhận, lý do bài báo bị từ chối, và các đề xuất cải tiến.

Như bạn có thể thấy trong hình bên dưới, GPT-4 đã đưa ra những ý kiến rất mang tính xây dựng và phản hồi bao gồm bốn phần.

Những sai sót trong bài viết này là gì?

GPT-4 đã chỉ ra rõ ràng: Mặc dù bài báo có đề cập đến hiện tượng khoảng cách phương thức nhưng nó không đề xuất phương pháp để giảm khoảng cách, cũng như không chứng minh được lợi ích của việc làm đó.

Các nhà nghiên cứu đã so sánh phản hồi của con người và phản hồi LLM trên 3.096 bài báo thuộc loạt bài Nature và 1.709 bài báo ICLR.

Quy trình đối sánh nhận xét hai giai đoạn lần lượt trích xuất các điểm nhận xét trong LLM và phản hồi của con người, sau đó thực hiện đối sánh văn bản ngữ nghĩa để khớp với các điểm nhận xét chung giữa LLM và phản hồi của con người.

Hình dưới đây là quy trình đánh giá phù hợp gồm hai giai đoạn cụ thể.

Đối với mỗi đánh giá theo cặp, xếp hạng tương tự được đưa ra kèm theo lý do căn bản.

Các nhà nghiên cứu đặt ngưỡng tương tự là 7 và những nhận xét có mức độ trùng khớp yếu sẽ được lọc ra.

Trong hai bộ dữ liệu của Nature và ICLR, độ dài mã thông báo trung bình của các bài báo và nhận xét của con người như sau.

Nghiên cứu này có sự tham gia của 308 nhà nghiên cứu từ 110 tổ chức AI và sinh học tính toán ở Hoa Kỳ.

Mỗi nhà nghiên cứu tải lên bài báo mình viết, đọc phản hồi LLM, sau đó điền đánh giá và cảm nhận của riêng mình về phản hồi LLM.

Kết quả cho thấy các nhà nghiên cứu thường tin rằng phản hồi do LLM tạo ra có sự trùng lặp lớn với kết quả của những người đánh giá và thường rất hữu ích.

Nếu có thiếu sót thì đó là nó kém cụ thể hơn một chút.

如下图所示,对于提交给Nature的论文,大约三分之一(30.85%) nhận xét của GPT-4 trùng lặp với nhận xét của người đánh giá.

Trong các bài báo của ICLR, hơn một phần ba (39,23%) nhận xét của GPT-4 trùng lặp với nhận xét của người đánh giá.

## LLM và người đánh giá có mức độ ưu tiên hơi khác nhau

Sau đây là những bình luận của LLM và những bình luận của con người trên cùng một bài báo ICLR, có thể thấy LLM có tầm nhìn rất luẩn quẩn và những bình luận rất đi thẳng vào vấn đề.

Ví dụ, so với nghiên cứu trước đây, các nhà đánh giá con người đã nêu:

So sánh là thiếu sót. Đặc biệt, tính nhất quán nhãn và tổn thất tính nhất quán trung tâm của phương pháp GNN không được xem xét. Một so sánh công bằng hơn sẽ là sử dụng phương pháp GNN có tính đến cả hai tổn thất.

Đánh giá của GPT-4 là:

Bài viết thiếu sự so sánh kỹ lưỡng với các phương pháp hiện có. Mặc dù các tác giả đã so sánh đường cơ sở của một số phương pháp nhưng vẫn cần có sự so sánh toàn diện hơn.

Về độ tin cậy về mặt lý thuyết, những người đánh giá đã đưa ra ý kiến này——

IMHO, chứng minh lý thuyết quá tầm thường. Kết luận cuối cùng là nếu sự tương đồng là phù hợp thì hành động được dự đoán là chính xác. Vì mô hình đang học độ tương tự chính xác, nên điều đó tương đương với việc nói rằng nếu mô hình h được đào tạo tốt thì đầu ra sẽ chính xác. Điều này là hiển nhiên.

Ý kiến của GPT-4 là:

Tác giả nên cung cấp thêm những phân tích mang tính lý thuyết để so sánh mối liên hệ giữa việc truyền tải thông tin và những ràng buộc về tính nhất quán, để người đọc dễ hiểu hơn.

Về khả năng tái tạo của nghiên cứu, những người đánh giá con người hy vọng rằng bài báo có thể cung cấp mã để những người đọc khác có thể tái tạo thử nghiệm.

GPT-4 cũng đưa ra quan điểm tương tự về vấn đề này: “Các tác giả nên cung cấp thông tin chi tiết hơn về cài đặt thử nghiệm để đảm bảo tính tái lập của nghiên cứu”.

Người dùng tham gia khảo sát thường tin rằng phản hồi LLM có thể giúp cải thiện độ chính xác của đánh giá và giảm khối lượng công việc của người đánh giá. Và hầu hết người dùng đều có ý định sử dụng lại hệ thống phản hồi LLM.

Điều thú vị là người đánh giá LLM có những đặc điểm riêng so với người đánh giá là con người.

Ví dụ: nó đề cập đến các yếu tố tác động thường xuyên hơn 7,27 lần so với người đánh giá là con người.

Những người đánh giá là con người sẽ có nhiều khả năng yêu cầu các thử nghiệm cắt bỏ bổ sung hơn, trong khi LLM sẽ tập trung vào việc yêu cầu các thử nghiệm trên nhiều tập dữ liệu hơn.

Cư dân mạng đều nói: Tác phẩm này thật tuyệt vời!

Cũng có người nói rằng thực ra tôi làm nghề này cũng lâu rồi, tôi đã sử dụng nhiều LLM khác nhau để giúp tôi tổng hợp và hoàn thiện bài viết của mình.

Có người hỏi, vậy liệu những người đánh giá GPT có thiên vị để đáp ứng các tiêu chuẩn đánh giá ngang hàng ngày nay không?

Một số người cũng đặt ra câu hỏi về việc định lượng sự chồng chéo giữa GPT và ý kiến đánh giá của con người, liệu chỉ số này có hữu ích không?

Hãy hiểu rằng, lý tưởng nhất là người đánh giá không nên có quá nhiều ý kiến trùng lặp và họ được lựa chọn với mục đích đưa ra những góc nhìn khác nhau.

Nhưng ít nhất, nghiên cứu này cho chúng ta biết rằng LLM thực sự có thể được sử dụng như một công cụ để sửa đổi bài viết.

Ba bước, hãy để LLM xem lại bản thảo cho bạn

  1. Tạo một máy chủ phân tích cú pháp PDF và chạy nó ở chế độ nền:

conda env create -f conda_environment.ymlconda activate ScienceBeampython -m sciencebeam_parser.service.server --port=8080 # Đảm bảo cái này đang chạy ở chế độ nền 2. Tạo và chạy máy chủ phản hồi LLM:

conda create -n llm python=3.10conda activate llmpip install -r require.txtcat YOUR_OPENAI_API_KEY > key.txt # Thay thế YOUR_OPENAI_API_KEY bằng khóa API OpenAI của bạn bắt đầu bằng "sk-"python main.py

  1. Mở trình duyệt web và tải bài viết của bạn lên:

Mở và tải bài viết của bạn lên và bạn sẽ nhận được phản hồi do LLM tạo trong khoảng 120 giây.

## Giới thiệu về tác giả

Lương Vệ Tâm

Weixin Liang là nghiên cứu sinh tiến sĩ tại Khoa Khoa học Máy tính tại Đại học Stanford và là thành viên của Phòng thí nghiệm Trí tuệ Nhân tạo Stanford (SAIL), dưới sự giám sát của Giáo sư James Zou.

Trước đó, anh nhận bằng thạc sĩ về kỹ thuật điện tại Đại học Stanford, dưới sự hướng dẫn của Giáo sư James Zou và Giáo sư Chu Du; và bằng cử nhân khoa học máy tính tại Đại học Chiết Giang, dưới sự hướng dẫn của Giáo sư Kai Bu và Giáo sư Mingli Song. .

Anh đã từng thực tập tại Amazon Alexa AI, Apple và Tencent, đồng thời từng làm việc với các Giáo sư Daniel Jurafsky, Daniel A. McFarland và Serena Yeung.

Trương Vũ Huy

Yuhui Zhang là nghiên cứu sinh tiến sĩ tại Khoa Khoa học Máy tính tại Đại học Stanford, dưới sự hướng dẫn của Giáo sư Serena Yeung.

Nghiên cứu của ông tập trung vào việc xây dựng hệ thống trí tuệ nhân tạo đa phương thức và phát triển các ứng dụng sáng tạo được hưởng lợi từ thông tin đa phương thức.

Trước đó, anh đã hoàn thành chương trình học đại học và thạc sĩ tại Đại học Thanh Hoa và Đại học Stanford, đồng thời làm việc với các nhà nghiên cứu xuất sắc như Giáo sư James Zou, Giáo sư Chris Manning và Giáo sư Jure Leskovec.

Hán thành Tào

Han Cheng Cao là nghiên cứu sinh tiến sĩ năm thứ sáu tại Khoa Khoa học Máy tính tại Đại học Stanford (ngành phụ về Khoa học Quản lý và Kỹ thuật), đồng thời là thành viên của Nhóm NLP và Nhóm Tương tác Con người-Máy tính tại Đại học Stanford, dưới sự giám sát của Giáo sư Dan. McFarland và Michael Bernstein.

Anh đã nhận bằng cử nhân danh dự về kỹ thuật điện tử của Đại học Thanh Hoa vào năm 2018.

Từ năm 2015, ông làm trợ lý nghiên cứu tại Đại học Thanh Hoa, dưới sự hướng dẫn của Giáo sư Li Yong và Giáo sư Vassilis Kostakos (Đại học Melbourne). Mùa thu năm 2016, ông làm việc dưới sự hướng dẫn của Giáo sư Hanan Samet, Giáo sư Đại học Xuất sắc của Đại học Maryland. Vào mùa hè năm 2017, anh làm sinh viên trao đổi và trợ lý nghiên cứu trong Nhóm Động lực Con người của Phòng thí nghiệm Truyền thông MIT, dưới sự hướng dẫn của Giáo sư Xiaowen Dong của Alex 'Sandy' Pentland.

Mối quan tâm nghiên cứu của ông bao gồm khoa học xã hội tính toán, điện toán xã hội và khoa học dữ liệu.

Người giới thiệu:

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Chia sẻ
Bình luận
0/400
Không có bình luận
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)