GPT-4 không thể thoát khỏi “lời nguyền đảo ngược”! Nghiên cứu mới phát hiện ra rằng các mô hình lớn có sai sót trong lập luận, biết "A là B" không thể suy ra "B là A"

Nguồn gốc: Qubits

Nguồn hình ảnh: Được tạo bởi AI không giới hạn

Đại mẫu biết “mẹ mày là mẹ mày” nhưng không trả lời được “con là con của mẹ”? ?

Một nghiên cứu mới như vậy đã khơi dậy toàn bộ cuộc thảo luận ngay khi nó được xuất bản.

Các nhà nghiên cứu từ Đại học Vanderbilt, Đại học Sussex, Đại học Oxford và các tổ chức nghiên cứu khác đã rất ngạc nhiên khi phát hiện:

Một mô hình ngôn ngữ lớn được cung cấp dữ liệu dưới dạng "A là B" trong quá trình đào tạo và nó sẽ không tự động suy ra "B là A". Có hiện tượng "lời nguyền đảo ngược" ở các mô hình lớn.

Thậm chí còn tốt hơn GPT-4, trong thử nghiệm bài toán ngược, tỷ lệ chính xác chỉ 33%.

Thành viên sáng lập OpenAI Andrej Karpathy ngay lập tức chuyển tiếp bài viết này và bình luận:

Kiến thức LLM “mảnh vỡ” hơn nhiều so với mọi người nghĩ, và tôi vẫn chưa có trực giác tốt về nó.

Chính xác thì điều gì đang xảy ra vậy?

"Lời nguyền đảo ngược" của người mẫu cỡ lớn

Các nhà nghiên cứu đã tiến hành hai thí nghiệm chính.

Trong thử nghiệm đầu tiên, các nhà nghiên cứu đã xây dựng dạng dữ liệu sau với sự trợ giúp của GPT-4 để tinh chỉnh một mô hình lớn.

là... (hoặc ngược lại)

Tất cả những cái tên này đều là hư cấu để tránh những người mẫu lớn nhìn thấy chúng trong quá trình huấn luyện.

Kết quả thử nghiệm trên GPT-3-175B cho thấy mô hình đưa ra câu trả lời tốt khi lời nhắc khớp với thứ tự mô tả được đưa ra trong tập dữ liệu.

Nhưng khi đảo ngược thứ tự, độ chính xác của mô hình ** thậm chí còn giảm thẳng xuống 0**.

Ví dụ: ngay cả khi mô hình lớn đã nhận được dữ liệu "Daphne là đạo diễn của" Journey of Time "", khi bạn hỏi "Daphne là ai?", nó có thể trả lời tốt. Nhưng khi đến lượt bạn hỏi “Ai là đạo diễn của Hành trình xuyên thời gian” thì người mẫu lại bối rối.

Các nhà nghiên cứu cũng thu được kết quả thử nghiệm tương tự trên GPT-3-350M và Llama-7B.

Chúng ta hãy xem lại Thí nghiệm 2. Trong thí nghiệm này, các nhà nghiên cứu đã kiểm tra khả năng của mô hình ngôn ngữ lớn trong việc đảo ngược quá trình xử lý thông tin người nổi tiếng thực sự mà không cần tinh chỉnh.

Họ đã thu thập danh sách 1.000 người nổi tiếng nhất từ IMDB (2023) và hỏi GPT-4 về cha mẹ của những người này thông qua API OpenAI, tạo ra 1.573 cặp cha mẹ con cái là người nổi tiếng.

Người ta nhận thấy rằng nếu câu hỏi như thế này - "Mẹ của Tom Cruise tên gì?", độ chính xác của câu trả lời GPT-4 là 79%. Nhưng khi câu hỏi bị đảo ngược thành “Con trai của Mary Lee Pfeiffer (mẹ Tom Cruise) tên gì?”, độ chính xác của câu trả lời của GPT-4 giảm xuống còn 33%.

Các nhà nghiên cứu cũng tiến hành thử nghiệm tương tự trên mô hình họ Llama-1. Trong thử nghiệm, độ chính xác của tất cả các mô hình khi trả lời câu hỏi “Cha mẹ là ai” cao hơn nhiều so với độ chính xác khi trả lời câu hỏi “Con là ai”**.

Các nhà nghiên cứu đã đặt tên cho hiện tượng này là “lời nguyền đảo ngược”. Họ tin rằng điều này bộc lộ những hạn chế đặc trưng của các mô hình ngôn ngữ trong lý luận và khái quát hóa.

Owain Evans, tác giả tương ứng của bài báo và nhà nghiên cứu tại Đại học Oxford, giải thích:

Tại sao Lời Nguyền Đảo Ngược lại đáng được quan tâm?

  1. Điều này cho thấy mô hình ngôn ngữ lớn còn thiếu khả năng suy luận trong quá trình huấn luyện.
  2. Sự xuất hiện đồng thời của “A là B” và “B là A” là một mô hình có hệ thống trong tập huấn luyện trước. LLM tự hồi quy hoàn toàn không thể học meta mẫu này, xác suất nhật ký của nó không thay đổi và ngay cả khi kích thước tham số được mở rộng từ 350M lên 175B, nó cũng không cải thiện được vấn đề này.

Một điều nữa

Nhưng một lần nữa, phải chăng con người cũng bị ảnh hưởng bởi “lời nguyền đảo ngược”?

Một số cư dân mạng đã làm một bài kiểm tra như vậy.

Trước câu hỏi “Ai là con trai của Mary Lee Pfeiffer South?”, GPT-4 lập tức đầu hàng.

Nhưng khi cư dân mạng này nhắc nhở rằng "con trai cô ấy rất nổi tiếng, bạn phải biết anh ấy", GPT-4 mới bừng sáng ngay tại chỗ và đưa ra đáp án chính xác là "Tom Cruise".

** **###### X cư dân mạng @TonyZador

Vì vậy, bạn có thể phản ứng?

Liên kết tham khảo: [1] [2] [3]

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Chia sẻ
Bình luận
0/400
Không có bình luận
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)