Đã vượt qua kỳ thi toán đại học MIT với số điểm GPT-4 đầy đủ! Nhóm lời nhắc này đang cháy hàng

Nguồn: Qubit

Không ngờ bài kiểm tra toán của MIT bị GPT-4 phá? !

Đột nhiên, ai đó đã đưa ra một thông báo nổi bật trong bài báo mới nhất:

GPT-4 Trong các kỳ thi cấp bằng đại học môn Toán và EECS (Khoa Khoa học Máy tính và Kỹ thuật Điện) của MIT, đã thể hiện khả năng đáp ứng đầy đủ các yêu cầu tốt nghiệp.

Và đúng cách được toàn điểm!

Bạn biết đấy, không ai khác chính là nhóm nghiên cứu từ MIT, Đại học Boston và Đại học Cornell đã đo lường kết quả này.

Và nó mạnh hơn vua thế hệ trước GPT-3.5, trong cùng một thử nghiệm, nó chỉ thành công một phần ba.

△Điểm kiểm tra GPT-3.5

Tờ báo vừa xuất hiện, đã bị vô số ánh mắt nhanh chóng thu hút.

Hành vi dường như hack của GPT-4 đã tự nhiên khơi dậy cảm xúc của nhiều cư dân mạng.

Tốt hơn nhiều so với GPT-3.5, vâng!

Hãy nói xem, liệu có thể giải quyết các vấn đề học thuật mà không có mô hình mạnh hơn GPT-4 trong tương lai không?

Một số cư dân mạng đã thể hiện sự "sành sỏi" của mình khi lướt mạng, chơi trò rình mò mà Yann LeCun đã phàn nàn về "IQ GPT-4 không bằng một con chó" trong hai ngày qua:

GPT-4 mở kỳ thi MIT

Cụ thể, GPT-4 đã tham gia thử nghiệm lần này như vậy:

Nhóm nghiên cứu đã tuyển chọn một bộ dữ liệu chứa 4.550 vấn đề và giải pháp.

4.550 bài toán và lời giải này là từ các bộ bài toán, bài kiểm tra giữa kỳ và bài kiểm tra cuối kỳ mà sinh viên** từ Khoa Toán và EECS của MIT cần phải học để lấy bằng đại học. **

bao gồm:

6-1: Khoa học và Kỹ thuật Điện; 6-2: Kỹ thuật Điện và Khoa học Máy tính; 6-3: Khoa học và Kỹ thuật Máy tính; 6-4: Trí tuệ nhân tạo và ra quyết định; 18-1: Toán chung; 18-2: Toán ứng dụng; 18-3: Toán thuần túy; 18-C: Toán và Tin học.

Tóm tắt phân loại chi tiết từng chuyên ngành

Tất cả các câu hỏi đều từ bộ dữ liệu MIT, từ đó có 228 câu hỏi được tạo ngẫu nhiên, các vấn đề không liên quan đến hình ảnh và các giải pháp hiện có.

Mức độ khó của các chuyên đề theo thứ tự từ dễ đến khó là: bài tập, bài thực hành, thi giữa kỳ, thi cuối kỳ, thí nghiệm và dự án đặc biệt.

Được sắp xếp theo dạng đáp án, độ khó của các câu hỏi từ dễ đến khó là: lập trình, mở, trắc nghiệm, số, biểu thức và hình ảnh.

Lần này, không chỉ GPT-4 và GPT-3.5 mà cả StableVicuna-13B, LLaMA-30B và LLaMA-60B** cũng tham gia thử nghiệm.

4 mô hình lớn này được chọn làm thí sinh thử nghiệm vì chúng là "mô hình ngôn ngữ lớn hiện đại".

Điểm thi cuối kỳ

Như có thể thấy từ dữ liệu trong bảng, GPT-4 đã điều chỉnh có số điểm cao nhất, với tỷ lệ chấm điểm là 100%; hiệu suất chung nhất là LLaMA-30B, chỉ đạt 30% số điểm.

Điều đáng chú ý là phiên bản gốc của GPT-4 đã được sử dụng ngay lập tức mà không cần điều chỉnh và nó cũng đạt 90% điểm trong bài kiểm tra MIT này.

Quá trình điều chỉnh, bao gồm Few-Shot+CoT+Tự phê bình+Chuyên gia.

Từ dữ liệu dạng bảng của kết quả kiểm tra cuối cùng, chúng ta có thể thấy rằng mỗi khi thêm một liên kết từ trái sang phải, điểm GPT-4 đã điều chỉnh sẽ được cải thiện lên mức cao hơn.

Ngoài ra, nhóm nghiên cứu còn tiến hành tối ưu hóa kỹ thuật trong ô nhắc nhở, cụ thể "câu thần chú" như sau:

Đợi đã, người đánh giá là chính GPT-4?

Nhìn thấy kết quả như vậy, nhiều cư dân mạng cảm thấy tiến độ của LLM trong bài kiểm tra toán hơi nhanh.

2 năm trước, AI đang vật lộn với các bài toán ở trường tiểu học.

Tương tự với "Xiao Ming trồng 5 cây chanh, mỗi năm thu được 6 quả chanh, hỏi tổng cộng 10 năm anh ấy thu được bao nhiêu quả chanh" loại này.

Vào đầu năm ngoái, một nghiên cứu chung của MIT + Harvard + Đại học Columbia + Đại học Waterloo đã tuyên bố rằng bằng cách chuyển đổi các vấn đề toán học thành các vấn đề lập trình tương đương, người anh em của GPT-3, OpenAI's Codex, có thể nắm vững các số cao và đạt đến trình độ ** Đại học MIT **.

Tôi đã học 6 câu hỏi mẫu được chọn ngẫu nhiên từ các khóa học toán cơ bản bậc đại học của MIT. 25 câu hỏi được chọn ngẫu nhiên cho mỗi trong số 6 khóa học, cộng với 60 câu hỏi từ bộ dữ liệu cấp độ ACT (kỳ thi tuyển sinh đại học của Mỹ).

**Tổng cộng có 210 câu hỏi, AI đã trả lời đúng tất cả. **

Tuy nhiên, một số người cho rằng "trình độ đại học MIT" mà AI đạt được thực ra là Codex giải các bài toán ngôn ngữ hơn là các bài toán——

Bởi vì trong đánh giá lúc đó, Codex chịu trách nhiệm đọc và viết, không bao gồm việc giải.

Vì vậy, lần này GPT-4 đã thể hiện rất tốt, thật là một từ tuyệt vời ~

Chà, tôi biết bạn nóng lòng muốn khen nó, nhưng đừng vội khen, vì có người đã sớm phát hiện ra điều “dị”.

Chủ yếu có 2 vị trí chính.

Điều đáng đặt câu hỏi đầu tiên là tập dữ liệu đào tạo của OpenAI chưa được phát hành đầy đủ.

Điều này cũng có nghĩa là không thể chứng minh rằng 4550 vấn đề và giải pháp trong tập dữ liệu không tồn tại trong tập huấn luyện GPT-4.

Nói cách khác, nếu GPT-4 đã tiếp xúc với các câu hỏi kiểm tra trong giai đoạn đào tạo trước, thì cuối cùng nó sẽ đạt điểm tuyệt đối và sẽ không có gì bất ngờ.

Không có gì lạ khi một số cư dân mạng yygq không khách khí và cho rằng GPT-4 có được kết quả như vậy, chắc chắn tập dữ liệu đã được đưa vào dữ liệu huấn luyện.

Vị trí thứ hai là tỷ lệ ghi 100% cuối cùng của GPT-4. Điều gì có vẻ sai? ? ?

Hãy xem kỹ hơn, có một điểm chính trong Mục 2.6 của bài báo:

Nhóm đã tinh chỉnh mô hình lớn mã nguồn mở trên tập dữ liệu, "Đưa ra một câu hỏi Q, một giải pháp xác thực cơ bản S và một câu trả lời LLM A, chúng tôi sử dụng GPT-4 để tự động chấm điểm các câu trả lời của mô hình."

Trên thực tế, mỗi mô hình lớn tạo ra câu trả lời cho bài kiểm tra này, sau đó gửi GPT-4 để chấm điểm, với điểm số từ 0-5.

**Vì vậy, người đã cho GPT-4 điểm tối đa thực sự là chính GPT-4. **

A, cái này... Khó có thể nói không nghi ngờ là Vương Phá bán dưa khoe khoang.

Ngoài ra, nhiều người phàn nàn về việc cần phải cung cấp "gợi ý hay" cho GPT-4 để nó đạt điểm tối đa.

"Mẹo hay" chính xác là gì? Nó dường như không thể xác định.

Có người còn hét lên rằng nên ném những câu hỏi này cho sinh viên toán MIT và EECS làm, và tiếp tục cho họ "gợi ý hay", để sinh viên loài người cũng có thể đạt điểm 100%...

Một điều nữa

Một quả trứng Phục sinh nhỏ:

Trong suốt quá trình thử nghiệm, StableVicuna-13B, về cơ bản có thể được triển khai và chạy trên máy tính xách tay, cũng có số điểm là 48%.

Điểm số này không chỉ cao hơn gần 10 điểm phần trăm so với LLaMA-65B có model lớn hơn mà thậm chí LLaMA-30B sau khi tinh chỉnh của MIT còn cao hơn.

Mọi người phải suy nghĩ về mối tương quan giữa kích thước và khả năng của mô hình.

Liên kết tham khảo: [1] [2] [3] [4]

Xem bản gốc
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Phần thưởng
  • Bình luận
  • Chia sẻ
Bình luận
0/400
Không có bình luận
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)