Lý luận GPT-4 thái quá! Tổng điểm các môn toán, lý, hóa trong trường đại học chưa đến một nửa, và tất cả 21 loại câu hỏi suy luận đều bị lật ngược Marcus: AGI quá xa vời

**Nguồn:**Xinzhiyuan

Hướng dẫn: GPT-4 mạnh nhất trên bề mặt lần lượt mắc lỗi trong các câu hỏi suy luận! Nghiên cứu mới nhất của cựu sinh viên MIT và UCLA Chinese đã thu hút rất nhiều cư dân mạng theo dõi.

GPT-4 không thể suy luận gì cả!

Gần đây, hai nghiên cứu đã báo cáo rằng GPT-4 hoạt động kém trong khả năng suy luận.

Konstantine Arkoudas, một cựu sinh viên của MIT, đã đánh giá GPT-4 trên 21 loại bộ suy luận khác nhau.

Sau đó, một phân tích định tính chi tiết về hiệu suất của GPT-4 đối với các sự cố này được thực hiện.

Các nghiên cứu đã phát hiện ra rằng GPT-4 thỉnh thoảng thể hiện tài năng của "bộ não mạnh nhất", nhưng hiện tại, GPT-4 không có khả năng suy luận nào cả.

Địa chỉ giấy tờ:

Ngay sau khi nghiên cứu được đưa ra, rất nhiều cư dân mạng đã tập trung để theo dõi.

Marcus nói, "Nếu điều này là đúng - như tôi đã nói trước đó - chúng ta vẫn còn cách xa AGI. Chúng ta có thể cần phải hiệu chỉnh lại rất nhiều: không thể có AGI nếu không có lý do".

Một nghiên cứu khác từ UCLA và Đại học Washington cũng phát hiện ra rằng GPT-4 và GPT-3.5 hoạt động kém trong phần suy luận của các nhiệm vụ toán học, vật lý và hóa học tại trường đại học.

Địa chỉ giấy tờ:

Các nhà nghiên cứu đã giới thiệu SCIBENCH, một nền tảng giải quyết vấn đề khoa học của trường đại học, chứa 2 bộ dữ liệu: một bộ dữ liệu mở và một bộ dữ liệu đóng.

Thông qua nghiên cứu chuyên sâu về GPT-4 và GPT-3.5 bằng cách sử dụng các chiến lược nhắc nhở khác nhau, kết quả cho thấy tổng điểm trung bình của GPT-4 chỉ là 35,8%.

Nghiên cứu này cũng một lần nữa thu hút sự chú ý của Marcus:

Một cuộc khảo sát có hệ thống về lý luận trong toán học, hóa học và vật lý, cho thấy rằng các LLM hiện tại không mang lại hiệu suất thỏa đáng...không có chiến lược gợi ý nào tốt hơn đáng kể so với các chiến lược khác.

Hãy cùng xem xét kỹ hơn GPT-4 đã thất bại thảm hại như thế nào trong 21 bộ bài toán, vật lý và hóa học.

21 bộ vấn đề, chuyển đổi toàn bộ GPT-4

Tuy nhiên, trước khi nhìn vào GPT-4 để trả lời câu hỏi, tác giả có một lưu ý:

GPT-4 là một hệ thống không xác định và có thể tạo ra các câu trả lời khác nhau trong các lần chạy khác nhau ngay cả với cùng một cài đặt tham số.

Mặc dù các trao đổi thử nghiệm sau đây là nguyên văn, nhưng theo kinh nghiệm của tác giả, những điều được thảo luận trong bài báo khi GPT-4 gặp sự cố có xu hướng mạnh mẽ.

1 số học đơn giản

Có khả năng thực hiện các thao tác cơ bản là điều kiện cần thiết để suy luận.

Tuy nhiên, GPT-4 vẫn không thể thực hiện các phép tính số học cơ bản như cộng và nhân một cách đáng tin cậy.

Ví dụ để GPT-4 chọn ngẫu nhiên 2 số trong khoảng từ 1381 đến 1453 để nhân và đưa ra kết quả.

GPT-4 đã chọn 1405 và 1421, nhưng kết quả cuối cùng rõ ràng là sai. Vì 1405×1421=1996505.

2 số đếm đơn giản

Trong khi tính cụ thể không nhất thiết phải là một hoạt động lý luận, nó chắc chắn là điều kiện tiên quyết cho bất kỳ hệ thống lý luận nào có khả năng tổng quát.

Ở đây, GPT-4 được cung cấp một biến mệnh đề và có tiền tố là 27 ký hiệu phủ định, yêu cầu nó đếm số lượng ký hiệu phủ định.

Đối với chúng tôi, điều đó thật dễ dàng, đặc biệt là khi các từ phủ định được viết cách nhau 5 và có 5 nhóm, với cặp từ phủ định cuối cùng ngay sau đó.

Tuy nhiên, GPT-4 đã đưa ra câu trả lời "28".

3 (Y tế) Thường thức

Hiện tại, chúng ta có thể coi các lập luận theo lẽ thường là những suy luận đơn giản được rút ra từ thông tin đã cho cộng với các điều kiện không được nêu ra (kiến thức cơ bản mặc định, được chấp nhận rộng rãi).

Trong trường hợp cụ thể này, kiến thức thông thường là một mệnh đề như "Con người sống cho đến khi chết, và anh ta không bao giờ sống sau khi chết."

Ví dụ: khi bạn hỏi GPT-4: Nhịp tim của Mable là 75 bpm lúc 9 giờ sáng và huyết áp là 120/80 lúc 7 giờ tối. Bà mất lúc 11 giờ đêm. Cô ấy còn sống vào buổi trưa không?

GPT-4 thực sự đã trả lời: Theo thông tin được cung cấp, không thể xác định liệu Mable có còn sống vào buổi trưa hay không.

Nhưng rõ ràng dựa trên thông tin đã cho, suy luận hợp lý (không cần suy nghĩ) dẫn trực tiếp đến kết luận.

4 Logic cơ bản

Nếu P(x) chứa Q(x) và Q(a) không đúng, thì chúng ta có thể suy ra từ mô hình rằng P(a) không đúng (vì nếu P(a) đúng thì Q(a) sẽ giữ).

Đây là phép lặp cơ bản, nhưng GPT-4 đề xuất một mô hình chống hoàn toàn:

值得注意的是,GPT-4认识到,P(x)实际上并不包含Q(x) , và đề xuất rằng x có thể là một số chẵn âm, "không loại trừ sự tồn tại của các mô hình với các điều kiện cho trước khác".

Trên thực tế, một phản mô hình phải thỏa mãn tất cả các điều kiện đã cho và đồng thời làm sai lệch kết luận.

Hơn nữa, chỉ một vài câu sau đó, GPT-4 tuyên bố rằng P(x) thực sự ngụ ý Q(x) theo cách hiểu đã cho, mâu thuẫn với tuyên bố trước đó của chính nó.

Lưu ý rằng GPT-4 cũng có điểm không nhất quán nội bộ.

5 Ngữ nghĩa của bộ định lượng đơn giản

Xét ba câu sau:

  1. [forall x . P(x) ==> Q(x)]

  2. [tồn tại x . P(x)]

  3. [tồn tại x . ∼ Q(x)]

Hãy làm sai lệch hoặc chứng minh khẳng định sau: Ba câu này đồng ý với nhau.

显然,这三个句子都是共同可满足的,一个简单的模型是具有P(a1)、Q(a1)、¬P(a2) và miền {a1, a2} của ¬Q(a2), tuy nhiên, kết luận rút ra bởi GPT-4 là ngược lại.

6. Tô màu đồ thị đơn giản

Trước tiên hãy xem xét một bài toán tô màu đồ thị không có lời giải.

Không khó để thấy rằng hai màu là không đủ cho biểu đồ được mô tả trong câu hỏi này (ví dụ: các đỉnh 0, 2 và 4 tạo thành một cụm nên cần có ít nhất 3 màu).

Trong phần đầu ra ngắn này, có rất nhiều lỗi đáng kinh ngạc.

GPT-4 bắt đầu bằng cách tuyên bố sai rằng đồ thị đã hoàn tất (rõ ràng là không, ví dụ: không có cạnh nào giữa đỉnh 2 và 3).

Ngoài ra, rõ ràng là nếu đồ thị thực sự đầy đủ thì không thể tô nó bằng 2 màu, vì một đồ thị đầy đủ có 6 đỉnh cần ít nhất 6 màu.

Nói cách khác, tuyên bố của GPT-4 không chỉ sai mà còn không nhất quán: một khoảnh khắc cho chúng ta biết (một cách sai lầm) rằng đồ thị 6 đỉnh này đã hoàn tất, nghĩa là không thể tô màu nó bằng 2 màu và một khoảnh khắc khác cho A hai -màu "dung dịch".

Điều đáng chú ý là lý do GPT-4 hoạt động kém như vậy không phải vì nó không có đủ kiến thức hoặc dữ liệu về đồ thị.

Khi các nhà nghiên cứu hỏi GPT-4 về hiểu biết của nó về "đồ thị đầy đủ", GPT-4 đã đưa ra định nghĩa chính xác về "đồ thị đầy đủ" cùng với một danh sách dài các kết quả cho K_n (đồ thị đầy đủ có n đỉnh) .

Rõ ràng, GPT-4 đã ghi nhớ tất cả thông tin này, nhưng không thể áp dụng nó vào các điều kiện mới.

7. Tổng tập con

S = {2, 8, 6, 32, 22, 44, 28, 12, 18, 10, 14}. Vậy có bao nhiêu tập con của S có tổng bằng 37?

Trong bài toán này, tập con của S là số chẵn và tổng các số chẵn không thể là số lẻ, vì vậy đáp án là 0.

Tuy nhiên, thay vì dừng lại để xem xét S chứa gì, GPT-4 theo phản xạ tạo ra câu trả lời phù hợp cho câu hỏi và sau đó tiến hành "phù phép" câu trả lời "4".

8 Toán rời rạc sơ cấp

Nói với GPT-4 rằng A × B đại diện cho tích Descartes của tập hợp A và B, rằng mối quan hệ R từ A đến B là tập hợp con của A × B và & đại diện cho giao điểm của tập hợp rồi yêu cầu nó chứng minh hoặc làm sai lệch :

其中R1和R2是从A到B的二元关系,dom(R) Biểu diễn miền của quan hệ nhị phân R.

Mối quan hệ tập hợp con được yêu cầu phải giữ theo cả hai hướng của (2), nhưng nó chỉ đúng theo hướng từ trái sang phải. Các phản ví dụ theo hướng khác rất dễ tìm (ví dụ: lấy A = {(1, 2)} và B = {(1,3)}).

Tuy nhiên, GPT-4 cho rằng điều này là đúng, điều này rõ ràng là không chính xác.

9 kế hoạch sắp xếp đơn giản

Về vấn đề thời gian, GPT-4 cũng mắc lỗi.

Vuốt lên xuống để xem tất cả

10 Nghịch lý của Russell

Nghịch lý thợ cắt tóc của Russell nói rằng tồn tại một thợ cắt tóc b chỉ cạo râu cho những người không tự cạo râu.

Phủ định của câu này là một phép lặp, có thể dễ dàng suy ra bằng cách sử dụng logic bậc nhất.

Nếu chúng ta hiểu R(a,b) là một bị cạo bởi b, thì chúng ta có thể đưa ra phép lặp này và yêu cầu GPT-4 chứng minh hoặc bác bỏ nó, như sau:

Nếu tồn tại một thợ cắt tóc x như vậy, thì với mọi y ta sẽ có R(y,x) <==> ∼ R(y,y), vì vậy thay x cho y ta sẽ được R(x,x) <== > ∼ R(x,x), mâu thuẫn.

GPT-4 có hiểu biết hoàn hảo về cấu trúc của các câu mà nó được đưa ra và những gì nó cần làm. Tuy nhiên, các nghiên cứu trường hợp sau đó vẫn còn lộn xộn.

11 thế giới gạch

Đây là một nhiệm vụ suy luận đơn giản yêu cầu phân tích tình huống của khối xây dựng áp chót B3.

Đầu tiên, B3 có màu xanh lục hoặc không.

Nếu nó có màu xanh lá cây, thì B3 nằm trên khối B4 không có màu xanh lá cây, vì vậy kết luận được giữ nguyên.

Nếu không, thì khối B2 màu xanh lá cây thứ hai từ trên xuống nằm trên khối B3 không màu xanh lá cây, vì vậy kết luận vẫn đúng.

Tuy nhiên, kết quả cho thấy GPT-4 hoạt động không tốt.

Có năm khối được xếp chồng lên nhau từ trên xuống dưới: 1. Khối thứ hai từ trên xuống có màu xanh lục 2. Khối thứ tư từ trên xuống không có màu xanh lá cây Trong trường hợp các điều kiện này đúng, làm sai lệch hoặc Chứng minh như sau: Có một khối màu xanh lục ngay trên một khối không màu xanh lá cây.

Trước hết, khi chứng minh phỏng đoán, nó đã mắc sai lầm trong chiến lược chứng minh-PT-4 giả sử hai trường hợp đặc biệt để suy luận.

Ngoài ra, GPT-4 đã đi đến kết luận (dù sai) theo cách lập luận của riêng mình, nhưng vẫn nói với người dùng rằng vấn đề vẫn chưa được giải quyết khi trả lời. Và điều này phản ánh sự không nhất quán bên trong của mô hình.

12 Lập luận Không gian

Ở đây tác giả chọn bài toán định hướng trong thế giới thực:

Lần đầu tiên GPT-4 đưa ra câu trả lời là ở bên phải, nhưng tác giả đã chỉ ra lỗi của nó. Mặc dù Boston, Massachusetts, thực sự ở bên phải Nam Dakota trên bản đồ, nhưng có một điều kiện bổ sung ở đây: hướng của cơ thể Đó là Texas.

Điều này có nghĩa là Boston ở bên trái tác giả.

Sau đó, khi GPT-4 trả lời vị trí cao và thấp của Boston và South Dakota, một vấn đề nghiêm trọng hơn xuất hiện: nó đưa ra hai mô tả trái ngược nhau trong cùng một câu trả lời.

13 Lập luận về Thời gian

Tác giả đưa ra một câu hỏi lý luận thời gian tương đối đơn giản ở đây, nhưng câu trả lời của GPT-4 vẫn còn là một mớ hỗn độn.

Tom và Nancy cần phương tiện đi làm. Thời gian đi làm của Nancy là khoảng 30-40 phút, trong khi thời gian đi làm của Tom là khoảng 40-50 phút. Thứ sáu tuần trước, Nancy rời nhà từ 8:10 đến 8:20 sáng, và Tom đến sở làm từ 8:5 đến 9:10 sáng. Ngoài ra, Nancy đến nơi làm việc sau khi Tom rời khỏi nhà, nhưng không quá 20 phút sau. Bạn có thể suy luận khi nào Tom và Nancy đến nơi làm việc vào thứ Sáu tuần trước không?

Sau khi phân loại thông tin trong câu hỏi, GPT-4 đưa ra quy trình lập luận của mình:

"Nếu Tom rời khỏi nhà vào thời điểm muộn nhất có thể (8:20 sáng)..." Câu này bắt đầu sai.

Trên thực tế, tiêu đề không đưa ra thời gian gần nhất Tom rời khỏi nhà và GPT-4 đã lạm dụng thời gian của Nancy ("Nancy rời nhà từ 8:10-8:20 sáng") cho Tom.

Đồng thời, câu điều kiện do GPT-4 đưa ra gây nhầm lẫn và giả định chứa thông tin (Tom) không liên quan đến kết luận (thời gian đến của Nancy): "Nếu Tom rời nhà muộn nhất (8:20 sáng), Nancy Cô ấy rời đi muộn nhất (8:20 sáng), thời gian đi làm của cô ấy nhiều nhất là 40 phút và Nancy đến nơi làm việc muộn nhất là 9:00 sáng."

Điều này nên được nêu rõ là: "Nếu Nancy rời đi vào giờ muộn nhất (8:20 sáng) và thời gian đi làm của cô ấy nhiều nhất là 40 phút, thì Nancy sẽ đến nơi làm việc muộn nhất là 9:00 sáng."

Sau đó, GPT-4 suy luận sai như sau: "Vì Tom mất ít nhất 40 phút để đi làm, điều này có nghĩa là anh ấy sẽ đến nơi làm việc không muộn hơn 9:00 sáng."

Kết luận này rõ ràng là không thể chấp nhận được chút nào. Kết luận này không thể rút ra từ thực tế đã biết là thời gian đi làm của Tom ít nhất là 40 phút.

Câu trả lời sau đây vẫn dựa trên giả định sai rằng thời gian khởi hành sớm nhất của Tom là 8:10 sáng (một lần nữa, thời gian khởi hành này là của Nancy, không phải của Tom).

Sau đó, nó tuyên bố rằng Nancy đến lúc 8:45, điều này không đủ điều kiện để rời khỏi nhà lúc 8:10 sáng trong vòng 20 phút.

Cuối cùng, nó kết luận không chính xác rằng cả Tom và Nancy đều đến trong khoảng thời gian từ 8:50 đến 9:00.

Trong quá trình suy luận, GPT-4 đã nhiều lần hiển thị sai thông tin và câu trả lời cuối cùng cũng là một câu trả lời sai dựa trên các điều kiện sai.

**14. Giết người hay tự sát? **

Tác giả nghĩ ra một câu đố logic và liệt kê 9 điều kiện để yêu cầu GPT-4 tìm ra kẻ thực sự đã giết dì Agatha.

  1. Ai đó sống ở Dreadbury Mansion đã giết dì Agatha. 2. Những người cư ngụ duy nhất trong Dinh thự Dreadbury là Dì Agatha, Quản gia và Charles. 3. Kẻ giết người luôn ghét nạn nhân của mình và hắn không bao giờ giàu có hơn nạn nhân của mình. 4. Charles không ghét những người mà dì Agatha ghét. 5. Dì Agatha ghét tất cả mọi người trừ quản gia. 6. Người quản gia ghét tất cả những ai không giàu hơn dì Agatha. 7. Người quản gia ghét tất cả những người mà dì Agatha ghét. 8. Không ai ghét tất cả mọi người. 9. Dì Agatha không phải là quản gia.

Câu trả lời đúng là dì Agatha đã tự sát.

Đầu tiên, ở điều kiện 5, dì Agatha phải ghét chính mình vì bà ghét tất cả mọi người trừ người quản gia.

Do đó, theo điều kiện 4, Charles không ghét cô ấy, vì vậy anh ta không thể giết cô ấy.

Theo điều kiện 5 và 7, quản gia không thể ghét chính mình, bởi vì nếu anh ta ghét chính mình, điều kiện 8 sẽ không giữ được, và anh ta sẽ ghét tất cả mọi người.

Theo điều kiện 6, kết luận rằng người quản gia giàu hơn dì Agatha, nếu không anh ta sẽ ghét chính mình, điều này mâu thuẫn với những gì chúng ta đã kết luận trước đó rằng anh ta không ghét chính mình.

Theo điều kiện 3, quản gia cũng sẽ không phải là kẻ giết người (điều kiện 3).

Khi suy luận, GPT-4 đã loại trừ Charles một cách chính xác, nhưng không thể loại trừ người quản gia và đưa ra kết luận sai: người quản gia là kẻ giết người.

Một sai lầm nghiêm trọng khác của GPT-4: Vì dì Agatha ghét tất cả mọi người trừ quản gia (Điều kiện 5), điều đó có nghĩa là ít nhất dì ấy không ghét chính mình.

Đây là một sai lầm kỳ lạ, vì nó xuất phát từ điều kiện thứ 5 mà dì Agatha ghét chính mình.

Đồng thời, GPT-4 một lần nữa thể hiện sự không nhất quán lặp đi lặp lại—trong hầu hết mọi phản hồi, GPT-4 tuyên bố rút ra một mệnh đề nhất định và dạng phủ định của mệnh đề đó.

15 nhiệm vụ lựa chọn Watson

Nhiệm vụ lựa chọn của Watson là một nội dung cơ bản trong lĩnh vực suy luận tinh thần.

Trong bài báo tháng 1, GPT-3.5 đã thất bại trong bài kiểm tra này và trong nghiên cứu này, hiệu suất của GPT-4 vẫn chưa lý tưởng.

Có 7 thẻ trên bàn, mỗi thẻ có một số được viết ở một mặt và một khối màu duy nhất ở mặt kia. Mặt trước của các thẻ này hiển thị 50, 16, đỏ, vàng, 23, xanh lục, 30. Để xác định tính đúng của mệnh đề "Mặt trước là bội số của 4, mặt sau là màu vàng", bạn cần lật những quân bài nào?

Những phản hồi này cho thấy rằng GPT-4 không hiểu ngữ nghĩa của các câu lệnh có điều kiện. Khi GPT-4 nói rằng phải lật các quân bài "50" và "30", có vẻ như nó đang nhầm điều kiện thành điều kiện cần và đủ.

Bất kể câu trả lời của GPT-4 là đúng hay sai, các tuyên bố nội bộ của nó không nhất quán.

16 Entropy

Một kết luận cơ bản của lý thuyết thông tin là: cận trên entropy của vector ngẫu nhiên Z không vượt quá tổng entropy của các biến ngẫu nhiên tạo nên Z.

Do đó, câu trả lời cho câu hỏi sau đây phải là "không trong bất kỳ trường hợp nào".

17 Trình biên dịch chính xác đơn giản

Vấn đề suy luận cuối cùng đối với GPT-4 là thách thức nhất: chứng minh tính đúng đắn của trình biên dịch biểu thức đơn giản.

Nhưng trong thử nghiệm này, GPT-4 đã chứng minh đúng bằng cách thiết lập cảm ứng cấu trúc trên cấu trúc cú pháp trừu tượng của các biểu thức.

Điều này có thể là do nó đã từng thấy các cách chứng minh tương tự trước đây và các ví dụ mà tác giả đưa ra là dạng bài tập thường thấy trong các giáo trình và sách giáo khoa lập trình.

Tuy nhiên, GPT-4 vẫn còn một số sai sót về chi tiết.

## Kết luận: Khả năng suy luận là rất quan trọng, nhưng GPT-4 thì không

Cho rằng GPT-4 hiện là LLM có khả năng nhất, tác giả đưa ra ba kết luận chính dựa trên phân tích trên:

  1. Việc sử dụng trí tuệ nhân tạo AI trong phát triển phần mềm (hoặc khoa học và kỹ thuật nói chung), ngoại trừ một số nhiệm vụ tẻ nhạt (như một loại tự động hoàn thành cấp tốc các vấn đề viết mã đòi hỏi nhiều kiến thức), chứa đầy rủi ro. Trong những lĩnh vực này, tính quy phạm và tính đúng đắn là rất quan trọng và các LLM hiện tại không đáp ứng được các tiêu chuẩn này.

  2. Khi khả năng lập luận của LLM tiếp tục được cải thiện, việc kiểm tra bằng chứng nghiêm ngặt sẽ ngày càng trở nên quan trọng hơn. Cách tiếp cận này có thể kiểm tra lập luận được thể hiện bằng ngôn ngữ tự nhiên bằng cách yêu cầu các LLM chính thức hóa lập luận của họ hoặc bằng cách đào tạo các LLM khác.

  3. Như hiện tại, các viễn cảnh lạc hậu về việc AI chinh phục con người hoặc con người sử dụng AI cho các mục đích bất chính là điều xa vời, thậm chí đến mức vô lý. Khi các hệ thống AI tối tân thậm chí không thể phân biệt trái phải (câu hỏi 12 ở trên), thì việc kêu gọi các chính sách bảo vệ con người khỏi nó tốt nhất là quá sớm và tệ nhất là lãng phí tài nguyên.

Chắc chắn, một số người có thể nói rằng những kết quả này là "dữ liệu được chọn". Nhưng đó là vì họ hiểu sai về dữ liệu giám tuyển là gì. Tùy thuộc vào cấu trúc logic và bối cảnh tổng thể của đề xuất được đề cập, việc chọn dữ liệu đôi khi thậm chí là cần thiết.

Gỡ lỗi một chương trình máy tính để khám phá và hiểu những điểm yếu của nó, cố gắng làm sai lệch một lý thuyết khoa học, lái thử một chiếc ô tô mới, cố gắng tìm ra một mô hình phản đối của một định lý giả định, v.v., về cơ bản đều là những trò soi mói.

Ví dụ: nếu bạn phát hiện ra rằng chiếc ô tô mới của mình bị xẹp lốp, đại lý có thể phản đối rằng bạn đang "chọn dữ liệu". Xét cho cùng, đối với toàn bộ chiếc xe, tỷ lệ lốp còn nguyên vẹn lên tới 75%.

Tương tự như vậy, các ứng dụng trong khoa học, y học và kỹ thuật, đặc biệt là công nghệ phần mềm, có các tiêu chuẩn nghiêm ngặt.

Cũng giống như việc chúng ta không muốn một cây cầu dựng đứng các cột trong 90% thời gian, chúng ta cần các thuật toán sắp xếp hoạt động trên tất cả các đầu vào, không chỉ hầu hết; chúng ta cần những chiếc xe đẩy tính phí đúng số tiền mỗi lần, và không chỉ hầu hết thời gian, v.v.

Và các ứng dụng chuyên sâu về tính toán và lý luận này, không giống như các công cụ đề xuất, phải rất đáng tin cậy.

Giới thiệu về tác giả

Konstantine Arkoudas

Cho đến năm ngoái, Konstantine Arkoudas là nhà nghiên cứu tại Khoa Khoa học Nhận thức của RPI và là nhà nghiên cứu tại CSAIL của MIT.

Hiện tại, anh ấy là Nhà khoa học nghiên cứu cấp cao tại Phòng thí nghiệm nghiên cứu Telcordia, tập trung vào AI và áp dụng các phương pháp chính thức cho các vấn đề thực tế trong ngành viễn thông và mạng.

Ông nhận bằng Tiến sĩ Khoa học Máy tính tại MIT vào năm 2000. Trước đó, ông cũng đã có bằng thạc sĩ khoa học máy tính, thạc sĩ triết học và bằng cử nhân khoa học máy tính với chuyên ngành triết học.

Toán, vật lý và hóa học đại học, điểm GPT-4 35,8%

Trong nghiên cứu của UCLA, khả năng suy luận của GPT-4 và GPT-3.5 trong toán học, hóa học và vật lý chủ yếu được đánh giá.

Hiện nay, để tăng cường khả năng giải quyết các nhiệm vụ như toán học của LLM, một số người đã đề xuất chiến lược CoT kết nối tư duy để hướng dẫn mô hình lớn dần dần tạo ra câu trả lời, từ đó suy nghĩ sâu hơn về vấn đề.

Tuy nhiên, ngay cả khi cách tiếp cận như vậy có những ưu điểm cụ thể, thì cũng khó có thể giải quyết triệt để các vấn đề khoa học phức tạp.

Dưới đây, là một bài toán ví dụ trong môn hóa lý ở trường đại học và các giải pháp được tạo ra theo hai chiến lược gợi ý.

GPT-4 với phước lành CoT có lỗi tính toán rõ ràng và GPT-4, nhắc sử dụng Python làm công cụ bên ngoài, cũng sẽ hiểu sai các phương trình toán học.

Lỗi được đánh dấu màu đỏ, sửa màu tím

Để đạt được mục tiêu này, SCIBENCH, một tiêu chuẩn cấp đại học cho các câu hỏi khoa học, đã được đưa vào nghiên cứu.

Trong đó, “bộ dữ liệu mở” bao gồm 5 bài toán được sưu tầm từ sách giáo khoa được sử dụng rộng rãi trong các khóa học đại học, bao gồm vật lý cơ sở, nhiệt động lực học, cơ học cổ điển, hóa học lượng tử, hóa lý, giải tích, thống kê và phương trình vi phân.

Tóm tắt các vấn đề trong sách giáo khoa mở (bao gồm tỷ lệ phần trăm số lượng vấn đề và tỷ lệ phần trăm có lời giải chi tiết)

Cái còn lại là “bộ dữ liệu đóng”, bao gồm 7 bộ đề thi giữa kỳ và cuối kỳ của 3 môn khoa học máy tính và toán học đại học nhằm mô phỏng đánh giá trong thế giới thực.

Tập dữ liệu bài kiểm tra đóng (chứa số lượng câu hỏi trong mỗi bài kiểm tra và tỷ lệ câu hỏi trong bài kiểm tra có lời giải chi tiết. Ngoài ra, tỷ lệ câu hỏi ở các định dạng khác nhau, bao gồm trả lời tự do, trắc nghiệm và đúng-sai câu trả lời. Để tham khảo, các số trong ngoặc đơn cho biết điểm tín dụng cho các câu hỏi.)

Không giống như các tiêu chuẩn hiện có, tất cả các câu hỏi trong SCIBENCH đều là câu hỏi mở, tự do trả lời.

Với tập dữ liệu có sẵn, nghiên cứu tập trung vào việc đánh giá hai LLM đại diện là GPT-3.5 và GPT-4, đồng thời sử dụng các chiến lược nhắc nhở khác nhau, bao gồm CoT, học từng bước và học từng bước.

Ngoài ra, các nhà nghiên cứu cũng nhắc mô hình sử dụng các công cụ bên ngoài, chẳng hạn như Python và Ngôn ngữ Wolfram.

Kết quả thử nghiệm cho thấy, không cần bất kỳ gợi ý phức tạp hay sử dụng công cụ bên ngoài nào, tỷ lệ chính xác trung bình của GPT-3.5 và GPT-4 trong bộ dữ liệu mở lần lượt là 10,62% và 16,81%.

Sau đó, sau khi thêm CoT và các công cụ bên ngoài, tỷ lệ chính xác cao nhất trên cùng một bộ dữ liệu chỉ là 35,8%. Tuy nhiên, so với trước đây, tỷ lệ chính xác đã được cải thiện rất nhiều.

Kết quả chính xác trong bộ dữ liệu mở

Trong cấu hình mạnh nhất sử dụng gợi ý CoT + công cụ bên ngoài, GPT-4 đạt điểm trung bình là 35,80% trên tập dữ liệu mở và 51,57% trên tập dữ liệu đóng.

Những kết quả này cho thấy rằng GPT-4 có tiềm năng cải thiện đáng kể trong các LLM trong tương lai.

Kết quả thực nghiệm về tổng điểm theo phương pháp zero-shot learning trên tập dữ liệu thử nghiệm

Để có được sự hiểu biết toàn diện về những hạn chế của LLM trong việc giải quyết vấn đề khoa học, các nhà nghiên cứu đề xuất một cách tiếp cận "tự cải thiện" mới để khám phá những bất cập trong câu trả lời của LLM.

Đây là "Thỏa thuận đánh giá" như sau.

Đầu tiên, giải pháp chính xác được so sánh với giải pháp do LLM tạo ra và với sự hỗ trợ của người chú thích con người, 10 kỹ năng cần thiết cần thiết để giải quyết thành công các vấn đề khoa học được tóm tắt.

Cụ thể bao gồm: kỹ năng phân tích và phân tích logic; xác định các giả thuyết; nhận thức không gian; lập luận nhân quả; suy luận vấn đề; lập luận trừu tượng; kiến thức khoa học; chuyển mã; lập luận logic; tính toán.

Sau đó, nhóm đã sử dụng phương pháp tự đánh giá dựa trên LLM để tự động phân loại các kỹ năng còn thiếu trong các giải pháp do LLM cơ sở đưa ra cho từng cấu hình thử nghiệm.

Hồ sơ lỗi của GPT-3.5 trên bộ dữ liệu văn bản trong 6 cài đặt, cho thấy sự phân bổ lỗi trong 10 khả năng giải quyết vấn đề cơ bản của nó

Cuối cùng, qua phân tích, người ta thấy rằng:

(1) Mặc dù CoT cải thiện đáng kể sức mạnh tính toán, nhưng nó kém hiệu quả hơn ở các khía cạnh khác;

(2) Lời khuyên từ việc sử dụng các công cụ bên ngoài có thể làm giảm các kỹ năng cần thiết khác;

(3) Học tập chớp nhoáng nhìn chung không cải thiện việc giải quyết vấn đề khoa học.

Tóm lại, kết quả nghiên cứu cho thấy các mô hình ngôn ngữ quy mô lớn hiện tại vẫn còn yếu về khả năng giải quyết vấn đề và với sự trợ giúp của các công cụ khác nhau, vẫn còn những hạn chế.

Người giới thiệu:

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Chia sẻ
Bình luận
0/400
Không có bình luận
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)