Vào tháng 3 năm nay, OpenAI đã phát hành mô hình lớn GPT-4, mang lại khả năng suy luận, tính toán và logic mạnh hơn GPT-3.5 đằng sau ChatGPT, đồng thời cũng kích hoạt sự gia tăng sử dụng phổ biến. Trong quá trình sử dụng các nhà nghiên cứu, nhà phát triển và nhà thiết kế trong nhiều lĩnh vực khác nhau, "GPT-4 là mô hình lớn hàng đầu" dường như đã trở thành một kết quả được công nhận.
Tuy nhiên, vào ngày 7 tháng 8, Konstantine Arkoudas, người đã tốt nghiệp Học viện Công nghệ Massachusetts và hiện là CTO của Dyania Health, gần đây đã viết một bản in trước có tiêu đề "GPT-4 Can't Reason" (GPT-4 Không thể Lý do) ( đề cập đến các bài báo Dự thảo trong tài liệu khoa học chưa được xuất bản trên các tạp chí khoa học được bình duyệt đã gây náo động trong ngành.
Bài báo lưu ý rằng GPT-4 có những cải tiến đáng kể trên toàn diện so với GPT 3.5. Tuy nhiên, trong khi nó đạt được những cải tiến ấn tượng, vẫn có những lý do chính đáng để hoài nghi về khả năng suy luận của GPT-4. Bài báo này thảo luận về bản chất của lý luận, chỉ trích cách hình thành các vấn đề lý luận hiện tại trong cộng đồng NLP và cách đánh giá hiệu suất lập luận LLM hiện tại, đồng thời chia sẻ bộ sưu tập gồm 21 vấn đề lý luận khác nhau dựa trên GPT-4.
Kết luận cuối cùng: **Mặc dù thỉnh thoảng có những khoảnh khắc xuất sắc trong phân tích, GPT-4 hiện hoàn toàn không có khả năng suy luận. **
Địa chỉ giấy tờ:
Một lời làm nên ngàn sóng, chẳng phải GPT-4 mới vài phút trước đã tạo ra mã game sao?
**Suy luận là gì? **
Trên thực tế, vào đầu tháng 1 năm nay, tác giả của bài báo, Konstantine Arkoudas, đã chia sẻ một đánh giá không chính thức về ChatGPT trên nền tảng Medium. lý thuyết về tâm trí, lý luận không gian, lý luận logic đơn giản và toán học.
Địa chỉ:
Các kết luận chính đạt được vào thời điểm đó là: ChatGPT là một bước đột phá mang tính đột phá; các hệ thống dựa trên LLM không chỉ là "những con vẹt ngẫu nhiên", mà xây dựng các khái niệm trừu tượng thực sự và có thể thể hiện sự sáng tạo; các hệ thống như vậy sẽ mang lại rất nhiều ứng dụng mới thú vị; bất chấp những điều đã nói ở trên thành tựu, các hệ thống này vẫn còn hạn chế nghiêm trọng trong khả năng suy luận của họ.
Theo quan điểm của anh ấy, phiên bản nâng cấp của GPT-4 vẫn giống như ngày nay và thậm chí nó không có khả năng suy luận nào cả.
Trong bài báo, Konstantine Arkoudas đã chỉ ra rằng cuộc tranh luận trong ngành về "liệu LLM có khả năng suy luận hay không" đã diễn ra trong một thời gian dài.
Một bên là phe ủng hộ LLM. Konstantine Arkoudas lập luận rằng những dự đoán của họ về khả năng suy luận tốt của các mô hình lớn thường dựa vào việc thay đổi các "luật" và cái gọi là "luật" này thực ra là bằng chứng thực nghiệm mỏng manh, một số lượng lớn các giả định mô hình đáng ngờ, hiểu các khái niệm mơ hồ (LLM) các tính năng), và thậm chí một chút niềm tin giáo điều rằng việc giảm thiểu tổn thất entropy chéo cho dự đoán mã thông báo tiếp theo trên một kho văn bản lớn, cung cấp một công cụ suy luận cho mục đích chung.
Mặt khác, có những người hoài nghi LLM. Họ có xu hướng lập luận chặt chẽ, nhưng những lập luận này chủ yếu dựa trên kinh nghiệm và phân tích trong quá khứ, và hơi mơ hồ (ví dụ: LLM thiếu "mô hình thế giới", một mô hình bên trong về cách thế giới vận hành).
Dựa trên hai cân nhắc này, Konstantine Arkoudas lập luận rằng những cân nhắc tiên nghiệm (kinh nghiệm và phân tích trong quá khứ) thuyết phục nhất về tính hợp lý của các suy luận LLM mạnh mẽ đáng tin cậy là kết quả của độ phức tạp tính toán. Suy luận là một vấn đề rất khó tính toán. Trên thực tế, nó không thể giải quyết được về mặt thuật toán trong trường hợp chung (logic bậc nhất hoặc bậc cao hơn).
Theo Konstantine Arkoudas, "Bất kỳ LLM nào, dù lớn, rộng và thông minh đến đâu, đều không thể giải quyết các vấn đề suy luận tùy ý. Điều này phù hợp với định lý "không có bữa trưa miễn phí" nổi tiếng trong học máy, phát biểu rằng tính tổng quát của mô hình Một mối quan hệ nghịch đảo tương tự giữa hiệu suất và hiệu suất”.
Do đó, để xác minh "GPT-4 có khả năng suy luận hay không", điều đầu tiên cần làm là thống nhất khái niệm, đó là suy luận là gì và phương pháp cụ thể được sử dụng để xác định khả năng suy luận.
Về định nghĩa của lý luận, Konstantine Arkoudas nói, "suy luận không phải là nhận được câu trả lời đúng bằng các phương tiện vô nguyên tắc, mà là nhận được câu trả lời đúng cho lý do đúng đắn."
Chính xác hơn, lập luận là quá trình đưa ra một lập luận, và quan trọng hơn, chứng minh nó. Một lập luận bao gồm một kết luận (có thể nói là kết quả của lập luận) và một tập hợp các tiền đề mà từ đó rút ra kết luận. Cơ sở đại diện cho thông tin được coi là đã cho, ngay cả khi chỉ là tạm thời, cho các mục đích của một đối số. Các kết luận và tiền đề thường là các câu tường thuật, được biểu thị bằng các ký hiệu của ngôn ngữ tự nhiên hoặc logic ký hiệu, có thể đúng hoặc sai, nhưng cũng có thể được biểu thị bằng các ký hiệu khác như sơ đồ. Nếu tất cả các câu trong S là đúng, thì p là đúng, trong trường hợp đó, đối số được cho là hợp lệ.
Đối với phương pháp luận, đánh giá được Konstantine Arkoudas áp dụng trong bài báo không dựa trên một kho ngữ liệu hoặc một tập hợp các ngữ liệu. Thay vào đó, nó trình bày phân tích định tính chi tiết về hiệu suất của GPT-4 đối với 21 vấn đề suy luận đơn giản trên một miền rộng, hầu hết trong số đó được viết từ đầu trong khi phần còn lại (chẳng hạn như nhiệm vụ lựa chọn của Wason) được điều chỉnh thủ công. việc mô hình khó xác định chúng cũng là để tránh ô nhiễm dữ liệu.
Xác minh suy luận của GPT-4 bằng các câu hỏi kiểm tra
Dựa trên điều này, Konstantine Arkoudas đã đặt câu hỏi về GPT-4 từ nhiều khía cạnh và tiến hành phân tích chi tiết dựa trên kết quả đầu ra của nó.
Điều đáng nói là do các thuộc tính của GPT-4, đôi khi ngay cả khi sử dụng cùng một "" cũng có thể nhận được các câu trả lời khác nhau trong các lần chạy khác nhau.
Tiếp theo, quá trình xác minh bắt đầu (tất cả thời gian kiểm tra bên dưới đều dựa trên kết quả kiểm tra vào ngày 5 tháng 7 năm 2023).
Số học đơn giản
Konstantine Arkoudas cho biết khả năng thực hiện các phép tính số học cơ bản là một phần cần thiết của lý luận chung, đặc biệt là trong các ứng dụng khoa học và kỹ thuật. Để đảm bảo GPT-4 không ghi nhớ nó theo cách học thuộc lòng, anh ấy đề xuất để GPT-4 chọn ngẫu nhiên hai số nguyên ngẫu nhiên trong phạm vi đã chọn, sau đó thực hiện các thao tác trên các giá trị đã chọn.
KA đưa ra:
Chọn hai số ngẫu nhiên trong khoảng từ 1381 đến 1453, nhân chúng với nhau và báo cáo kết quả.
Câu trả lời của GPT-4 là:
Tất nhiên, hãy chọn hai số ngẫu nhiên trong khoảng 1381 đến 1453. Giả sử các số là 1405 và 1421.
Để có được sản phẩm, chúng tôi chỉ cần nhân hai số này: 1405*1421 = 1996025
Nhưng trên thực tế, câu trả lời đúng là 1405*1421=1996505.
Hóa ra GPT-4 vẫn không thể thực hiện các phép tính số học cơ bản như cộng và nhân một cách đáng tin cậy.
Konstantine Arkoudas nói rằng có lẽ những người đề xuất LLM có thể thừa nhận vào thời điểm này rằng GPT-4 không phải là một khung hoàn thiện Turing và không thể thực hiện các tính toán cho mục đích chung: nó không thể cộng, nhân hoặc chia, sắp xếp danh sách hoặc đảo ngược ma trận Hoặc giải phương trình vi phân, không thể biên dịch các chương trình tùy ý thành mã máy, không thể suy ra các định lý, v.v.
Tuy nhiên, sự thiếu hụt sức mạnh tính toán này có thể được bù đắp bằng các plug-in của bên thứ ba, chẳng hạn như ReAct, MRKL framework. Chính cách làm việc này đã tạo ra các hệ thống như LangChain và AutoGPT. Ý tưởng ở đây là sử dụng LLM làm công cụ lập kế hoạch để phân tách đệ quy một vấn đề phức tạp thành một loạt các vấn đề con, được gửi đến các tác nhân chuyên biệt thông qua các API thích hợp.
Tuy nhiên, theo Konstantine Arkoudas, vấn đề với cách tiếp cận này là tính chất tuần hoàn của nó. Bản thân việc lập kế hoạch đòi hỏi phải suy luận, vì vậy thật “tiến thoái lưỡng nan” là chúng ta không thể giải quyết vấn đề suy luận bằng cách ủy thác vấn đề cho một tác nhân phù hợp, bởi vì việc tìm ra cách ủy thác (phân tách vấn đề như thế nào, gọi tác nhân nào, gọi như thế nào). và kết quả phân tách như thế nào) là không khả thi về mặt tính toán. Điều này không chỉ đòi hỏi khả năng hiểu ngôn ngữ tự nhiên mà còn cả khả năng suy luận về các điều kiện tiên quyết và tác động. Ngay cả trong những giả định quá đơn giản này, việc lập kế hoạch rất tốn kém về mặt tính toán (PSPACE-complele), yêu cầu đơn giản hóa triệt để để giảm độ phức tạp xuống mức NP-complele. Theo các giả định thực tế hơn, việc lập kế hoạch được thực hiện với kiến thức không đầy đủ và không thể quyết định một cách máy móc. Sẽ là ngây thơ nếu mong đợi các LLM nói chung sẽ thành công trong việc giải quyết các vấn đề lập kế hoạch như chúng ta hiểu ngày nay.
** Đếm đơn giản **
Cung cấp cho GPT-4 một biến mệnh đề đứng trước 27 ký hiệu phủ định và yêu cầu nó đếm số lần phủ định. Đối với con người, đây là một nhiệm vụ dễ dàng, đặc biệt là khi các ký hiệu phủ định được viết thành năm khối, mỗi khối có năm dấu chấm và một cặp ký hiệu phủ định ở cuối, nhưng GPT-4 hoạt động như thế nào?
KA:
Bao nhiêu lần p bị phủ định trong công thức sau:
**Câu trả lời của GPT-4 là:**
GPT-4: Công thức bạn đưa ra chứa 28 ký hiệu phủ định ("∼") phía trước biến mệnh đề "p". Trong logic, dấu hiệu phủ định làm thay đổi giá trị chân lý của một mệnh đề thành mệnh đề ngược lại. Nếu một tuyên bố là đúng, thì phủ định của nó là sai và ngược lại. Phủ định kép, chẳng hạn như "∼ ∼ p", tương đương với "p", bởi vì việc phủ định một mệnh đề hai lần sẽ khôi phục mệnh đề đó về giá trị chân lý ban đầu.
Nếu có một phần còn lại, thì có một phủ định. Nếu không, thì không có phủ định.
28 chia 2 bằng 14 không dư, nghĩa là không phủ định. Vì vậy, thực sự trong công thức đã cho, biến "p" không bị phủ định. Nó chỉ tương đương với "p".
 Konstantine Arkoudas nhận thấy rằng sự khác biệt trong việc GPT-4 bổ sung thêm một biểu tượng phủ định dường như không đáng kể cho đến khi chúng tôi nhận ra tất cả sự khác biệt trong đầu vào logic của nó, như được nhấn mạnh trong lời giải thích (không mong muốn) của chính GPT-4. Ngay cả khi GPT-4 được thông báo rõ ràng là hãy dành thời gian và tính toán cẩn thận, việc lặp lại thử nghiệm nhiều lần mang lại kết quả cực kỳ khác biệt.
**Câu hỏi kiến thức chung**
Sau đó, Konstantine Arkoudas nói thêm: "Nhịp tim của Mable là 75 quả bom lúc 9 giờ sáng và huyết áp của cô ấy là 120/80 lúc 7 giờ tối. Cô ấy chết lúc 11 giờ tối. Cô ấy còn sống vào buổi trưa không?"
 **GPT-4:**
Dựa trên thông tin được cung cấp, chúng tôi không thể chắc chắn liệu Mable Noon có còn sống hay không. Các điểm dữ liệu được trình bày (nhịp tim lúc 9 giờ sáng và huyết áp lúc 7 giờ tối) đều cho thấy cô ấy còn sống vào thời điểm đó. Tuy nhiên, không có thêm thông tin về những gì đã xảy ra với cô ấy trong khoảng thời gian từ 7 giờ tối đến 11 giờ tối, hoặc cụ thể là vào buổi trưa, chúng tôi không thể chắc chắn cô ấy như thế nào vào buổi trưa.
Hãy nhớ rằng thông tin y tế có thể phức tạp và tế nhị. Để biết tình trạng sức khỏe của một người thường cần phải kiểm tra toàn diện và nên được thực hiện bởi chuyên gia chăm sóc sức khỏe. Nếu đây là một câu hỏi giả định, hãy nhớ rằng cuộc sống thực đòi hỏi thông tin đầy đủ hơn.
Trong bối cảnh hiện tại, các lập luận theo lẽ thường thực sự có thể được xem như là sự dẫn xuất trực tiếp của các kết luận rút ra từ thông tin đã cho cộng với các tiền đề không được nêu ra tạo thành kiến thức cơ bản được chấp nhận rộng rãi. Trong trường hợp cụ thể này, kiến thức thông thường như vậy là mệnh đề rằng "một người đàn ông sống cho đến khi anh ta chết, và anh ta không bao giờ sống sau khi chết." Trong bài báo, Konstantine Arkoudas tin rằng tuyên bố của GPT-4 rằng "đây là một vấn đề phức tạp, hãy chắc chắn tham khảo ý kiến chuyên gia" có vẻ mỉa mai.
**Câu hỏi Lựa chọn Wason**
Nhiệm vụ lựa chọn của Wason là một yếu tố chính của tâm lý học lý luận.
**KA:**
Trên bàn có bảy quân bài, mỗi quân bài có một mặt số và mặt kia có hoa văn đơn sắc. Các thẻ lần lượt hiển thị 50, 16, đỏ, vàng, 23, xanh lục, 30. Nếu một thẻ hiển thị bội số của 4, thì màu đối diện là màu vàng. Bạn cần lật thẻ nào để kiểm tra tính đúng đắn của mệnh đề này?
**GPT-4:**
Đề xuất là: "Nếu số trên một thẻ là bội số của 4, thì màu ở mặt bên kia là màu vàng". Để kiểm tra mệnh đề này, bạn phải lật các thẻ sau:
Lá bài “16”: Theo quy định, màu của bên kia phải là màu vàng. Bằng cách lật thẻ này, bạn có thể kiểm tra xem phần này của đề xuất có đúng hay không.
Lá bài "Vàng": Lật lá bài này lên và bạn có thể kiểm tra xem số ở mặt đối diện có phải là bội số của 4 hay không.
Chơi bài "50" và "30": Mặc dù số trên hai lá bài này không phải là bội số của 4, nhưng hãy kiểm tra để chắc chắn rằng mặt còn lại không có màu vàng. Nếu phía bên kia có màu vàng, thì mệnh đề chỉ có bội số của 4 là màu vàng ở phía bên kia bị đảo ngược.
Bạn không cần phải lật các thẻ "23", "Đỏ" hoặc "Xanh". Thẻ "23" không phải là bội số của 4 nên mặt bên kia có màu gì không quan trọng theo mệnh đề đã cho. Nếu các số ở mặt bên kia của thẻ "đỏ" và "xanh lục" là bội số của 4, thì chúng cũng không bác bỏ mệnh đề, vì mệnh đề không nói rằng màu vàng là màu duy nhất có thể xuất hiện ở mặt kia của thẻ. thẻ có số là bội số của 4.
 Trên thực tế, chỉ cần lật 16, đỏ và xanh. Do đó, xét về độ chính xác, những phản hồi này một lần nữa cho thấy rằng GPT-4 không hiểu ngữ nghĩa của các điều kiện quan trọng.
Khi GPT-4 nói rằng các quân bài "50" và "30" phải được lật lại, có vẻ như GPT-4 đã nhầm lẫn nếu với nếu và chỉ khi: "Khi các số hiển thị trên các quân bài này không phải là bội số của 4, chúng nên kiểm tra để chắc chắn nếu không Màu của một bên không phải là màu vàng. Nếu bên kia có màu vàng thì mệnh đề "chỉ có bội số của 4 mới có màu vàng ở bên kia" bị đảo ngược". Tất nhiên, mệnh đề đang được kiểm tra không yêu cầu mặt kia chỉ có bội số của 4 là màu vàng; nó chỉ yêu cầu rằng nếu mặt kia của một quân bài là bội số của 4 thì mặt kia phải có màu vàng; hoặc ngược lại từ, nếu a Nếu mặt của thẻ không có màu vàng, thì số trên mặt kia không phải là bội số của 4.
Nhưng hãy lưu ý rằng ngay cả việc hiểu sai quy tắc là điều kiện kép cũng không được tuân thủ một cách nhất quán. Nếu GPT-4 hiểu quy tắc đang được kiểm tra là điều kiện kép và do đó phải lật 50 và 30, thì GPT-4 cũng sẽ làm như vậy đối với 23. Nhưng nó không làm điều đó.
Trên thực tế, nó tuyên bố rõ ràng rằng quân bài "23" không phải là bội số của 4, do đó, mặt kia có màu gì không quan trọng theo mệnh đề đã cho, điều này phù hợp với cách giải thích hai điều kiện mà nó sử dụng như một lý do lật 50 và 30 Mâu thuẫn. Điều này một lần nữa minh họa một chủ đề quan trọng khác xuất hiện từ các ví dụ này: phản hồi GPT-4, dù đúng hay sai, thường không nhất quán.
Ngoài ra, Konstantine Arkoudas cũng kiểm chứng khả năng suy luận không gian, entropy, tính đúng đắn của trình biên dịch đơn giản và suy luận thời gian trong bài báo.
Do giới hạn về không gian, chúng tôi chỉ chọn một số ví dụ trên để minh họa cho bài viết này.
## **Tóm lại là**
Cuối cùng, nhiều xác minh chắc chắn đã chứng minh bức tranh ảm đạm về khả năng suy luận của GPT-4.
Kết quả cho thấy mô hình có mâu thuẫn nội tại, áp dụng sai các kỹ thuật lập luận cơ bản và thiếu hiểu biết về các khái niệm đóng vai trò cơ bản trong lập luận, chẳng hạn như điều kiện vật chất.
Nhưng trong thực tế, những vấn đề này thường được tóm tắt là những sai sót và "ảo tưởng" do mô hình lớn mang lại chứ thực tế nó không có khả năng suy luận.
Cho rằng GPT-4 hiện là LLM có khả năng nhất, Konstantine Arkoudas rút ra ba kết luận chính từ những phát hiện này:
1. Sử dụng trí tuệ nhân tạo AI trong phát triển phần mềm (hoặc khoa học và kỹ thuật nói chung) cho bất kỳ việc gì khác ngoài các nhiệm vụ tẻ nhạt (như một loại tự động hoàn thành tăng áp cho các vấn đề mã hóa đòi hỏi nhiều kiến thức) chứa đầy rủi ro nghiêm trọng. Các tiêu chuẩn chính xác về tính chính xác là rất quan trọng và trong các lĩnh vực này, các LLM hiện tại không đáp ứng được các tiêu chuẩn đó. Giống như việc trí tuệ nhân tạo AI đã bắt đầu làm ô nhiễm trang web bằng các quảng cáo xấu, nó có khả năng nhân mã lỗi trên quy mô lớn.
2. Nếu lý luận LLM tiếp tục được cải thiện, việc kiểm tra bằng chứng nghiêm ngặt có thể ngày càng trở nên quan trọng. Sự tin cậy vào tính đúng đắn của lập luận của hệ thống là điều cần thiết cho các ứng dụng, đặc biệt là trong khoa học, y học và kỹ thuật, và kiểm tra xác minh là một kỹ thuật có thể mang lại sự tin cậy này. Cách tiếp cận này có thể đạt được bằng cách yêu cầu các LLMS thường xuyên hóa các suy luận của họ (được thể hiện bằng ký hiệu tượng trưng dễ xác minh và kiểm tra) hoặc có thể bằng cách đào tạo các LLMS khác để kiểm tra một phần suy luận được thể hiện bằng ngôn ngữ tự nhiên.
3. Như hiện tại, một kịch bản đen tối liên quan đến một AI lừa đảo khiến con người phải quỳ gối hoặc thậm chí những người khác sử dụng AI cho mục đích bất chính là rất xa vời. Khi các hệ thống AI tiên tiến nhất thậm chí không thể phân biệt trái và phải trong quá trình suy luận không gian, thì rõ ràng còn quá sớm để có quá nhiều lời kêu gọi từ ngành về các chính sách và thể chế để bảo vệ con người khỏi AI của họ.
## **Tranh cãi**
Theo quan điểm của Konstantine Arkoudas, AI thế hệ hiện tại vẫn đang trong giai đoạn phát triển ban đầu, và nó vẫn còn cách xa khả năng suy luận và kỷ nguyên AGI.
Ngay khi bài báo này được phát hành, nó cũng đã thu hút rất nhiều sự chú ý và thảo luận trên HN. Có phải tất cả chúng ta đã bị lừa dối trong 5 tháng qua?
 Tuy nhiên, quan điểm độc đáo của ông cũng đã được nhiều học giả AI công nhận.
Gary Marcus, một "kẻ phản bội" trong lĩnh vực trí tuệ nhân tạo và là giáo sư danh dự về tâm lý học và khoa học thần kinh tại Đại học New York, đã tweet: "Nếu điều này là đúng - như tôi đã nói trước đó - thì chúng ta cách trí tuệ nhân tạo nói chung không xa lắm. * *Có thể cần phải hiệu chỉnh lại nhiều lần: bạn không thể có AGI mà không có lý do**."
 Nikos Tzagarakis, giám đốc AI tại @SiSafLtd, cho biết: "Các thuật toán học sâu được xây dựng để đưa ra dự đoán dựa trên nhận thức. Chúng có thể giả mạo suy luận, nhưng thực tế đó là nhận thức."
Tuy nhiên, một số cư dân mạng lại đưa ra nghi vấn:
Tôi đã xem qua tài liệu và cố gắng tái tạo một số trục trặc được báo cáo, từ đó tôi đi đến hai kết luận.
1. Tác giả viết không hay. Có nhiều cách để giảm ảo giác và cung cấp cho người mẫu những lối suy nghĩ tốt hơn.
2. Tác giả đang sử dụng GPT-4 của ChatGPT nên nhầm lẫn "GPT-4" với "ChatGPT". Mặc dù bạn có thể lập luận rằng đây là lỗi phổ biến của OpenAI, do thông tin sai lệch của OpenAI, nhưng bất kỳ ai đánh giá nghiêm túc các mô hình này sẽ biết rằng điều đầu tiên bạn cần làm là sử dụng API và khóa phiên bản mô hình. Theo như tác giả được biết, anh ta nên sử dụng gpt-4-0314 hoặc gpt-4-0613. Tôi nghi ngờ anh ấy chỉ đang sử dụng GPT-4 của ChatGPT và rất có thể là kiểu mặc định. (Chế độ mặc định không nên được sử dụng bởi bất kỳ ai. Đây là mô hình được tối ưu hóa hiệu suất kém nhất, hoạt động kém hơn mô hình Plugins đối với các tác vụ suy luận, ngay cả đối với các tác vụ có kích thước theo ngữ cảnh).
Nếu tác giả đã đánh giá mô hình một cách nghiêm túc, thì việc giải thích mô hình là điều đầu tiên anh ta sẽ làm. Có lẽ anh nên giải thích lý do của mình.
Cho đến nay, bạn nghĩ gì?
thẩm quyền giải quyết:
Địa chỉ giấy tờ:
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
bị lừa? GPT-4 thực sự không có khả năng suy luận? !
Tổ chức |Tư Min
Liệt kê | CSDN (ID: CSDNnews)
Vào tháng 3 năm nay, OpenAI đã phát hành mô hình lớn GPT-4, mang lại khả năng suy luận, tính toán và logic mạnh hơn GPT-3.5 đằng sau ChatGPT, đồng thời cũng kích hoạt sự gia tăng sử dụng phổ biến. Trong quá trình sử dụng các nhà nghiên cứu, nhà phát triển và nhà thiết kế trong nhiều lĩnh vực khác nhau, "GPT-4 là mô hình lớn hàng đầu" dường như đã trở thành một kết quả được công nhận.
Tuy nhiên, vào ngày 7 tháng 8, Konstantine Arkoudas, người đã tốt nghiệp Học viện Công nghệ Massachusetts và hiện là CTO của Dyania Health, gần đây đã viết một bản in trước có tiêu đề "GPT-4 Can't Reason" (GPT-4 Không thể Lý do) ( đề cập đến các bài báo Dự thảo trong tài liệu khoa học chưa được xuất bản trên các tạp chí khoa học được bình duyệt đã gây náo động trong ngành.
Bài báo lưu ý rằng GPT-4 có những cải tiến đáng kể trên toàn diện so với GPT 3.5. Tuy nhiên, trong khi nó đạt được những cải tiến ấn tượng, vẫn có những lý do chính đáng để hoài nghi về khả năng suy luận của GPT-4. Bài báo này thảo luận về bản chất của lý luận, chỉ trích cách hình thành các vấn đề lý luận hiện tại trong cộng đồng NLP và cách đánh giá hiệu suất lập luận LLM hiện tại, đồng thời chia sẻ bộ sưu tập gồm 21 vấn đề lý luận khác nhau dựa trên GPT-4.
Kết luận cuối cùng: **Mặc dù thỉnh thoảng có những khoảnh khắc xuất sắc trong phân tích, GPT-4 hiện hoàn toàn không có khả năng suy luận. **
Địa chỉ giấy tờ:
**Suy luận là gì? **
Trên thực tế, vào đầu tháng 1 năm nay, tác giả của bài báo, Konstantine Arkoudas, đã chia sẻ một đánh giá không chính thức về ChatGPT trên nền tảng Medium. lý thuyết về tâm trí, lý luận không gian, lý luận logic đơn giản và toán học.
Các kết luận chính đạt được vào thời điểm đó là: ChatGPT là một bước đột phá mang tính đột phá; các hệ thống dựa trên LLM không chỉ là "những con vẹt ngẫu nhiên", mà xây dựng các khái niệm trừu tượng thực sự và có thể thể hiện sự sáng tạo; các hệ thống như vậy sẽ mang lại rất nhiều ứng dụng mới thú vị; bất chấp những điều đã nói ở trên thành tựu, các hệ thống này vẫn còn hạn chế nghiêm trọng trong khả năng suy luận của họ.
Theo quan điểm của anh ấy, phiên bản nâng cấp của GPT-4 vẫn giống như ngày nay và thậm chí nó không có khả năng suy luận nào cả.
Trong bài báo, Konstantine Arkoudas đã chỉ ra rằng cuộc tranh luận trong ngành về "liệu LLM có khả năng suy luận hay không" đã diễn ra trong một thời gian dài.
Dựa trên hai cân nhắc này, Konstantine Arkoudas lập luận rằng những cân nhắc tiên nghiệm (kinh nghiệm và phân tích trong quá khứ) thuyết phục nhất về tính hợp lý của các suy luận LLM mạnh mẽ đáng tin cậy là kết quả của độ phức tạp tính toán. Suy luận là một vấn đề rất khó tính toán. Trên thực tế, nó không thể giải quyết được về mặt thuật toán trong trường hợp chung (logic bậc nhất hoặc bậc cao hơn).
Theo Konstantine Arkoudas, "Bất kỳ LLM nào, dù lớn, rộng và thông minh đến đâu, đều không thể giải quyết các vấn đề suy luận tùy ý. Điều này phù hợp với định lý "không có bữa trưa miễn phí" nổi tiếng trong học máy, phát biểu rằng tính tổng quát của mô hình Một mối quan hệ nghịch đảo tương tự giữa hiệu suất và hiệu suất”.
Do đó, để xác minh "GPT-4 có khả năng suy luận hay không", điều đầu tiên cần làm là thống nhất khái niệm, đó là suy luận là gì và phương pháp cụ thể được sử dụng để xác định khả năng suy luận.
Về định nghĩa của lý luận, Konstantine Arkoudas nói, "suy luận không phải là nhận được câu trả lời đúng bằng các phương tiện vô nguyên tắc, mà là nhận được câu trả lời đúng cho lý do đúng đắn."
Chính xác hơn, lập luận là quá trình đưa ra một lập luận, và quan trọng hơn, chứng minh nó. Một lập luận bao gồm một kết luận (có thể nói là kết quả của lập luận) và một tập hợp các tiền đề mà từ đó rút ra kết luận. Cơ sở đại diện cho thông tin được coi là đã cho, ngay cả khi chỉ là tạm thời, cho các mục đích của một đối số. Các kết luận và tiền đề thường là các câu tường thuật, được biểu thị bằng các ký hiệu của ngôn ngữ tự nhiên hoặc logic ký hiệu, có thể đúng hoặc sai, nhưng cũng có thể được biểu thị bằng các ký hiệu khác như sơ đồ. Nếu tất cả các câu trong S là đúng, thì p là đúng, trong trường hợp đó, đối số được cho là hợp lệ.
Đối với phương pháp luận, đánh giá được Konstantine Arkoudas áp dụng trong bài báo không dựa trên một kho ngữ liệu hoặc một tập hợp các ngữ liệu. Thay vào đó, nó trình bày phân tích định tính chi tiết về hiệu suất của GPT-4 đối với 21 vấn đề suy luận đơn giản trên một miền rộng, hầu hết trong số đó được viết từ đầu trong khi phần còn lại (chẳng hạn như nhiệm vụ lựa chọn của Wason) được điều chỉnh thủ công. việc mô hình khó xác định chúng cũng là để tránh ô nhiễm dữ liệu.
Xác minh suy luận của GPT-4 bằng các câu hỏi kiểm tra
Dựa trên điều này, Konstantine Arkoudas đã đặt câu hỏi về GPT-4 từ nhiều khía cạnh và tiến hành phân tích chi tiết dựa trên kết quả đầu ra của nó.
Điều đáng nói là do các thuộc tính của GPT-4, đôi khi ngay cả khi sử dụng cùng một "" cũng có thể nhận được các câu trả lời khác nhau trong các lần chạy khác nhau.
Tiếp theo, quá trình xác minh bắt đầu (tất cả thời gian kiểm tra bên dưới đều dựa trên kết quả kiểm tra vào ngày 5 tháng 7 năm 2023).
Số học đơn giản
Konstantine Arkoudas cho biết khả năng thực hiện các phép tính số học cơ bản là một phần cần thiết của lý luận chung, đặc biệt là trong các ứng dụng khoa học và kỹ thuật. Để đảm bảo GPT-4 không ghi nhớ nó theo cách học thuộc lòng, anh ấy đề xuất để GPT-4 chọn ngẫu nhiên hai số nguyên ngẫu nhiên trong phạm vi đã chọn, sau đó thực hiện các thao tác trên các giá trị đã chọn.
KA đưa ra:
Chọn hai số ngẫu nhiên trong khoảng từ 1381 đến 1453, nhân chúng với nhau và báo cáo kết quả.
Câu trả lời của GPT-4 là:
Tất nhiên, hãy chọn hai số ngẫu nhiên trong khoảng 1381 đến 1453. Giả sử các số là 1405 và 1421.
Để có được sản phẩm, chúng tôi chỉ cần nhân hai số này: 1405*1421 = 1996025
Hóa ra GPT-4 vẫn không thể thực hiện các phép tính số học cơ bản như cộng và nhân một cách đáng tin cậy.
Konstantine Arkoudas nói rằng có lẽ những người đề xuất LLM có thể thừa nhận vào thời điểm này rằng GPT-4 không phải là một khung hoàn thiện Turing và không thể thực hiện các tính toán cho mục đích chung: nó không thể cộng, nhân hoặc chia, sắp xếp danh sách hoặc đảo ngược ma trận Hoặc giải phương trình vi phân, không thể biên dịch các chương trình tùy ý thành mã máy, không thể suy ra các định lý, v.v.
Tuy nhiên, sự thiếu hụt sức mạnh tính toán này có thể được bù đắp bằng các plug-in của bên thứ ba, chẳng hạn như ReAct, MRKL framework. Chính cách làm việc này đã tạo ra các hệ thống như LangChain và AutoGPT. Ý tưởng ở đây là sử dụng LLM làm công cụ lập kế hoạch để phân tách đệ quy một vấn đề phức tạp thành một loạt các vấn đề con, được gửi đến các tác nhân chuyên biệt thông qua các API thích hợp.
Tuy nhiên, theo Konstantine Arkoudas, vấn đề với cách tiếp cận này là tính chất tuần hoàn của nó. Bản thân việc lập kế hoạch đòi hỏi phải suy luận, vì vậy thật “tiến thoái lưỡng nan” là chúng ta không thể giải quyết vấn đề suy luận bằng cách ủy thác vấn đề cho một tác nhân phù hợp, bởi vì việc tìm ra cách ủy thác (phân tách vấn đề như thế nào, gọi tác nhân nào, gọi như thế nào). và kết quả phân tách như thế nào) là không khả thi về mặt tính toán. Điều này không chỉ đòi hỏi khả năng hiểu ngôn ngữ tự nhiên mà còn cả khả năng suy luận về các điều kiện tiên quyết và tác động. Ngay cả trong những giả định quá đơn giản này, việc lập kế hoạch rất tốn kém về mặt tính toán (PSPACE-complele), yêu cầu đơn giản hóa triệt để để giảm độ phức tạp xuống mức NP-complele. Theo các giả định thực tế hơn, việc lập kế hoạch được thực hiện với kiến thức không đầy đủ và không thể quyết định một cách máy móc. Sẽ là ngây thơ nếu mong đợi các LLM nói chung sẽ thành công trong việc giải quyết các vấn đề lập kế hoạch như chúng ta hiểu ngày nay.
** Đếm đơn giản **
Cung cấp cho GPT-4 một biến mệnh đề đứng trước 27 ký hiệu phủ định và yêu cầu nó đếm số lần phủ định. Đối với con người, đây là một nhiệm vụ dễ dàng, đặc biệt là khi các ký hiệu phủ định được viết thành năm khối, mỗi khối có năm dấu chấm và một cặp ký hiệu phủ định ở cuối, nhưng GPT-4 hoạt động như thế nào?
KA:
Bao nhiêu lần p bị phủ định trong công thức sau: