ChatGPT phá vỡ bài kiểm tra Turing, đã đến lúc tìm ra cách mới để đánh giá công nghệ AI

2023-07-27 06:06:22

**Nguồn:**AI Frontline

** tác giả | Celeste Biever**

Translator｜Nucle-Cola

Lập kế hoạch｜Dongmei

Nguồn ảnh: Tạo bởi công cụ Unbounded AI, mô hình chung (cắt giấy)

Các mô hình ngôn ngữ lớn có khả năng mô phỏng ngôn ngữ con người tuyệt vời, nhưng các nhà khoa học vẫn bị chia rẽ về hiệu suất suy luận của chúng.

Vào ngày 25 tháng 7, "Nature" đã tuyên bố trong một bài báo rằng ChatGPT đã phá vỡ bài kiểm tra Turing và đã đến lúc kích hoạt các phương pháp mới khác để đánh giá công nghệ trí tuệ nhân tạo.

Hệ thống trí tuệ nhân tạo (AI) mạnh nhất thế giới có thể vượt qua các kỳ thi khắt khe, viết bài thuyết phục và tham gia trò chuyện trôi chảy... Nhiều người thậm chí không thể phân biệt được sự khác biệt giữa AI và con người về cách diễn đạt ngôn ngữ. Có điều gì họ không thể làm không? Tất nhiên là có, và chúng là những câu hỏi rất đơn giản.

Một loạt đồ họa có màu sắc rực rỡ được sắp xếp trên màn hình và hầu hết mọi người có thể nhanh chóng tìm ra câu trả lời cho loại bài kiểm tra logic trực quan này. Nhưng với tư cách là ánh sáng công nghệ đằng sau robot trò chuyện ChatGPT và công cụ tìm kiếm Bing, đồng thời là kiệt tác đỉnh cao nhất của AI hiện tại, rõ ràng GPT-4 không thể làm được điều mình muốn. Một nghiên cứu vào tháng 5 năm nay cho thấy rằng GPT-4 chỉ đúng 1/3 thời gian đối với một loại bài kiểm tra mẫu và chỉ đúng 3% đối với loại bài kiểm tra khác.

Nhóm nghiên cứu đằng sau câu đố logic hy vọng rằng bài kiểm tra sẽ cung cấp một điểm chuẩn tốt hơn cho các hệ thống AI và giúp giải quyết những thiếu sót cố hữu của các mô hình ngôn ngữ lớn như GPT-4. Tóm lại: trong bài kiểm tra ngôn ngữ, mô hình ngôn ngữ lớn đã dễ dàng hoàn thành kỳ tích trí tuệ từng được coi là một cột mốc quan trọng; nhưng trong bài kiểm tra logic trực quan, hiệu suất của chúng khá yếu, có điểm mù rõ ràng và chúng không thể dựa vào về sự trừu tượng hóa.

Melanie Mitchell, một nhà khoa học máy tính tại Viện nghiên cứu Santa Fe ở New Mexico, cho biết: "Những người thực hành trong lĩnh vực AI đang vật lộn với vấn đề khó khăn trong việc đánh giá các hệ thống mô hình ngôn ngữ lớn". của các bài toán logic.

Trong hai hoặc ba năm qua, mô hình ngôn ngữ lớn đã hoàn toàn đè bẹp hệ thống AI trước đó về khả năng đa nhiệm. Nguyên tắc làm việc của họ rất đơn giản: Dựa trên hàng tỷ câu trực tuyến mà họ đã tiếp xúc trong quá trình đào tạo, họ tóm tắt mối tương quan thống kê giữa mỗi từ và sau đó tạo ra một từ tiếp theo hợp lý cho một văn bản đầu vào nhất định. Đối với các chatbot được xây dựng dựa trên các mô hình ngôn ngữ lớn, một yếu tố bổ sung được thêm vào: Người huấn luyện con người cung cấp phản hồi sâu rộng, do đó tinh chỉnh cách bot phản hồi.

Điều đáng chú ý là các thuật toán được đào tạo trên kho ngữ liệu ngôn ngữ con người khổng lồ như vậy với các thuộc tính tương tự như tự động hoàn thành đã thể hiện thành công một loạt các khả năng giải quyết vấn đề. Mặc dù các hệ thống AI cũ có thể đánh bại các mô hình ngôn ngữ lớn trong một nhiệm vụ cụ thể, nhưng hệ thống trước đó phải được đào tạo với số lượng cụ thể cho vấn đề và khả năng này không thể nhanh chóng chuyển từ nhiệm vụ này sang nhiệm vụ khác.

Tomer Ullman, một nhà khoa học nhận thức tại Đại học Harvard cho biết, nói chung, các nhà nghiên cứu ở hai phe này có quan điểm hoàn toàn trái ngược nhau về cách các mô hình ngôn ngữ lớn hoạt động ngầm. Một số cho rằng thành tựu của thuật toán là do lý luận hoặc sự hiểu biết thực sự, nhưng những người khác (bao gồm cả bản thân Ullman và các nhà nghiên cứu như Mitchell ở trên) thì thận trọng hơn.

Theo Ullamn, “cả hai bên của cuộc tranh luận này đều xuất sắc và ở trình độ cao.” Nguyên nhân sâu xa của sự bất đồng là do thiếu bằng chứng vững chắc để chứng minh quan điểm của mỗi bên. "Xét cho cùng, không có máy dò thông minh nào ổn định và đáng tin cậy như máy đếm Geiger, có thể đưa ra câu trả lời rõ ràng là thông minh hay không thông minh."

Các nhà nghiên cứu ở cả hai phía của cuộc thảo luận nói rằng việc dựa vào các bài kiểm tra như câu hỏi logic để tiết lộ sự khác biệt về khả năng giữa con người và hệ thống AI sẽ là một bước quan trọng để đi đúng hướng. Brenden Lake, một nhà khoa học điện toán nhận thức tại Đại học New York, cho biết các điểm chuẩn như vậy cũng có thể giúp tiết lộ những khả năng còn thiếu trong các hệ thống máy học ngày nay và làm rõ chính xác trí thông minh của con người được tạo ra từ đâu.

Ngoài ra, thử nghiệm này của các mô hình ngôn ngữ lớn và nghiên cứu khả năng điểm chuẩn có ý nghĩa thực tế khác. Mitchell đã chỉ ra rằng nếu bạn muốn áp dụng các mô hình ngôn ngữ lớn vào các tình huống trong thế giới thực như y học và luật, trước tiên bạn phải làm rõ ranh giới của các khả năng của nó nằm ở đâu. "Chúng tôi phải tìm ra những gì nó có thể và không thể làm trước khi chúng tôi có thể đánh giá cách sử dụng nó một cách an toàn."

Thử nghiệm Turing đã lỗi thời?

Trong lĩnh vực kiểm tra trí thông minh của máy móc, kế hoạch nổi tiếng nhất luôn là phép thử Turing. Bài kiểm tra được đề xuất bởi nhà toán học và nhà tiên phong máy tính người Anh Alan Turing vào năm 1950, khi máy tính còn sơ khai. Turing đề xuất một phương pháp đánh giá cái gọi là "trò chơi bắt chước", trong kịch bản này, trọng tài con người có một cuộc đối thoại bằng văn bản ngắn với máy tính và con người ẩn sau màn hình để xem liệu nó có thể xác định chính xác máy móc và con người hay không. . Turing tin rằng điều này sẽ trả lời câu hỏi "Máy móc có khả năng suy nghĩ không?"

Mitchell chỉ ra rằng Turing không chỉ rõ nhiều chi tiết về kịch bản, vì vậy không có quy tắc chính xác nào để tuân theo. Theo François Chollet, một kỹ sư phần mềm của Google, "bài kiểm tra Turing không phải là một bài kiểm tra cụ thể có thể thực sự chạy trên máy—nó giống như một thử nghiệm suy nghĩ hơn."

Nhưng quan điểm sử dụng ngôn ngữ để kiểm tra xem một cỗ máy có khả năng suy nghĩ hay không đã ăn sâu vào lĩnh vực công nghệ. Trong nhiều thập kỷ, doanh nhân và nhà từ thiện Hugh Loebner từ lâu đã tài trợ cho sự kiện Thử nghiệm Turing hàng năm, được gọi là Giải thưởng Loebner. Nhưng nhà khoa học máy tính Rob Wortham cho biết chiến dịch đã dừng sau năm 2019 vì kinh phí cho chiến dịch đã hết sau cái chết của chính Loebner. Wortham là đồng giám đốc của Hiệp hội nghiên cứu mô phỏng hành vi và trí tuệ nhân tạo Vương quốc Anh, tổ chức đã thay mặt Loebner tổ chức cuộc thi từ năm 2014. Ông giải thích rằng mô hình ngôn ngữ lớn hiện nay về cơ bản có khả năng đánh lừa con người, vì vậy Giải thưởng Loebner buộc phải dừng lại trước thềm mô hình ngôn ngữ lớn được cất cánh hoàn toàn, đây là một sự hài hước khá đen tối.

Các nhà nghiên cứu khác cũng tin rằng các mô hình ngôn ngữ lớn như GPT-4 đã có khả năng vượt qua bài kiểm tra Turing. Ít nhất là trong các cuộc trò chuyện ngắn, hầu hết mọi người có thể khó phân biệt ai là con người và ai là người mẫu lớn. Vào tháng 5, các nhà nghiên cứu tại phòng thí nghiệm AI21 ở Tel Aviv, Israel, đã báo cáo rằng hơn 1,5 triệu người đã chơi một trò chơi trực tuyến dựa trên bài kiểm tra Turing. Người dùng sẽ tham gia vào một cuộc trò chuyện kéo dài hai phút với một người dùng khác hoặc một mô hình ngôn ngữ lớn giả dạng người thật dựa trên lời nhắc của các nhà nghiên cứu. Xác suất người chơi xác định đúng rô-bốt chỉ là 60%, gần giống như đoán hoàn toàn ngẫu nhiên3.

Tuy nhiên, các nhà nghiên cứu quen thuộc hơn với các mô hình ngôn ngữ lớn vẫn có thể phân biệt chatbot với nhiều chi tiết khác nhau. Chollet lưu ý rằng ông thấy rằng có thể dễ dàng phát hiện ai là mô hình ngôn ngữ lớn chỉ bằng cách khai thác các điểm yếu đã biết của hệ thống. "Nếu tôi tự kiểm tra xem mình có đang nói chuyện với một mô hình ngôn ngữ lớn hay không, chắc chắn tôi sẽ có câu trả lời đúng."

Điều quan trọng là để mô hình ngôn ngữ lớn ra khỏi vùng an toàn của nó. Bí quyết của anh ấy là đề xuất các kịch bản khác biệt cho mô hình ngôn ngữ lớn so với các kịch bản đào tạo thông thường. Trong hầu hết các trường hợp, mô hình ngôn ngữ lớn xuất ra từ có khả năng nhất dựa trên dữ liệu huấn luyện, thay vì thực sự đưa ra câu trả lời đúng theo cảnh mới.

Hơn nữa, Chollet và cộng sự hoài nghi về phương pháp thử nghiệm dựa trên hiệu suất lừa đảo này. "Điều này rõ ràng tồn tại để đánh lừa các trọng tài là con người." Những thử nghiệm như vậy sẽ chỉ khuyến khích các nhà phát triển thấm nhuần nhiều kỹ năng ngụy trang hơn vào AI và sẽ không truyền cảm hứng cho các chức năng hữu ích hoặc thú vị hơn.

Điểm chuẩn không đáng tin cậy

Các nhà nghiên cứu thường đánh giá các hệ thống AI bằng các điểm chuẩn đánh giá các khả năng cụ thể, chẳng hạn như ngôn ngữ, lý luận thông thường và toán học, và các nhóm công nghệ đang ngày càng sử dụng các bài kiểm tra học thuật và chuyên môn được thiết kế cho con người.

Khi GPT-4 được phát hành lần đầu tiên vào tháng 3, công ty OpenAI có trụ sở tại San Francisco, California đã đánh giá hiệu suất của mô hình mới trên một loạt tiêu chuẩn được thiết kế cho máy, bao gồm khả năng đọc hiểu, toán học và viết mã. Theo báo cáo của OpenAI, GPT-4 hoạt động tốt trong hầu hết các bài kiểm tra4. Họ cũng đặt ra khoảng 30 kỳ thi cho GPT-4, bao gồm: nhiều kỳ thi dành cho học sinh trung học Mỹ, được gọi là Advanced Placement; kỳ thi đánh giá kiến thức lâm sàng của các bác sĩ Mỹ; và các tiêu chí được sử dụng trong quá trình tuyển chọn sinh viên tốt nghiệp Mỹ. kiểm tra học sinh (GRE). GPT-4 đã giành được điểm số trong top 10% trong Kỳ thi Luật sư Thống nhất (được bao gồm trong kỳ thi luật sư ở một số tiểu bang của Hoa Kỳ).

Hiệu suất hệ thống AI - Trích từ Kết quả

Nguồn: OpenAI/ Tham khảo 4

Phần trăm xếp hạng ở đây là vị trí của các ứng viên là con người đã đạt được số điểm này trong tất cả các môn học.

Mitchell thừa nhận rằng "khá nhiều mô hình ngôn ngữ hoạt động tốt trên các điểm chuẩn này. Nhưng trong hầu hết các trường hợp, điều đó không đủ để chứng tỏ rằng chúng vượt trội hơn con người về khả năng chung, mà đúng hơn là có một hạn chế trong chính điểm chuẩn." trường hợp Nghi ngờ rằng do mô hình được đào tạo trên một lượng lớn tài liệu văn bản nên có khả năng các vấn đề tương tự đã được phát hiện trong dữ liệu đào tạo. Kết luận so sánh được rút ra trong tình huống này được gọi là "ô nhiễm" và rõ ràng là không đáng tin cậy.

OpenAI cho biết họ đã kiểm tra điều này bằng cách tìm kiếm các chuỗi tương tự trong vấn đề và dữ liệu đào tạo. Thử nghiệm các mô hình ngôn ngữ lớn trước và sau khi loại bỏ các chuỗi tương tự cho thấy ít thay đổi về hiệu suất. Điều này cho thấy điểm số cực cao không liên quan gì đến ô nhiễm, nhưng một số nhà nghiên cứu đặt câu hỏi liệu bài kiểm tra có đủ nghiêm ngặt hay không.

Sam Bowman là nhà khoa học công nghệ ngôn ngữ tại Đại học New York, đồng thời làm việc tại Anthropic, một công ty AI ở San Francisco. Ông cảnh báo không nên chỉ lấy điểm kiểm tra GPT-4 là kết quả của việc "thấy các vấn đề tương tự" và phủ nhận khả năng của GPT-4. Theo quan điểm của anh ấy, "cuộc nói chuyện về ô nhiễm có làm phức tạp tình hình một chút, nhưng tôi không nghĩ nó thực sự ảnh hưởng đến bức tranh toàn cảnh."

Các nhà nghiên cứu cũng chỉ ra rằng khả năng đạt điểm cao trong các bài kiểm tra của các mô hình ngôn ngữ lớn cũng tương đối mong manh và nó có thể không chuyển hóa được thành khả năng đưa ra phán đoán chính xác trong thế giới thực. Theo ông Mitchell, chỉ một chút chỉnh sửa trong đề thi cũng có thể khiến các mô hình lớn trở nên không thể chấp nhận được. Ví dụ, cô ấy lấy một câu hỏi trong kỳ thi MBA mà ChatGPT đã vượt qua và thay đổi một chút, con người có thể dễ dàng điều chỉnh câu trả lời theo sự thay đổi, nhưng ChatGPT đã thất bại thảm hại.

Có một vấn đề khác, sâu sắc hơn khi giải mã ý nghĩa của việc đo điểm chuẩn. Đối với con người mà nói, điểm cao trong các bài kiểm tra này thường đại biểu cho mức độ thông minh mạnh mẽ — trên thực tế, mức độ thông minh bản thân nó cũng là một khái niệm mơ hồ, chủ yếu thể hiện ở khả năng thích ứng với các môi trường khác nhau được thể hiện trong một loạt nhiệm vụ. Nói cách khác, điểm cao trong bài kiểm tra chứng tỏ rằng người đó có khả năng nhận thức tốt và thông thạo các khái niệm trừu tượng nhất định. Nhưng đây không phải là trường hợp của các mô hình ngôn ngữ lớn. Mitchell nhấn mạnh rằng phương pháp phán đoán của các mô hình lớn rất khác so với của con người: "Trong hầu hết các trường hợp, hệ thống AI không thực hiện suy luận theo cách mà con người quen thuộc".

Điều này có thể là do các mô hình ngôn ngữ lớn chỉ có thể học hỏi từ kinh nghiệm ngôn ngữ, do thiếu các kênh kết nối với thế giới thực, chúng không thể trải nghiệm sự kết nối giữa ngôn ngữ và đối tượng, thuộc tính và cảm xúc như con người. Lake nói: "Rõ ràng là chúng không hiểu các từ theo cách của con người. Theo quan điểm của ông, bằng chứng hiện tại cho thấy rằng các mô hình ngôn ngữ lớn "có thể sử dụng ngôn ngữ rất trôi chảy mà không thực sự hiểu những gì chúng đang nói."

Mặt khác, các mô hình ngôn ngữ lớn cũng đã cho thấy một số khả năng mà con người không có, chẳng hạn như hiểu được mối liên hệ giữa hầu hết mọi từ mà con người viết ra. Mitchell cho biết điều này có thể có nghĩa là mô hình đang dựa vào một số đặc điểm của ngôn ngữ hoặc các chỉ số khác để giải quyết vấn đề, mà không cần nắm bắt khả năng suy luận rộng hơn.

Nick Ryder, một nhà nghiên cứu tại OpenAI, cũng đồng ý với nhận định này, khi cho rằng hiệu suất của AI trong một bài kiểm tra đơn lẻ là không đủ để chứng minh khả năng chung của nó giống như đối tượng con người. "Tôi không nghĩ mọi người nên so sánh trực tiếp điểm số của con người với điểm số của các mô hình ngôn ngữ lớn." Điểm số do OpenAI đưa ra "không mô tả khả năng giống con người hoặc mức độ suy luận giống con người của các mô hình ngôn ngữ lớn, mà chỉ đơn giản cho thấy rằng các mô hình này thực hiện tốt các nhiệm vụ này."

Ngoài các điểm chuẩn máy truyền thống và các bài kiểm tra chuyên môn của con người, các nhà nghiên cứu cũng khám phá các mô hình ngôn ngữ lớn rộng hơn. Vào tháng 3 năm nay, Sébastien Bubeck của Microsoft Research và các đồng nghiệp của ông đã phát hành phiên bản 5 được xuất bản trước có tựa đề "Spark of General Artificial Intelligence: GPT-4 Early Experiments", đã gây ra những cuộc thảo luận sôi nổi trong ngành. Khi sử dụng phiên bản đầu tiên của GPT-4, họ đã ghi lại một tập hợp các tính năng đáng ngạc nhiên, nhiều tính năng trong số đó không được liên kết trực tiếp hoặc rõ ràng với ngôn ngữ. Một đặc điểm đáng chú ý là nó vượt qua các bài kiểm tra dùng để đánh giá các lý thuyết tâm lý. Lý thuyết tâm lý là khả năng cốt lõi của con người để dự đoán và suy luận về trạng thái tinh thần của người khác. Họ viết trong bài báo: “Với bề rộng và chiều sâu của các khả năng của GPT-4, chúng tôi có lý do để tin rằng nó đã đại diện cho một phiên bản ban đầu (nhưng chưa hoàn hảo) của hệ thống trí tuệ nhân tạo tổng quát (AGI).

Nhưng chính Bubeck sau đó đã làm rõ, nhấn mạnh rằng "GPT-4 chắc chắn không suy nghĩ giống con người và nó có cách thức độc đáo và khác biệt của riêng mình để thực hiện bất kỳ chức năng nào mà nó thể hiện."

Mitchell tin rằng mặc dù báo cáo khá cấp tiến, nhưng nó không khám phá một cách có hệ thống khả năng của các mô hình ngôn ngữ lớn. "Điều này giống như một nghiên cứu nhân chủng học hơn." Ullman cũng nói rằng để chứng minh rằng máy móc có thể nắm vững các lý thuyết tâm lý, ít nhất chúng phải đưa ra bằng chứng về quá trình nhận thức cơ bản tương ứng, thay vì chỉ dựa vào máy móc để đưa ra câu trả lời giống nhau như con người.Khẳng định thô.

Các nhà nghiên cứu AI tin rằng cần phải xem xét kỹ lưỡng và rộng rãi hơn để hiểu được điểm mạnh và điểm yếu của các mô hình ngôn ngữ lớn. Vấn đề logic màu sắc có thể là một phần quan trọng của nó.

Câu đố mới

Vào năm 2019, ngay trước sự bùng nổ của các mô hình ngôn ngữ lớn, Chollet đã phát hành một bộ kiểm tra logic mới được biên soạn đặc biệt cho các hệ thống AI trên Internet, có tên là Tóm tắt và Lập luận Corpus (ARC). Người giải được cung cấp một minh họa trực quan trong đó một số lưới ô vuông chuyển đổi thành một mẫu khác, hướng dẫn lưới tiếp theo cách thay đổi để chứng minh rằng họ đã hiểu các quy tắc thay đổi. "Đó là một bài kiểm tra khả năng thích ứng với những thứ mà chúng ta chưa từng thấy trước đây," Chollet nói, người tin rằng khả năng tìm ra các mẫu này là bản chất của trí thông minh.

Theo Lake, ARC nắm bắt được "dấu ấn của trí thông minh con người": trừu tượng hóa từ kiến thức hàng ngày và áp dụng nó vào những vấn đề chưa từng thấy trước đây.

Chollet đã tổ chức một cuộc thi chế tạo rô-bốt ARC vào năm 2020, trước khi các mô hình ngôn ngữ lớn thu hút được sự chú ý rộng rãi. Hệ thống AI chiến thắng đã được đào tạo đặc biệt để làm tốt các nhiệm vụ như ARC. Nhưng không giống như mô hình ngôn ngữ lớn, nó không có chức năng chung và nó chỉ trả lời đúng 21% câu hỏi. Để so sánh, con người giải chính xác các bài toán ARC 80% thời gian7. Nhiều nhóm nghiên cứu hiện đang sử dụng ARC để kiểm tra khả năng của các mô hình ngôn ngữ lớn và không có mô hình nào đạt được hiệu suất của con người.

Mitchell và các đồng nghiệp của cô đã phát triển một bộ câu đố mới (được gọi là ConceptARC) lấy cảm hứng từ ARC, với hai điểm khác biệt chính. ConceptARC thậm chí còn dễ dàng hơn: Nhóm của Mitchell muốn điểm chuẩn phản ánh những tiến bộ về khả năng của máy, dù chỉ một chút. Thứ hai, nhóm đã chọn các khái niệm cụ thể để kiểm tra và sau đó tạo ra một loạt các biến thể câu đố liên quan đến chủ đề xung quanh mỗi khái niệm.

Ví dụ: để kiểm tra khái niệm đồng nhất, một vấn đề yêu cầu người giải giữ các đối tượng có cùng hình dạng tại chỗ và một vấn đề khác yêu cầu người giải sắp xếp các đối tượng có cùng hình dạng dọc theo một trục. Ý tưởng là để giảm khả năng hệ thống AI vượt qua bài kiểm tra mà không nắm bắt được khái niệm này.

Hiệu suất kém nghĩa là gì?

Các nhà nghiên cứu đã phát hành nhiệm vụ ConceptARC cho GPT-4 và tuyển dụng 400 đối tượng. Con người đạt điểm trung bình 91% trên tất cả các nhóm khái niệm (97% cho nhóm có điểm cao nhất); 33% cho nhóm GPT-4 có điểm cao nhất và không quá 30% cho các nhóm khái niệm còn lại.

"Chúng tôi đã chỉ ra rằng cỗ máy vẫn còn thiếu trí thông minh ở mức độ con người. Nhưng thật ngạc nhiên, nó có thể giải quyết một số vấn đề này mặc dù chưa bao giờ được đào tạo về chúng."

Nhóm cũng đã thử nghiệm các rô-bốt giành chiến thắng trong cuộc thi Chollet, đây không phải là hệ thống có khả năng chung như mô hình ngôn ngữ lớn, nhưng được huấn luyện đặc biệt cho các vấn đề về thị giác như ARC. Nhìn chung, chúng hoạt động tốt hơn GPT-4, nhưng vẫn kém hơn so với con người, đạt 77% trong nhóm ý tưởng tốt nhất nhưng dưới 60% trong hầu hết các nhóm ý tưởng1.

Tuy nhiên, Bowman tin rằng việc GPT-4 không vượt qua được khóa đào tạo của ConceptARC không chứng tỏ rằng nó thiếu khả năng suy luận trừu tượng tiềm tàng. Theo quan điểm của anh ấy, có sự thiên vị giữa ConceptARC và GPT-4, xét cho cùng thì đây cũng là một bài kiểm tra trực quan. "Ngay cả khi những mô hình này thực sự giỏi trong loại lý luận khái niệm này, không chắc rằng chúng sẽ đạt điểm cao trong các bài kiểm tra như vậy ngay lần đầu tiên."

Hạn chế của phương pháp kiểm tra cũng có thể là yếu tố ảnh hưởng đến hiệu suất kém của GPT-4. Phiên bản công khai của Mô hình ngôn ngữ lớn chỉ có thể chấp nhận kiểu nhập văn bản, vì vậy các nhà nghiên cứu đã gửi các dãy số mô tả hình ảnh. (Ví dụ: một pixel trống có thể được biểu thị bằng 0 và hình vuông có màu có thể được biểu thị bằng một số tương ứng.) Ngược lại, đối tượng là con người có thể nhìn thấy hình ảnh trực tiếp. Mitchell cũng thừa nhận: "Chúng tôi đang so sánh hệ thống ngôn ngữ thuần túy với con người và con người có hệ thống thị giác phát triển cao, vì vậy tôi e rằng sự so sánh này không hoàn toàn công bằng."

OpenAI đã xây dựng phiên bản "đa phương thức" của GPT-4 có thể chấp nhận hình ảnh đầu vào trực tiếp. Nhóm của Mitchell đang chờ công nghệ được tiết lộ chính thức để có thể thực hiện một vòng ConceptARC khác. Nhưng cô ấy không nghĩ rằng GPT-4 đa phương thức tốt hơn nhiều: "Tôi không nghĩ rằng các hệ thống này vẫn có mức độ trừu tượng và lý luận có thể so sánh với con người."

Sam Acquaviva, một nhà khoa học nhận thức máy tính tại Viện Công nghệ Massachusetts, đồng ý và mô hình được giới hạn trong một hàng thay vì lưới8. Điều này sẽ loại bỏ một số vấn đề về sự không công bằng, nhưng Acquaviva nhận thấy rằng mặc dù hiệu suất của GPT-4 đã được cải thiện, nhưng nó cũng không đủ để chứng minh khả năng hiểu và lập luận quy tắc đáng tin cậy cho các mô hình ngôn ngữ lớn.

lập luận lập luận

Bowman cũng đề cập đến một số thí nghiệm khác, theo kết quả toàn diện, mô hình ngôn ngữ lớn ít nhất đã nắm vững khả năng suy luận cơ bản về các khái niệm trừu tượng. Trong một trường hợp, nhà khoa học máy tính Kenneth Li của Đại học Harvard và các đồng nghiệp của ông đã sử dụng phiên bản kỹ thuật số của Reversi, trong đó người chơi đặt các quân đen và trắng trên một ô 8 x 8. Họ hy vọng đánh giá xem liệu các mô hình ngôn ngữ lớn có dựa vào các mối quan hệ thống kê ngôn ngữ được ghi nhớ để tạo văn bản hay liệu chúng có thể thực sự xây dựng các biểu diễn bên trong của các hiện tượng giống như con người hay không.

Sau khi gửi một tập huấn luyện các hành động của người chơi con người cho mô hình ngôn ngữ lớn, AI nhanh chóng thành thạo khả năng chọn chiến lược chính xác cho nước đi tiếp theo. Các nhà nghiên cứu tin rằng điều này cho thấy mô hình ngôn ngữ lớn thậm chí có thể hiểu được tình huống trên bàn cờ và đưa ra gợi ý cho các nước cờ dựa trên các đặc điểm hiện tại, điều này rõ ràng đã phá vỡ các ràng buộc của hình thức văn bản9.

Bowman thừa nhận rằng khả năng suy luận của các mô hình ngôn ngữ lớn nói chung có thể được mô tả là "đa dạng" và nó không đạt đến đỉnh cao của suy luận của con người. Nhưng anh ấy nghĩ rằng khả năng suy luận có tồn tại và nó dường như được cải thiện theo kích thước mô hình. Nói cách khác, các mô hình ngôn ngữ lớn trong tương lai sẽ hoạt động ngày càng tốt hơn. "Những hệ thống này không đáng tin cậy hoặc chung chung như chúng ta mong muốn và chúng hoàn toàn bối rối về một số loại suy luận trừu tượng. Nhưng tôi nghĩ khả năng suy luận cơ bản của chúng tồn tại một cách khách quan."

Các nhà nghiên cứu như Bowman và Mitchell cũng đồng ý rằng làm thế nào để kiểm tra tốt hơn các mô hình ngôn ngữ lớn cho lý luận trừu tượng và các chỉ số khác về trí thông minh vẫn còn là một câu hỏi mở. Michael Frank, một nhà khoa học nhận thức tại Đại học Stanford, tin rằng không có bài kiểm tra toàn diện nào có thể thay thế hoàn toàn bài kiểm tra Turing. Thay vào đó, ông lập luận rằng các nhà nghiên cứu cần đưa ra các thử nghiệm mở rộng để định lượng điểm mạnh và điểm yếu của các hệ thống khác nhau. "Những tác nhân này rất tuyệt, chúng chỉ thiếu sót theo nhiều cách, vì vậy điều quan trọng nhất là khám phá điều này một cách có hệ thống."

Wortham khuyên những người mới sử dụng hệ thống AI nên tránh xa nỗi ám ảnh về thuyết nhân hóa. "Chúng tôi luôn cố gắng hiểu bất cứ điều gì thể hiện trí thông minh như một con người, điều đó thực sự không cần thiết."

"Nó thậm chí còn bị nguyền rủa, nghĩa là chúng ta không thể tưởng tượng ra bất kỳ dạng trí thông minh nào thể hiện định hướng mục tiêu rõ ràng ngoài chính chúng ta. Chúng ta luôn mơ tưởng rằng nó làm như vậy theo cách suy nghĩ sâu sắc giống như chúng ta."

người giới thiệu:

Moskvichev, A., Odouard, VV & Mitchell, M. Preprint at (2023).

Turing, AM Mind LIX, 433–460 (1950).

Bài báo Google Scholar

Jannai , D. , Meron , A. , Lenz , B. , Levine , Y. & Shoham , Y. Bản in trước tại (2023).

mởAI. In trước tại (2023).

Bubeck, S. và cộng sự. In trước tại (2023).

Chollet, F. In trước tại (2019).

Johnson, A., Vong, WK, Lake, BM & Gureckis, TM Bản in trước tại (2021).

Xu , Y. , Li , W. , Vaezipoor , P. , Sanner . S. & Khalil, EB Preprint tại (2023).

Li, K. và cộng sự. Proc. Quốc tế thứ mười một Conf. Học hỏi. Đại diện. (2023).

Liên kết gốc:

Xem bản gốc

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

Phần thưởng
Thích
Bình luận
Chia sẻ

Bình luận

0/400

Không có bình luận

Chủ đề
BTC Hits New High
74k Phổ biến
ETH Breaks $3,000
28k Phổ biến
VIP Exclusive Airdrop Carnival
9k Phổ biến
4Pump.Fun Debuts on Gate
4k Phổ biến
5Fed June Meeting Minutes
4k Phổ biến
6Join Gate VIP to Win MacBook
29k Phổ biến
7Trump Tariff Hikes
16k Phổ biến
8Gate xStocks Trading Share
22k Phổ biến
9HK Stablecoin Rules
12k Phổ biến
10Truth Social Crypto ETF
2k Phổ biến

Ghim

sơ đồ trang web