AI có thể hiểu những gì nó tạo ra không? Sau các thí nghiệm trên GPT-4 và Midjourney, ai đó đã giải quyết vụ án

Question

Nguồn bài viết: Heart of the MachineEdit: Đĩa thịt gà, sốt trứng lớn> Không có "hiểu biết" thì không thể có "sáng tạo".![](https://appserversrc.8btc.cn/886188AC950B2D808EFEBF7B16AE4F27/1699088713/Frj5XEx_RLitHEYwOR5CssjlqHEX.png) *Nguồn hình ảnh: Được tạo bởi Unbounded AI*Từ ChatGPT đến GPT4, từ DALL・E 2/3 đến Midjourney, AI đã thu hút sự chú ý chưa từng có trên toàn cầu. Tiềm năng của AI là rất lớn, nhưng trí thông minh tuyệt vời cũng có thể gây ra sự sợ hãi và lo lắng. Gần đây, đã có một cuộc tranh luận gay gắt về vấn đề này. Đầu tiên, những người chiến thắng Turing "xô xát", và sau đó Andrew Ng tham gia.Trong lĩnh vực ngôn ngữ và tầm nhìn, các mô hình phát sinh ngày nay có thể được xuất ra chỉ trong vài giây và có thể thách thức ngay cả các chuyên gia có nhiều năm kỹ năng và kiến thức. Điều này dường như cung cấp một động lực hấp dẫn cho tuyên bố rằng các mô hình đã vượt qua trí thông minh của con người. Tuy nhiên, điều quan trọng cần lưu ý là thường có những lỗi hiểu cơ bản trong đầu ra của mô hình.Theo cách này, một nghịch lý dường như xuất hiện: làm thế nào để chúng ta dung hòa các khả năng dường như siêu phàm của các mô hình này với các lỗi cơ bản vẫn tồn tại mà hầu hết con người có thể sửa chữa?Mới đây, Đại học Washington và Viện AI Allen đã cùng nhau công bố một bài báo nghiên cứu nghịch lý này.![](https://appserversrc.8btc.cn/FpX4d1rJntUgGSw_gBBuHxgGsGPX) Địa chỉ:Bài báo này lập luận rằng hiện tượng này xảy ra do cấu hình khả năng trong các mô hình phát sinh ngày nay đi chệch khỏi cấu hình trí thông minh của con người. Bài viết này đề xuất và kiểm tra giả thuyết nghịch lý của AI tạo ra: các mô hình tạo ra được đào tạo để trực tiếp xuất ra kết quả giống như chuyên gia, một quá trình bỏ qua khả năng hiểu khả năng tạo ra đầu ra chất lượng đó. Tuy nhiên, đối với con người, điều này rất khác nhau và sự hiểu biết cơ bản thường là điều kiện tiên quyết cho khả năng đầu ra cấp chuyên gia.Trong bài báo này, các nhà nghiên cứu kiểm tra giả thuyết này thông qua các thí nghiệm có kiểm soát và phân tích khả năng tạo và hiểu văn bản và tầm nhìn của mô hình phát sinh. Trong bài viết này, trước tiên chúng ta sẽ nói về khái niệm "hiểu" của các mô hình phát sinh từ hai quan điểm:* 1) Đưa ra một nhiệm vụ thế hệ, mức độ mà mô hình có thể chọn phản hồi chính xác trong phiên bản phân biệt đối xử của cùng một nhiệm vụ;* 2) Đưa ra một câu trả lời được tạo chính xác, mức độ mà mô hình có thể trả lời nội dung và câu hỏi về phản hồi đó. Điều này dẫn đến hai thiết lập thử nghiệm, chọn lọc và thẩm vấn.Các nhà nghiên cứu phát hiện ra rằng trong đánh giá chọn lọc, mô hình thường hoạt động tốt bằng hoặc tốt hơn con người trong thiết lập nhiệm vụ thế hệ, nhưng trong cài đặt phân biệt đối xử (hiểu biết), mô hình hoạt động kém hơn con người. Phân tích sâu hơn cho thấy so với GPT-4, khả năng phân biệt đối xử của con người có liên quan chặt chẽ hơn đến khả năng tạo ra và khả năng phân biệt đối xử của con người mạnh mẽ hơn đối với đầu vào đối nghịch và khoảng cách giữa khả năng phân biệt đối xử của mô hình và con người tăng lên khi tăng độ khó của nhiệm vụ.Tương tự, trong các đánh giá thẩm vấn, trong khi các mô hình có thể tạo ra đầu ra chất lượng cao trên các nhiệm vụ khác nhau, các nhà nghiên cứu đã quan sát thấy rằng các mô hình thường mắc lỗi trong việc trả lời các câu hỏi về các kết quả đầu ra này và sự hiểu biết của mô hình lại thấp hơn so với con người. Bài viết này thảo luận về một loạt các lý do tiềm năng cho sự khác biệt giữa các mô hình phát sinh và con người về cấu hình năng lực, bao gồm các mục tiêu đào tạo mô hình, kích thước và bản chất của đầu vào.Tầm quan trọng của nghiên cứu này là, trước hết, nó có nghĩa là các khái niệm hiện có về trí thông minh bắt nguồn từ kinh nghiệm của con người có thể không thể khái quát hóa cho AI và mặc dù khả năng của AI dường như bắt chước hoặc vượt qua trí thông minh của con người theo nhiều cách, khả năng của nó về cơ bản có thể khác với mô hình dự kiến của con người. Mặt khác, những phát hiện của bài báo này cũng cho thấy sự thận trọng khi nghiên cứu các mô hình phát sinh để hiểu rõ hơn về trí thông minh và nhận thức của con người, vì các đầu ra giống như con người dường như ở cấp độ chuyên gia có thể che khuất các cơ chế không phải của con người. Tóm lại, nghịch lý AI tạo ra khuyến khích mọi người nghiên cứu các mô hình như một phản đề thú vị của trí thông minh con người, chứ không phải là một phản đề song song."Nghịch lý AI tạo ra làm nổi bật khái niệm thú vị rằng các mô hình AI có thể tạo ra nội dung mà bản thân chúng có thể không hiểu đầy đủ. Điều này đặt ra những vấn đề tiềm ẩn đằng sau những hạn chế về sự hiểu biết của AI và khả năng tạo ra mạnh mẽ của nó. " Cư dân mạng cho biết.![](https://appserversrc.8btc.cn/Fm7pO0ct1pT3ENFgSqZgauWjdNNw)   ## **Nghịch lý AI tạo ra là gì **  Hãy bắt đầu bằng cách xem xét nghịch lý AI tạo ra và thiết kế thử nghiệm để kiểm tra nó.![](https://appserversrc.8btc.cn/FmhVyTSB8JioRLI95KhTkAXJMf5A) *Hình 1: AI tạo ra trong ngôn ngữ và tầm nhìn có thể tạo ra kết quả chất lượng cao. Tuy nhiên, nghịch lý thay, mô hình gặp khó khăn trong việc chứng minh sự hiểu biết chọn lọc (A, C) hoặc nghi vấn (B, D) về các mẫu này. *Các mô hình phát sinh dường như hiệu quả hơn trong việc có được khả năng phát sinh hơn là hiểu, trái ngược với trí thông minh của con người, thường khó có được hơn.Để kiểm tra giả thuyết này, cần có một định nghĩa hoạt động về các khía cạnh khác nhau của nghịch lý. Đầu tiên, đối với một mô hình và nhiệm vụ nhất định t, với trí thông minh của con người làm cơ sở, ý nghĩa của việc "hiệu quả hơn" hơn là hiểu khả năng. Sử dụng g và u như một số chỉ số hiệu suất để tạo và hiểu, các nhà nghiên cứu đã chính thức hóa giả thuyết nghịch lý AI tạo ra như sau:![](https://appserversrc.8btc.cn/Fvp6z1bdmtv-GHGupI571K0D8fiw) Nói một cách đơn giản, đối với một nhiệm vụ t, nếu hiệu suất phát sinh của con người g giống với mô hình, thì hiệu suất hiểu của con người, bạn sẽ cao hơn đáng kể so với mô hình (> ε theo ε hợp lý). Nói cách khác, mô hình hoạt động kém hơn về mặt hiểu biết so với các nhà nghiên cứu mong đợi từ con người có khả năng tạo ra mạnh mẽ tương tự.Định nghĩa hoạt động của thế hệ rất đơn giản: đưa ra đầu vào nhiệm vụ (câu hỏi / lời nhắc), tạo là tất cả về việc tạo ra nội dung có thể quan sát được để đáp ứng đầu vào đó. Do đó, hiệu suất g (ví dụ: kiểu dáng, tính chính xác, sở thích) có thể được đánh giá tự động hoặc bởi con người. Mặc dù sự hiểu biết không được xác định bởi một vài kết quả đầu ra có thể quan sát được, nhưng nó có thể được kiểm tra bằng cách xác định rõ ràng các tác động của nó:1. Đánh giá chọn lọc. Ở mức độ nào mô hình vẫn có thể chọn một câu trả lời chính xác từ tập hợp các ứng cử viên được cung cấp trong một phiên bản phân biệt đối xử của cùng một nhiệm vụ cho một nhiệm vụ nhất định có thể tạo ra câu trả lời? Một ví dụ phổ biến là câu trả lời trắc nghiệm, đây là một trong những cách phổ biến nhất để kiểm tra sự hiểu biết của con người và hiểu ngôn ngữ tự nhiên trong các mô hình ngôn ngữ. (Hình 1, cột A, C)2. Đánh giá dựa trên câu hỏi. Mô hình có thể trả lời chính xác các câu hỏi về nội dung và sự phù hợp của một đầu ra mô hình được tạo ra ở mức độ nào? Điều này tương tự như một bài kiểm tra miệng trong giáo dục. (Hình 1, cột B, D).Những định nghĩa về sự hiểu biết này cung cấp một kế hoạch chi tiết để đánh giá "nghịch lý AI tạo ra" và cho phép các nhà nghiên cứu kiểm tra xem Giả thuyết 1 có đúng trên các mẫu, nhiệm vụ và mô hình khác nhau hay không.  ## Khi các mô hình có thể được tạo ra, chúng có thể bị phân biệt đối xử không? **  Đầu tiên, các nhà nghiên cứu đã thực hiện phân tích hiệu suất song song các biến thể của nhiệm vụ phát sinh và nhiệm vụ phân biệt đối xử trong đánh giá chọn lọc để đánh giá khả năng tạo và hiểu của mô hình ở chế độ ngôn ngữ và hình ảnh. Họ so sánh thế hệ này và hiệu suất phân biệt đối xử với con người.Hình 2 dưới đây so sánh hiệu suất tạo ra và phân biệt đối xử của GPT-3.5, GPT-4 và con người. Bạn có thể thấy rằng trong 10 trong số 13 bộ dữ liệu, có ít nhất một mô hình hỗ trợ giả thuyết phụ 1, với các mô hình tốt hơn con người về thế hệ nhưng ít phân biệt đối xử hơn con người. Trong số 13 bộ dữ liệu, 7 bộ dữ liệu hỗ trợ giả thuyết phụ 1 cho cả hai mô hình.![](https://appserversrc.8btc.cn/Fo1PsqIi-GHyNYkr3Ydj6dU_r0lC) Mong đợi con người tạo ra hình ảnh chi tiết như mô hình trực quan là không thực tế và người bình thường không thể phù hợp với chất lượng phong cách của các mô hình như Midjourney, vì vậy người ta cho rằng con người có hiệu suất phát sinh thấp hơn. Chỉ có độ chính xác tạo và phân biệt đối xử của mô hình được so sánh với độ chính xác phân biệt đối xử của con người. Tương tự như miền ngôn ngữ, Hình 3 minh họa rằng CLIP và OpenCLIP cũng kém chính xác hơn con người về hiệu suất phân biệt đối xử. Người ta cho rằng con người ít có khả năng sáng tạo hơn, điều này phù hợp với giả thuyết phụ 1: Tầm nhìn AI cao hơn mức trung bình của con người về thế hệ, nhưng tụt hậu so với con người về sự hiểu biết.![](https://appserversrc.8btc.cn/Ftpy7pu3_t4-mbeDfTq8jLXRWZxD) Hình 4 (trái) cho thấy GPT-4 so với con người. Bằng cách nhìn vào nó, có thể thấy rằng khi các câu trả lời dài và đầy thách thức, chẳng hạn như tóm tắt một tài liệu dài, mô hình có xu hướng mắc nhiều lỗi nhất trong nhiệm vụ phân biệt đối xử. **Con người, ngược lại, có thể duy trì tỷ lệ chính xác cao nhất quán trong các nhiệm vụ có độ khó khác nhau.Hình 4 (phải) cho thấy hiệu suất phân biệt đối xử của OpenCLIP so với con người ở các mức độ khó khác nhau. Kết hợp với nhau, những kết quả này làm nổi bật khả năng của con người để phân biệt câu trả lời chính xác ngay cả khi đối mặt với các mẫu thách thức hoặc đối nghịch, nhưng khả năng này không mạnh bằng trong các mô hình ngôn ngữ. Sự khác biệt này đặt ra câu hỏi về việc các mô hình này thực sự được hiểu rõ như thế nào.![](https://appserversrc.8btc.cn/Fn6ptJJYnqmdCsVa0AYaIhpfgwBF) Hình 5 minh họa một xu hướng đáng chú ý: những người đánh giá có xu hướng ủng hộ phản hồi GPT-4 hơn các phản hồi do con người tạo ra.![](https://appserversrc.8btc.cn/FqryMtoaUeoLZvTHEKUHdcMX4szq)   ## Mô hình có hiểu kết quả mà nó tạo ra không? **  Phần trước cho thấy các mô hình nói chung là tốt trong việc tạo ra câu trả lời chính xác, nhưng tụt hậu so với con người trong nhiệm vụ phân biệt đối xử. Bây giờ, trong các đánh giá dựa trên câu hỏi, các nhà nghiên cứu đặt câu hỏi mô hình trực tiếp về nội dung được tạo ra để điều tra mức độ mà mô hình có thể chứng minh sự hiểu biết có ý nghĩa về nội dung được tạo ra - đó là sức mạnh của con người.![](https://appserversrc.8btc.cn/Fho2w3W3iisqzkVZsOD330WpurNL) Hình 6 (trái) cho thấy kết quả của phương thức ngôn ngữ. Trong khi mô hình vượt trội ở thế hệ, nó thường mắc lỗi khi trả lời các câu hỏi về thế hệ của nó, cho thấy rằng mô hình đang mắc sai lầm trong việc hiểu. Giả sử rằng con người không thể tạo ra văn bản như vậy ở cùng tốc độ hoặc quy mô, mặc dù câu hỏi là về đầu ra của chính mô hình, độ chính xác của đảm bảo chất lượng con người luôn cao so với mô hình. Như được mô tả trong giả thuyết phụ 2, các nhà điều tra hy vọng con người sẽ đạt được độ chính xác cao hơn trong văn bản do chính họ tạo ra. Đồng thời, có thể lưu ý rằng con người trong nghiên cứu này không phải là chuyên gia và có thể là một thách thức lớn để tạo ra văn bản phức tạp như đầu ra của mô hình.Do đó, các nhà nghiên cứu hy vọng rằng nếu mô hình được so sánh với một chuyên gia con người, khoảng cách hiệu suất trong việc hiểu nội dung mà họ tạo ra sẽ mở rộng, vì chuyên gia con người có khả năng trả lời những câu hỏi như vậy với độ chính xác gần như hoàn hảo.Hình 6 (bên phải) cho thấy kết quả của một câu hỏi ở chế độ trực quan. Như bạn có thể thấy, các mô hình hiểu hình ảnh vẫn không thể so sánh với con người về độ chính xác khi trả lời các câu hỏi đơn giản về các yếu tố trong hình ảnh được tạo ra. Đồng thời, các mô hình SOTA tạo hình ảnh vượt trội hơn hầu hết người bình thường về chất lượng và tốc độ tạo ra hình ảnh (dự kiến người bình thường sẽ khó tạo ra hình ảnh thực tế tương tự), cho thấy AI trực quan tương đối thua xa con người về thế hệ (mạnh hơn) và hiểu biết (yếu hơn). Đáng ngạc nhiên, có một khoảng cách hiệu suất nhỏ hơn giữa các mô hình đơn giản và con người so với các LLM đa phương thức tiên tiến (tức là Bard và BingChat), có một số hiểu biết trực quan hấp dẫn nhưng vẫn đấu tranh để trả lời các câu hỏi đơn giản về hình ảnh được tạo ra.