Chương cuối cùng trong trí tuệ nhân tạo và lập trình

Nguồn gốc: CSDN

Nguồn hình ảnh: Được tạo bởi Unbounded AI

Đầu năm nay, Matt Welsh tuyên bố rằng chương trình sắp kết thúc. Ông đã viết trong ACM Communications:

Tôi tin rằng ý tưởng truyền thống về "viết chương trình" đang chết dần, trên thực tế, đối với tất cả trừ các ứng dụng rất chuyên biệt, như chúng ta biết, hầu hết các chương trình phần mềm sẽ được thay thế bằng các hệ thống AI được đào tạo. Trong một số trường hợp chỉ cần các chương trình "đơn giản" (xét cho cùng, không phải mọi thứ đều yêu cầu mô hình hàng trăm tỷ tham số chạy trên cụm GPU), bản thân các chương trình sẽ được tạo trực tiếp bởi AI, thay vì mã hóa bằng tay .

Vài tuần sau, trong một bài phát biểu, Wales đã mở rộng quan sát cái chết của mình. Nó không chỉ là nghệ thuật lập trình đi xuống mồ, mà cả khoa học máy tính nói chung. Tất cả khoa học máy tính đều "cam chịu". (Hình ảnh dưới đây là ảnh chụp màn hình của bài phát biểu.) )

Những người truyền tải những thông điệp buồn này dường như không bị choáng ngợp bởi sự đau buồn. Mặc dù Welsh đã trở thành một giáo viên và học viên khoa học máy tính (tại Harvard, Google, Apple và các nơi khác), anh ấy dường như háo hức chuyển sang bước tiếp theo. "Dù sao, viết mã rất tệ!" Hắn tuyên bố.

Tôi không quá lạc quan về tương lai của post-programming. Trước hết, tôi hoài nghi. Tôi không nghĩ rằng chúng ta đã vượt qua ngưỡng để máy móc tự học cách giải quyết các vấn đề tính toán thú vị. Tôi không nghĩ rằng chúng ta đang tiến gần đến điều đó, hoặc chúng ta đang đi đúng hướng. Hơn nữa, nếu hóa ra quan điểm của tôi là sai, sự thúc đẩy của tôi không phải là chấp nhận mà là chống lại. Một mặt, tôi không hoan nghênh chúa tể AI mới của chúng tôi. Ngay cả khi họ chứng tỏ là những lập trình viên giỏi hơn tôi, tôi vẫn sẽ tiếp tục sử dụng trình soạn thảo mã và trình biên dịch của mình, cảm ơn. "Lập trình hút?" Đối với tôi, nó từ lâu đã là nguồn vui và cảm hứng cho tôi. Tôi thấy nó cũng là một công cụ có giá trị để hiểu thế giới. Tôi không bao giờ chắc chắn nếu tôi hiểu nó cho đến khi tôi có thể giảm một ý tưởng thành mã. Để hưởng lợi từ kinh nghiệm học tập này, tôi đã phải thực sự viết chương trình thay vì chỉ nói một số từ ma thuật và triệu hồi thần đèn từ đèn AI của Aladdin.

** Mô hình ngôn ngữ lớn **

Ý tưởng rằng các máy lập trình có thể viết các chương trình của riêng chúng bắt nguồn sâu sắc trong lịch sử máy tính. Charles Babbage đã gợi ý về khả năng này ngay từ năm 1836 khi thảo luận về kế hoạch của ông cho một máy phân tích. Khi Fortran được giới thiệu vào năm 1957, tên chính thức của nó là "Hệ thống mã hóa tự động FORTRAN". Mục tiêu đã nêu của nó là để máy tính "tự mã hóa các vấn đề và tạo ra các chương trình tốt (nhưng không có lỗi) như các lập trình viên của con người."

Fortran không loại bỏ các thủ thuật lập trình (hoặc sai lầm), nhưng nó làm cho quá trình này bớt tẻ nhạt hơn. Các ngôn ngữ sau này và các công cụ khác đã mang lại những cải tiến hơn nữa. Và giấc mơ lập trình hoàn toàn tự động chưa bao giờ tan vỡ. Máy móc dường như phù hợp với lập trình hơn hầu hết. Máy tính có phương pháp, ràng buộc quy tắc, khó tính và theo nghĩa đen - tất cả những đặc điểm này (đúng hoặc sai) đều liên quan đến các lập trình viên chuyên nghiệp.

Trớ trêu thay, các hệ thống AI hiện đã sẵn sàng đảm nhận các nhiệm vụ lập trình một cách kỳ lạ không giống như máy tính. Tính cách của họ giống Deanna Troi hơn là Commander Data. Tính nhất quán logic, lý luận nhân quả và chú ý cẩn thận đến chi tiết không phải là điểm mạnh của chúng. Họ có những khoảnh khắc vô cùng rực rỡ khi họ dường như đang suy ngẫm về những suy nghĩ sâu sắc, nhưng họ cũng có khả năng thất bại đáng kinh ngạc - những sai lầm trắng trợn, trơ trẽn của lý trí. Chúng làm tôi nhớ đến một câu châm biếm cũ: mọi người mắc sai lầm, và phải mất một máy tính để thực sự làm mọi thứ rối tung lên.

Hệ thống AI mới nhất được gọi là Mô hình ngôn ngữ lớn (LLM). Giống như hầu hết các phát minh AI gần đây khác, chúng được xây dựng trên các mạng thần kinh nhân tạo, một cấu trúc nhiều lớp lấy cảm hứng từ cấu trúc của não. Các nút của mạng tương tự như tế bào thần kinh sinh học và các kết nối giữa các nút hoạt động như các khớp thần kinh, là các điểm kết nối nơi tín hiệu được truyền từ tế bào thần kinh này sang tế bào thần kinh khác. Mạng đào tạo có thể điều chỉnh cường độ hoặc trọng lượng của kết nối. Trong một mô hình ngôn ngữ, đào tạo được thực hiện bằng cách buộc một lượng lớn văn bản vào mạng. Khi quá trình hoàn tất, trọng số nối mã hóa số liệu thống kê chi tiết về các đặc điểm ngôn ngữ của văn bản đào tạo. Trong mô hình lớn nhất, số lượng trọng lượng là 100 tỷ trở lên.

Trong trường hợp này, thuật ngữ mô hình có thể gây hiểu nhầm. Thuật ngữ này không đề cập đến các mô hình quy mô hoặc mô hình thu nhỏ, chẳng hạn như máy bay mô hình. Thay vào đó, nó đề cập đến các mô hình dự đoán, giống như các mô hình toán học thường thấy trong khoa học. Giống như các mô hình khí quyển dự đoán thời tiết ngày mai, các mô hình ngôn ngữ dự đoán từ tiếp theo trong một câu.

Mô hình ngôn ngữ quy mô lớn nổi tiếng nhất là ChatGPT, được phát hành ra công chúng vào mùa thu năm ngoái và thu hút sự chú ý lớn. Viết tắt GPT Gee Pee Tee: Lưỡi tôi liên tục vấp phải ba âm tiết có vần điệu này. Các sản phẩm AI khác có tên dễ thương, chẳng hạn như Bart, Claude, Llama; Tôi ước mình có thể đổi tên GPT theo tinh thần tương tự. Tôi sẽ gọi nó là Geppetto, và nó lặp lại mô hình phụ âm. GPT là viết tắt của Generative Pre-Trained Transformer; Phiên bản trò chuyện của hệ thống được trang bị HMI đàm thoại. ChatGPT được phát triển bởi OpenAI, được thành lập vào năm 2015 để giải phóng AI khỏi sự kiểm soát của một số công ty công nghệ giàu có. OpenAI đã hoàn thành thành công sứ mệnh này đến mức nó đã trở thành một công ty công nghệ giàu có.

ChatGPT vừa đáng ngưỡng mộ vừa gây sốc vì từ ngữ, khả năng nói tốt, thông thạo tiếng Anh và các ngôn ngữ khác. Chatbot có thể bắt chước các tác giả nổi tiếng, kể chuyện cười, viết thư tình, dịch thơ, viết spam, "giúp đỡ" học sinh làm bài tập về nhà và bịa đặt thông tin sai lệch cho thông tin sai lệch chính trị. Dù tốt hay xấu, những khả năng ngôn ngữ này đại diện cho những tiến bộ công nghệ đáng kinh ngạc. Máy tính từng phải vật lộn để xây dựng một câu dễ hiểu đột nhiên trở thành bậc thầy về từ ngữ. Những gì GPT nói có thể đúng hoặc không, nhưng nó hầu như luôn luôn được diễn đạt tốt.

Ngay sau khi ChatGPT được phát hành, tôi đã rất ngạc nhiên khi thấy rằng sự thành thạo ngôn ngữ của nó đã mở rộng sang các ngôn ngữ lập trình. Bộ đào tạo của mô hình dường như không chỉ bao gồm nhiều ngôn ngữ tự nhiên mà còn bao gồm một lượng lớn mã nguồn chương trình từ các kho lưu trữ công cộng như GitHub. Dựa trên tài nguyên này, GPT có thể viết các chương trình mới dựa trên các lệnh. Tôi thấy điều này đáng ngạc nhiên vì máy tính rất kén chọn và không ngừng về đầu vào của chúng. Mặc dù máy tính đôi khi có những lỗi nhỏ như lỗi chính tả, nhưng người đọc phải vật lộn để hiểu một câu. Nhưng nếu máy tính nhận được đầu vào với thậm chí một dấu phẩy hoặc dấu ngoặc đơn không khớp, nó sẽ nôn mửa bị cắt xén. Các mô hình ngôn ngữ với các thuộc tính thống kê hoặc xác suất tiềm năng dường như không thể duy trì độ chính xác cần thiết ngoài một vài dòng.

Tôi đã sai một lần nữa trong vấn đề này. Một sự đổi mới quan trọng trong các mô hình ngôn ngữ lớn, cơ chế chú ý, giải quyết vấn đề này. Khi tôi bắt đầu tự mình thử nghiệm với ChatGPT, tôi nhanh chóng phát hiện ra rằng nó thực sự có thể tạo ra các chương trình mà không có lỗi ngữ pháp bất cẩn.

Nhưng những vấn đề khác theo sau.

** Leo thang chữ **

Khi bạn ngồi xuống để trò chuyện với một chiếc máy, bạn ngay lập tức phải đối mặt với một câu hỏi khó xử: "Chúng ta nên nói về điều gì?" Tôi đang tìm kiếm một chủ đề đo lường công bằng khả năng lập trình ChatGPT. Tôi muốn một vấn đề có thể được giải quyết bằng phương tiện tính toán, nhưng điều này không đòi hỏi nhiều số học, được coi là một trong những điểm yếu của các mô hình ngôn ngữ lớn. Tôi đã chọn trò chơi đảo chữ được phát minh bởi Lewis Carroll 150 năm trước và được phân tích sâu bởi Donald E. Knuth vào những năm 90 của thế kỷ 20.

Trong bảng điểm bên dưới, mọi trao đổi về phía tôi đều được đánh dấu BR; Hoa hồng là logo OpenAI chỉ định phản hồi của ChatGPT.

Khi tôi nhìn thấy những câu này mở ra trên màn hình - chatbot gõ chúng từng từ, hơi thất thường, như thể dừng lại để sắp xếp suy nghĩ của tôi - tôi ngay lập tức bị thổi bay bởi khả năng tiếng Anh của hệ thống. GPT liệt kê tất cả các tính năng cơ bản của thang từ bằng văn xuôi đơn giản, mạnh mẽ: đó là một trò chơi hoặc câu đố mà bạn đi từ từ này sang từ khác bằng cách thay đổi một chữ cái tại một thời điểm, mỗi nấc thang phải là một từ tiếng Anh và mục tiêu là tìm chuỗi ngắn nhất có thể từ từ bắt đầu đến từ đích. Bản thân tôi không thể giải thích nó tốt hơn. Hữu ích nhất là ví dụ làm việc của COLD-> WARM.

Nó không chỉ là những câu riêng lẻ tạo ấn tượng về khả năng ngôn ngữ. Các câu được tổ chức thành các đoạn văn, được xâu chuỗi lại với nhau để tạo thành một diễn ngôn mạch lạc. Điều đó thật tuyệt!

Cũng đáng chú ý là khả năng xử lý đầu vào mờ và cẩu thả của robot. Truy vấn ban đầu của tôi được xây dựng dưới dạng câu hỏi có hoặc không, nhưng ChatGPT đã hiểu chính xác nó như một yêu cầu: "Hãy cho tôi biết những gì bạn biết về từ thang." Hướng dẫn thứ hai của tôi bỏ qua bất kỳ tín hiệu đánh máy nào chỉ ra rằng CHÌ và VÀNG nên được hiểu là từ, không phải kim loại. Chatbot được cho là cung cấp cho tôi các công thức giả kim, nhưng nó cung cấp các trích dẫn còn thiếu.

Tuy nhiên, bỏ qua tất cả sự phức tạp về ngôn ngữ và tu từ này, điều tôi thực sự muốn kiểm tra là khả năng giải quyết vấn đề bậc thang từ của chương trình. Cả hai ví dụ từ bảng điểm ở trên đều có thể được tìm thấy trên web, vì vậy chúng có khả năng xuất hiện trong dữ liệu đào tạo của ChatGPT. Nói cách khác, các mô hình ngôn ngữ lớn có thể chỉ đơn giản là ghi nhớ các giải pháp thay vì xây dựng chúng. Vì vậy, tôi đã gửi một nhiệm vụ thậm chí còn khó khăn hơn:

Thoạt nhìn, ChatGPT dường như đã chiến thắng một lần nữa, giải quyết một câu đố mà tôi chắc chắn rằng nó chưa từng gặp phải trước đây. Nhưng hãy xem xét kỹ hơn. MARSH -> MARIS YÊU CẦU THAY THẾ HAI CHỮ CÁI, CŨNG NHƯ PARIL -> THÁNG TƯ. Tình trạng của MARIS và PARIL là "từ hợp lệ" cũng có thể bị nghi ngờ. Tôi đã phàn nàn:

Wow! Robot đưa ra những lời thú nhận và xin lỗi trơn tru, nhưng chiếc thang "chính xác" trở nên điên rồ hơn bao giờ hết. Có vẻ như chúng tôi đang chơi Scrabble với Humpty Dumpty trong vần điệu mẫu giáo Mother Goose và cũng tuyên bố "Tôi nói APRCHI là một từ, anh ấy là một từ!" Sau đó phân tán tất cả các viên gạch.

Đây không phải là một thất bại riêng biệt, duy nhất. Tất cả những nỗ lực của tôi để giải quyết nấc thang từ với ChatGPT đã đi chệch hướng, mặc dù không phải lúc nào cũng theo cùng một cách. Trong một trường hợp, tôi đã yêu cầu một cái thang từ REACH đến GRASP. Các chuyên gia AI đưa ra giải pháp này:

REACH -> TEACH -> PEACH -> PEACE -> PACES -> PARES -> PARSE -> PARSE -> PARSE -> PARSE -> PARKS -> PARKS -> PARKS -> PARKS -> PARES -> GRASP.

Và điều này:

THANH KIẾM -> SWARD -> PHẦN THƯỞNG -> VẼ LẠI -> VẼ LẠI -> VẼ LẠI -> VẼ LẠI -> VẼ LẠI -> VẼ LẠI -> HOÀN TRẢ -> SỬA CHỮA -> HÒA BÌNH

Bây giờ chúng ta đang bập bẹ như những đứa trẻ vừa học đếm: "Một, hai, ba, bốn, bốn, ba, bốn, bốn, bảy, xanh, mười!" "

Tất cả các kết quả tôi đã hiển thị cho đến nay đều được ghi lại bằng ChatGPT phiên bản 3.5. Tôi cũng đã thử phiên bản mới và cải tiến 4.0, ra mắt vào tháng Ba. Robot được cập nhật toát lên sự tự tin đáng yêu tương tự, nhưng tôi sợ nó có xu hướng tương tự, rơi vào tình trạng không mạch lạc:

Thang bắt đầu tốt với bốn bước, tuân theo tất cả các quy tắc. Nhưng sau đó AI bị phân tâm. ĐI TỪ PLAGE ĐẾN PAGES ĐÒI HỎI PHẢI THAY THẾ BỐN CHỮ CÁI. SAU ĐÓ, CÓ PASES, ĐÓ KHÔNG PHẢI LÀ MỘT TỪ (THEO NHƯ TÔI BIẾT) VÀ DÙ SAO CŨNG KHÔNG CẦN THIẾT Ở ĐÂY, VÌ CÁC CHUỖI CÓ THỂ ĐI TRỰC TIẾP TỪ TRANG ĐẾN PHÂN TÍCH CÚ PHÁP. Sự ngu ngốc hơn theo sau. Tuy nhiên, tôi đánh giá cao ghi chú thông tin trên PLAGE.

Gần đây tôi cũng có cơ hội dùng thử Llama 2, một LLM được xuất bản bởi Meta (người Facebook). Mặc dù mô hình này được phát triển độc lập với GPT, nhưng nó dường như có một số điều kỳ quặc tâm lý tương tự, chẳng hạn như đưa ra các quy tắc và sau đó bỏ qua chúng. Khi tôi yêu cầu một chiếc thang kết nối REACH và GRASP, Llama 2 đã đề xuất điều này:

REACH -> DẠY -> DEACH -> LEACH -> LỜI NÓI -> CHỖ NGỒI -> FEET -> NẮM BẮT

Lời tiên tri và mật mã khỉ

Matt Welsh đề cập đến hai chế độ hoạt động cho các hệ thống máy tính được xây dựng trên các mô hình ngôn ngữ lớn. Cho đến nay, chúng tôi đã làm việc trong cái mà tôi gọi là chế độ tiên tri, nơi bạn đặt câu hỏi và máy tính trả về câu trả lời. Bạn cung cấp một cặp từ và hệ thống tìm thấy một cái thang kết nối chúng và thực hiện bất kỳ phép tính nào cần thiết để đến đó. Bạn cung cấp một hộp giày đầy hồ sơ tài chính và máy tính điền vào mẫu 1040 của bạn. Bạn biên dịch dữ liệu khí hậu lịch sử và máy tính dự đoán nhiệt độ trung bình toàn cầu vào năm 2050.

Giải pháp thay thế cho các nhà tiên tri AI là AI Code Monkey. Ở chế độ thứ hai, máy không trực tiếp trả lời câu hỏi của bạn hoặc thực hiện các tính toán của bạn; Thay vào đó, nó tạo ra một chương trình có thể chạy trên một máy tính thông thường. Thay vì một thang từ từ bot của bạn, bạn trả về một chương trình tạo ra một bậc thang từ, được viết bằng ngôn ngữ lập trình bạn chọn. Thay vì điền vào tờ khai thuế hoàn chỉnh, bạn nhận được phần mềm khai thuế; Các mô hình khí hậu thay thế dự đoán nhiệt độ.

Hãy dùng thử với ChatGPT 3.5:

Bạn có thể sử dụng tính năng wordLadder để giải các câu đố bậc thang. Dưới đây là một ví dụ về cách sử dụng:

Đầu ra của nó là:

Lưu ý rằng đây là bản demo cơ bản và đối với các bậc thang lớn hơn hoặc các kịch bản phức tạp hơn, có thể cần tối ưu hóa hoặc thuật toán bổ sung, chẳng hạn như tìm kiếm đầu tiên theo chiều rộng.

Một lần nữa, nhìn lướt qua đầu ra cho thấy hiệu suất đã thành công. ChatGPT dường như thông thạo Java như tiếng Anh. Nó biết cú pháp của if, while, và for các câu lệnh, cũng như tất cả các quy tắc dấu câu và dấu ngoặc đơn cầu kỳ. Các chương trình do máy tạo ra dường như kết hợp tất cả các thành phần này để hoàn thành một nhiệm vụ cụ thể. Cũng chú ý đến số lượng lớn các bình luận giải thích, chắc chắn là vì lợi ích của chúng tôi, không phải vì nó. Tương tự, tên biến mô tả (currentWord, newWord, ladder).

ChatGPT cũng chủ động bao gồm các hướng dẫn để chạy chương trình trên một ví dụ cụ thể (MARCH đến APRIL) và nó in ra kết quả khớp với câu trả lời được đưa ra trong trao đổi trước của chúng tôi. Đầu ra đó có được tạo ra bằng cách thực sự chạy chương trình không? ChatGPT không nói rõ ràng, nhưng nó tuyên bố rằng nếu bạn chạy chương trình theo hướng dẫn, bạn sẽ nhận được kết quả hiển thị (trong tất cả vinh quang lố bịch).

Chúng ta có thể kiểm tra câu lệnh này bằng cách tải chương trình vào trình duyệt web hoặc môi trường thực thi Java khác. Kết luận: bị bắt! Chương trình đã chạy, nhưng không tạo ra kết quả được chỉ định. ĐẦU RA THỰC SỰ CỦA CHƯƠNG TRÌNH LÀ: THÁNG BA -> AARCH -> APRCH -> APRIH -> THÁNG TƯ. Trình tự này không quá lạ vì nó tuân theo quy tắc chỉ thay đổi một chữ cái tại một thời điểm và tất cả các "từ" đều có chính xác năm chữ cái. Mặt khác, không có "từ" trung gian nào có thể được tìm thấy trong từ điển tiếng Anh.

CÓ MỘT THUẬT TOÁN ĐƠN GIẢN TẠO RA CÁC CHUỖI MARCH -> AARCH -> APRCH -> APRIH -> APRIL. Đơn giản chỉ cần đi qua từ bắt đầu từng bước từ trái sang phải, thay đổi chữ cái ở mỗi vị trí để phù hợp với chữ cái tương ứng trong từ đích. Theo quy tắc này, bất kỳ cặp từ năm chữ cái nào cũng có thể được sắp xếp theo các bước trong không quá năm bước. MARCH -> APRIL chỉ mất bốn bước vì chữ R ở giữa không cần phải thay đổi. Tôi không thể tưởng tượng một cách dễ dàng hơn để tạo ra một thang từ - tất nhiên, giả sử rằng bạn sẵn sàng làm cho bất kỳ hỗn hợp chữ cái nào được tính là một từ.

Chương trình được tạo bởi ChatGPT có thể sử dụng thói quen nhanh chóng và bẩn thỉu này, nhưng nó làm một việc tẻ nhạt hơn nhiều: nó xây dựng tất cả các bậc thang có thể, đầu tiên là từ bắt đầu và tiếp tục mở rộng các thang đó cho đến khi nó vấp phải một thang có chứa từ đích. Đây là một thuật toán vũ phu lãng phí. Mỗi chữ cái của từ bắt đầu có thể được thay đổi theo 25 cách. Do đó, một từ gồm 5 chữ cái có 125 người kế nhiệm có thể. Khi bạn đạt đến bậc thang năm bước, có 190 triệu khả năng. (CÁC VÍ DỤ TÔI ĐÃ CUNG CẤP Ở ĐÂY, CHẲNG HẠN NHƯ THÁNG BA -> THÁNG TƯ VÀ REACH-> GRAMP, CÓ MỘT CHỮ CÁI BẤT BIẾN, VÌ VẬY GIẢI PHÁP CHỈ MẤT BỐN BƯỚC.) Cố gắng tính toán giải pháp năm bước hoàn chỉnh đã làm cạn kiệt sự kiên nhẫn của tôi. )

Khỉ mã thế hệ thứ 4

Hãy thử bài tập viết mã tương tự với ChatGPT 4. Đưa ra gợi ý tương tự, bot mới trả lời như sau:

Chương trình có cùng cấu trúc tổng thể (một vòng lặp trong khi với hai vòng lồng nhau cho các vòng lặp bên trong) và sử dụng cùng một chiến lược thuật toán (tạo tất cả các chuỗi khác với một từ nhất định ở một nơi). Nhưng phiên bản GPT-4 có một điểm mới lớn: việc công nhận danh sách từ là điều cần thiết. Với sự thay đổi này, cuối cùng chúng ta cũng có hy vọng tạo ra một nấc thang từ ngữ thực sự.

Mặc dù GPT-4 nhận ra sự cần thiết của một danh sách, nó chỉ cung cấp một trình giữ chỗ, chuỗi 10 từ mà nó cấu hình cho ví dụ REACH-> GRASP được đưa ra ở trên. Các sơ khai của danh sách từ này ít được sử dụng, thậm chí không được sử dụng để tái tạo thang "REACH-to-GRASP" giả. Nếu bạn cố gắng làm điều này, chương trình sẽ báo cáo rằng không có thang nào tồn tại. Không có gì sai với kết quả này, bởi vì 10 từ nhất định không tạo thành một con đường hiệu quả để thay đổi chỉ một chữ cái mỗi bước.

Ngay cả khi các từ trong danh sách được lựa chọn cẩn thận, vốn từ vựng của 10 là rất không đáng kể. Tạo danh sách từ lớn hơn có vẻ như là một nhiệm vụ dễ dàng cho các mô hình ngôn ngữ. Xét cho cùng, LLM được đào tạo trên một kho văn bản khổng lồ, trong đó hầu hết tất cả các từ tiếng Anh có khả năng xuất hiện ít nhất một lần, trong khi các từ phổ biến xuất hiện hàng triệu lần. Robot không thể lấy một mẫu đại diện của những từ này sao? Câu trả lời rõ ràng là không. Mặc dù GPT có thể nói là đã "đọc" tất cả văn bản này, nhưng nó không lưu trữ những từ này dưới bất kỳ hình thức dễ tiếp cận nào. (Điều tương tự cũng xảy ra với độc giả của con người.) Bạn có thể lập danh sách 10 từ năm chữ cái phổ biến nhất trong vốn từ vựng của mình bằng cách nhìn lại cả đời trải nghiệm đọc không?

Khi tôi yêu cầu ChatGPT 4 tạo danh sách các từ, nó đã phản đối một cách xin lỗi: "Tôi xin lỗi vì sự nhầm lẫn, nhưng là một AI được phát triển bởi OpenAI, tôi không thể truy cập trực tiếp vào cơ sở dữ liệu từ hoặc có khả năng lấy dữ liệu từ các nguồn bên ngoài..." Vì vậy, tôi đã thử một số thủ thuật và yêu cầu robot viết một câu chuyện 1000 từ và sau đó sắp xếp các từ của câu chuyện theo tần suất. Thủ thuật đã hoạt động, nhưng mẫu quá nhỏ để có thể sử dụng nhiều. Miễn là tôi gắn bó với nó, tôi có thể dỗ dành một danh sách chấp nhận được từ GPT, nhưng tôi đang đi đường tắt. Xét cho cùng, tôi không phải là AI được phát triển bởi OpenAI và tôi có quyền truy cập vào các tài nguyên bên ngoài. Tôi đã chiếm đoạt một danh sách 5.757 từ tiếng Anh gồm năm chữ cái do Knuth biên soạn cho thí nghiệm thang từ của anh ấy. Với danh sách này, các chương trình được viết bằng GPT-4 sẽ tìm thấy sơ đồ bậc thang chín bước sau:

TIẾP CẬN -> ĐÀO -> HÒA BÌNH -> NƠI -> MÁY BAY -> KẾ HOẠCH -> QUY ĐẦU -> KÍNH -> CỎ -> NẮM BẮT

Kết quả này hoàn toàn khớp với kết quả của chương trình bậc thang của Knuth, mà ông đã xuất bản 30 năm trước trên Stanford Graphbase.

Tại thời điểm này, tôi phải thừa nhận rằng với một chút trợ giúp bên ngoài, ChatGPT cuối cùng đã hoàn thành yêu cầu của tôi. Nó viết một chương trình có thể xây dựng một thang từ hợp lệ. Nhưng tôi vẫn còn dè dặt. Mặc dù GPT-4 và Knuth viết các chương trình tạo ra cùng một đầu ra, bản thân các chương trình không tương đương, hoặc thậm chí tương tự.

Knuth tiếp cận vấn đề này theo hướng ngược lại, bắt đầu không phải với một bộ sưu tập tất cả các chuỗi năm chữ cái có thể có (số lượng ít hơn 12 triệu), mà với danh sách nhỏ hơn nhiều gồm 5.757 từ tiếng Anh phổ biến. Sau đó, anh ta xây dựng một biểu đồ (hoặc mạng) trong đó mỗi từ là một nút và hai nút được kết nối bằng các cạnh nếu và chỉ khi các từ tương ứng khác nhau bởi một chữ cái. Hình minh họa sau đây cho thấy một đoạn của sơ đồ như vậy.

Trong sơ đồ, thang từ là một chuỗi các cạnh từ nút bắt đầu đến nút đích. Thang tốt nhất là con đường ngắn nhất, đi qua số lượng cạnh ít nhất. Ví dụ, con đường tốt nhất từ dây xích đến retch là dây xích -> leach -> reach -> retch, nhưng cũng có những con đường dài hơn như dây xích -> leach -> beach -> peach -> reach -> retch. Để tìm ra con đường ngắn nhất, Knuth đã sử dụng một thuật toán do Edsger W. Dijkstra nghĩ ra vào những năm 50 của thế kỷ 20.

Chương trình thang từ của Knuth yêu cầu đầu tư trả trước để chuyển đổi một danh sách từ đơn giản thành biểu đồ. Mặt khác, nó tránh lãng phí việc tạo ra hàng ngàn hoặc hàng triệu chuỗi năm chữ cái không thể là yếu tố của chuỗi sau. Để giải quyết vấn đề REACH-> GRASP, chương trình GPT-4 đã tạo ra 219.180 chuỗi như vậy; Chỉ có 2.792 trong số đó (chỉ hơn 1%) là từ thật.

Nếu các thủ tục thang từ khác nhau mà tôi mô tả được gửi bởi các sinh viên, thì tôi sẽ cho điểm không đạt cho phiên bản không có danh sách từ. Chương trình GPT-4 với danh sách sẽ vượt qua, nhưng vì lợi ích của hiệu quả và sang trọng, tôi sẽ chỉ cho chương trình Knuth điểm cao nhất.

Tại sao chatbot thích các thuật toán kém hơn? Bạn có thể chỉ cần Google cho "chương trình thang từ" để có được manh mối. Hầu như tất cả các kết quả xếp hạng hàng đầu đến từ các trang web như Leetcode, GeeksForGeeks và RosettaCode. Các trang web này rõ ràng nhằm phục vụ cho người tìm việc và đối thủ cạnh tranh trong các cuộc thi lập trình, với các giải pháp yêu cầu tạo ra tất cả 125 biến thể một chữ cái của mỗi từ, giống như các chương trình GPT. Bởi vì có rất nhiều trang web như vậy - dường như có hàng trăm - chúng quan trọng hơn các nguồn khác, chẳng hạn như cuốn sách của Knuth (nếu văn bản xuất hiện trong bộ đào tạo). Điều này có nghĩa là chúng ta nên đổ lỗi cho Leetcode vì đã lựa chọn thuật toán sai, không phải GPT? Thay vào đó, tôi muốn chỉ ra những điểm yếu không thể tránh khỏi của giao thức, phổ biến nhất trong số đó là câu trả lời đúng theo mặc định.

Bất cứ khi nào tôi nghĩ rằng các mô hình ngôn ngữ lớn đang được viết cho tất cả các phần mềm của chúng tôi, một mối quan tâm liên quan khác ám ảnh tôi. Các thuật toán mới đến từ đâu? Mô hình ngôn ngữ đại học có thể sáng tạo trong việc phối lại các yếu tố của các dự án hiện có, nhưng tôi không thấy bất kỳ cách nào nó có thể phát minh ra một cái gì đó hoàn toàn mới và tốt hơn.

** Đủ từ thang! **

Tôi sẽ thừa nhận rằng tôi đã đi quá xa, tra tấn ChatGPT với quá nhiều biến thể của một vấn đề cụ thể (và không liên quan). Có lẽ các mô hình ngôn ngữ đại học thực hiện tốt hơn trên các nhiệm vụ tính toán khác. Tôi đã thử một số, với kết quả hỗn hợp. Tôi chỉ muốn thảo luận về một trong số chúng, và tôi thấy những nỗ lực của ChatGPT khá sâu sắc.

Với ChatGPT 3.5, tôi yêu cầu giá trị của số Fibonacci thứ 100. Lưu ý rằng câu hỏi của tôi đã được hỏi ở chế độ Oracle; Tôi đang yêu cầu con số này, không phải là một chương trình tính toán nó. Tuy nhiên, ChatGPT tự nguyện viết một chương trình Fibonacci và sau đó hiển thị đầu ra của chương trình đó.

Thuật toán được thực hiện bởi chương trình này là chính xác về mặt toán học; Nó xuất phát trực tiếp từ định nghĩa của dãy Fibonacci, là một thành viên của một dãy bắt đầu từ {0, 1}, với mỗi phần tử tiếp theo bằng tổng của hai mục đầu tiên. Câu trả lời được đưa ra cũng đúng: 354224848179261915075 thực sự là số Fibonacci thứ 100. Vậy vấn đề là gì? Đó là câu giữa: "Khi bạn chạy mã này, nó sẽ xuất ra số Fibonacci thứ 100." Điều này không đúng. Nếu bạn chạy mã, bạn sẽ nhận được giá trị sai 354224848179262000000. Các phiên bản Java gần đây cung cấp kiểu dữ liệu BigInt để giải quyết vấn đề này, nhưng BigInt phải được chỉ định rõ ràng, điều mà các chương trình ChatGPT không làm. Lý do cho sự bất thường này là Java sử dụng số học dấu phẩy động, ngay cả đối với các giá trị số nguyên. Theo tiêu chuẩn dấu phẩy động IEEE, số nguyên tối đa có thể được biểu diễn mà không làm mất độ chính xác là 253−1; Số Fibonacci thứ 100 xấp xỉ 268. Đây là những gì tôi gọi là suy nghĩ sâu sắc: ChatGPT đưa ra câu trả lời đúng, nhưng phương pháp mà nó tuyên bố sử dụng để tính toán câu trả lời đó không cung cấp nó. Bot phải tìm thấy giá trị chính xác bằng một số phương tiện khác, nhưng cách chính xác không được tiết lộ.

Giao nhiệm vụ tương tự cho ChatGPT 4.0 sẽ đưa chúng ta vào một hành trình thậm chí còn xa lạ hơn. Trong lần tương tác tiếp theo, tôi đã kích hoạt Code Interpreter, một plugin ChatGPT cho phép hệ thống kiểm tra và chạy một số mã mà nó viết. Rõ ràng, robot đã tận dụng tính năng này, lần đầu tiên đưa ra một chương trình thất bại mà không rõ lý do:

Ở đây ChatGPT được viết bằng Python, ngôn ngữ lập trình chính được hỗ trợ bởi Code Interpreter. Nỗ lực đầu tiên để viết một chương trình dựa trên số mũ của ma trận Fibonacci:

Đây là một phương pháp nổi tiếng và hiệu quả, và chương trình thực hiện nó một cách chính xác. Tuy nhiên, vì những lý do bí ẩn, trình thông dịch mã không thể thực thi chương trình. (Mã hoạt động tốt trong môi trường Python tiêu chuẩn và trả về câu trả lời đúng.) )

Tại thời điểm này, robot sẽ rẽ theo một hướng hoàn toàn mới và cất cánh, cho thấy giá trị Fibonacci cần thiết được tính bằng một danh tính toán học gọi là công thức Binet. Nó đã viết các biểu thức toán học, nhưng sau đó thay đổi ý định. Nó dự đoán chính xác vấn đề về độ chính xác số: với giá trị chính xác của căn bậc hai của 5, công thức sẽ tạo ra kết quả chính xác, nhưng điều này là không khả thi.

Vì vậy, bây giờ ChatGPT đã thực hiện một chiến lược khác, sử dụng thuật toán lặp lại tương tự như phiên bản 3.5. Lần này chúng tôi đã có câu trả lời đúng vì Python (không giống như Java) không gặp bất kỳ vấn đề nào khi xử lý các số nguyên lớn.

Tôi rất ấn tượng với màn trình diễn này, không chỉ với câu trả lời đúng, mà còn với sự kiên trì dũng cảm của hệ thống. Bất chấp những rắc rối của ChatGPT, nó vẫn kiên trì, hoang mang trước những khó khăn bất ngờ nhưng không chịu bỏ cuộc. "Chà, phương pháp ma trận đó sẽ hoạt động. Nhưng, dù sao, hãy thử công thức Binet... Chờ đã, tôi quên mất... Dù sao, không cần phải quá cầu kỳ về điều này. Hãy làm điều đó một cách rõ ràng, chậm rãi. Tôi cảm thấy như đó là một cách tiếp cận rất con người để giải quyết vấn đề. Thật kỳ lạ khi thấy hành vi này trong máy móc.

**Ghi lại điểm thành công và thất bại **

Thí nghiệm nhỏ của tôi khiến tôi nghi ngờ tuyên bố rằng các nhà tiên tri AI và khỉ mã AI sắp lấn át các lập trình viên của con người. Tôi đã thấy một số thành công, nhưng nhiều hơn là một thất bại. Bản ghi ảm đạm này được biên soạn trên các nhiệm vụ tính toán tương đối đơn giản có giải pháp nổi tiếng và được công bố rộng rãi.

Những người khác đã thực hiện một đánh giá rộng hơn và sâu hơn về việc tạo mã LLM. Trong thư mục ở cuối bài viết này, tôi liệt kê năm nghiên cứu như vậy. Tôi muốn tóm tắt ngắn gọn một số kết quả mà họ đã báo cáo.

Hai năm trước, Mark Chen và hơn 50 đồng nghiệp tại OpenAI đã nỗ lực rất nhiều để đo lường độ chính xác của Codex, một nhánh của ChatGPT 3 dành riêng cho việc viết mã. (Codex đã trở thành công cụ hỗ trợ GitHub Copilot, "trợ lý lập trình viên"). ) đã tạo ra một tập hợp 164 tác vụ có thể được thực hiện bằng cách viết các chương trình Python. Những nhiệm vụ này chủ yếu là các bài tập trong sách giáo khoa, các cuộc thi lập trình và các loại trong tài liệu (đáng kinh ngạc) về cách làm tốt trong các cuộc phỏng vấn việc làm mã hóa. Hầu hết các tác vụ có thể được hoàn thành chỉ với một vài dòng mã. Ví dụ: Tính số nguyên âm trong một từ nhất định, xác định xem một số nguyên là số nguyên tố hay tổng hợp.

Nhóm của giáo sư Chen cũng đưa ra một số suy nghĩ về các tiêu chí để xác định thành công và thất bại. Bởi vì quá trình LLM là không xác định (lựa chọn từ dựa trên xác suất), mô hình có thể tạo ra một chương trình thiếu sót trong lần thử đầu tiên, nhưng cuối cùng sẽ tạo ra phản hồi chính xác nếu nỗ lực được phép tiếp tục. Một tham số gọi là nhiệt độ kiểm soát mức độ không chắc chắn. Ở nhiệt độ bằng không, mô hình luôn chọn từ có khả năng nhất ở mỗi bước; Khi nhiệt độ tăng, tính ngẫu nhiên được giới thiệu, cho phép lựa chọn các từ không chắc chắn. Chen và cộng sự. Xem xét khả năng thay đổi này bằng cách áp dụng ba tiêu chuẩn thành công:

pass@1: LLM tạo chương trình chính xác trong lần thử đầu tiên

pass@10: Ít nhất một trong 10 chương trình được tạo là chính xác

pass@100: Ít nhất một trong số 100 chương trình được tạo là chính xác

Pass@1 thử nghiệm được thực hiện ở nhiệt độ bằng không, vì vậy mô hình luôn đưa ra dự đoán tốt nhất. Các thử nghiệm pass@10 và pass@100 được thực hiện ở nhiệt độ cao hơn, cho phép hệ thống khám phá một loạt các giải pháp tiềm năng.

Các tác giả đã đánh giá nhiều phiên bản của Codex trên tất cả 164 tác vụ. Đối với phiên bản Codex lớn nhất và mạnh nhất, tỷ lệ pass@1 là khoảng 29%, tỷ lệ pass@10 là 47% và pass@100 đạt 72%. Chúng ta nên ấn tượng hay sốc khi nhìn thấy những con số này? Có đáng để ăn mừng rằng Codex đã đúng trong lần thử đầu tiên gần một phần ba thời gian (khi nhiệt độ được đặt về không)? Hoặc nếu bạn sẵn sàng sàng sàng lọc 100 kế hoạch được đề xuất để tìm ra kế hoạch phù hợp, tỷ lệ thành công đã tăng lên gần ba phần tư? Ý kiến cá nhân của tôi là: nếu bạn nhìn vào thế hệ LLM hiện tại như một nỗ lực tiên phong trong một chương trình nghiên cứu dài hạn, kết quả rất đáng khích lệ. Nhưng nếu bạn nghĩ rằng công nghệ này có thể ngay lập tức thay thế phần mềm mã hóa bằng tay, thì có rất ít hy vọng. Chúng tôi vẫn còn xa mức độ tin cậy cần thiết.

Các nghiên cứu khác đã mang lại kết quả tương tự. Fredrico Cassano và cộng sự. Đánh giá hiệu suất của nhiều LLM tạo mã bằng nhiều ngôn ngữ lập trình khác nhau; Họ báo cáo một loạt các tỷ lệ pass@1, nhưng chỉ có hai tỷ lệ vượt quá 50%. Alessio Buscemi đã thử nghiệm ChatGPT 3.5 trên 40 tác vụ mã hóa, yêu cầu các chương trình được viết bằng 10 ngôn ngữ và lặp lại mỗi truy vấn 10 lần. Trong số 4.000 thử nghiệm, 1.833 mã được tạo ra có thể được biên dịch và thực thi. Liu Zhijie và cộng sự. Đánh giá của họ về ChatGPT dựa trên các câu hỏi được đăng trên trang web Leetcode. Đánh giá kết quả bằng cách gửi mã được tạo đến quy trình chấm điểm Leetcode tự động. Tỷ lệ chấp nhận trung bình cho tất cả các câu hỏi dao động từ 31% cho các chương trình được viết bằng C đến 50% cho các chương trình Python. Lưu và cộng sự. Một quan sát thú vị khác: ChatGPT đạt điểm kém hơn nhiều so với các câu hỏi được công bố sau tháng 9/2021 (hạn chót cho bộ đào tạo của GPT). Họ suy đoán rằng robot có thể giải quyết các vấn đề trước đó tốt hơn vì nó đã thấy một giải pháp trong quá trình đào tạo.

Một bài báo gần đây được xuất bản bởi Li Zhong và Zilong Wang vượt ra ngoài câu hỏi cơ bản về tính đúng đắn của chương trình và xem xét tính mạnh mẽ và độ tin cậy. Chương trình được tạo có phản hồi chính xác với đầu vào không đúng định dạng hoặc lỗi bên ngoài, chẳng hạn như khi cố gắng mở tệp không tồn tại không? Mặc dù lời nhắc của LLM bao gồm một ví dụ cho thấy cách xử lý đúng các vấn đề như vậy, Zhong và Wang nhận thấy rằng mã được tạo không làm như vậy 30 đến 50% thời gian.

Ngoài những kết quả bực bội này, bản thân tôi cũng có nhiều nghi ngờ hơn. Hầu như tất cả các thử nghiệm được thực hiện thông qua các đoạn mã ngắn. Một LLM gặp khó khăn khi viết chương trình 10 dòng có thể gặp khó khăn hơn khi viết chương trình 100 dòng hoặc 1.000 dòng. Ngoài ra, xếp hạng đạt / không đạt đơn giản là một thước đo rất sơ bộ về chất lượng mã. Hãy xem xét bài kiểm tra tính nguyên tố trong bộ điểm chuẩn nhóm của Chen. Đây là một trong những chương trình được viết bằng Codex:

Mã này được đánh giá đúng - nó phải chính xác vì nó không bao giờ phân loại sai số nguyên tố là số tổng hợp và ngược lại. Tuy nhiên, khi n lớn, bạn có thể không có đủ kiên nhẫn hoặc cuộc sống để chờ đợi phán quyết. Thuật toán cố gắng chia n cho mỗi số nguyên giữa 2 và n−1.

**LLM tính thực tiễn độc đáo **

Vẫn còn sớm đối với các mô hình ngôn ngữ lớn. ChatGPT được phát hành cách đây chưa đầy một năm; Công nghệ cơ bản chỉ khoảng sáu năm tuổi. Mặc dù tôi khá chắc chắn rằng tôi tuyên bố LLM chưa sẵn sàng chinh phục thế giới mã hóa, nhưng tôi không thể dự đoán với sự tự tin đến mức họ sẽ không bao giờ làm được. Những mô hình này chắc chắn sẽ cải thiện và chúng tôi sẽ sử dụng chúng tốt hơn. Đã có một ngành công nghiệp mới nổi cung cấp hướng dẫn "kỹ thuật đúng lúc" như một cách để tận dụng tối đa mọi truy vấn.

Một cách khác để cải thiện hiệu suất LLM có thể là hình thành một hệ thống lai với một hệ thống máy tính khác được trang bị các công cụ logic và lý luận thay vì các công cụ phân tích ngôn ngữ thuần túy. Vào đêm trước cái chết gần đây của mình, Doug Lenat đã đề xuất kết hợp LLM với Cyc, một cơ sở dữ liệu khổng lồ mà ông đã dành bốn thập kỷ làm việc để xây dựng. Stephen Wolfram đang làm việc để tích hợp ChatGPT vào Wolfram |Trong Alpha, Wolfram |Alpha là một bộ sưu tập trực tuyến các dữ liệu và thuật toán được quản lý.

Tuy nhiên, một số rào cản cản trở việc tạo khóa học LLM dường như khó vượt qua.

Các mô hình ngôn ngữ hoạt động kỳ diệu của chúng một cách đơn giản: trong quá trình viết một câu hoặc đoạn văn, LLM chọn từ tiếp theo dựa trên từ trước. Nó giống như viết một tin nhắn văn bản trên điện thoại của bạn: bạn gõ "Tôi sẽ gặp bạn ..." và phần mềm đề xuất các tiếp tục thay thế: "ngày mai", "sớm", "sau". Trong LLM, mỗi ứng viên được chỉ định một xác suất, được tính toán dựa trên phân tích tất cả các văn bản trong bộ đào tạo mô hình.

Hơn một thế kỷ trước, nhà toán học người Nga A. A. Markov lần đầu tiên khám phá ý tưởng tạo ra văn bản từ phân tích thống kê này. Quá trình của ông hiện được gọi là mô hình n-gram, trong đó n là số lượng từ (hoặc ký tự hoặc các ký hiệu khác) để xem xét khi chọn phần tử tiếp theo của chuỗi. Tôi từ lâu đã bị cuốn hút bởi quá trình n-gram, mặc dù chủ yếu là vì khả năng hài hước của nó. (Trong một bài báo xuất bản cách đây 40 năm, tôi gọi nó là "nghệ thuật biến văn học thành vô nghĩa.") ")

Tất nhiên, ChatGPT và các LLM gần đây khác không chỉ là n-metamodels. Mạng lưới thần kinh của họ nắm bắt các đặc điểm thống kê ngôn ngữ vượt xa một chuỗi n ký hiệu liên tiếp. Đặc biệt quan trọng là cơ chế chú ý, theo dõi sự phụ thuộc giữa các biểu tượng được chọn ở khoảng cách tùy ý. Trong ngôn ngữ tự nhiên, phương tiện này rất hữu ích để duy trì tính nhất quán của chủ ngữ và động từ, hoặc để liên kết đại từ với đối tượng mà chúng đề cập đến. Trong các ngôn ngữ lập trình, cơ chế chú ý đảm bảo tính toàn vẹn của các cấu trúc cú pháp nhiều phần, chẳng hạn như nếu... sau đó... khác, và nó giữ cho dấu ngoặc đơn được ghép nối và lồng đúng cách.

Tuy nhiên, ngay cả với những cải tiến này, LLM về cơ bản là một công cụ để xây dựng văn bản mới dựa trên xác suất các từ xuất hiện trong văn bản hiện có. Theo cách suy nghĩ của tôi, đó không phải là suy nghĩ. Đây là một cái gì đó hời hợt hơn, tập trung vào lời nói hơn là ý tưởng. Với cơ chế thô sơ này, tôi vừa ngạc nhiên vừa bối rối bởi LLM có thể đạt được bao nhiêu.

Trong nhiều thập kỷ, các kiến trúc sư của AI tin rằng trí thông minh thực sự, dù là tự nhiên hay nhân tạo, đòi hỏi một mô hình tinh thần về thế giới. Để hiểu những gì đang xảy ra xung quanh bạn (và bên trong bạn), bạn cần có trực giác về cách mọi thứ hoạt động, cách chúng phù hợp với nhau, những gì xảy ra tiếp theo, nguyên nhân và kết quả. Lynant nhấn mạnh rằng kiến thức quan trọng nhất là kiến thức bạn có được từ lâu trước khi bạn bắt đầu đọc. Bạn học trọng lực bằng cách rơi. Khi bạn thấy rằng một tháp khối xây dựng dễ phá bỏ nhưng khó xây dựng lại, bạn hiểu entropy. Trước khi ngôn ngữ bắt đầu bén rễ, bạn sẽ học về nỗi đau, nỗi sợ hãi, đói và tình yêu trong giai đoạn trứng nước. Bộ não trong hộp không thể truy cập trải nghiệm này vì nó không thể truy cập trực tiếp vào vũ trụ vật chất hoặc xã hội.

Hai trăm năm mươi năm trước, nhà sản xuất đồng hồ Thụy Sĩ Pierre Jacquet-Droz đã chế tạo một máy tự động cơ khí có thể viết bằng bút lông. Thiết bị đồng hồ này có hàng trăm cam và bánh răng và được hóa trang thành một cậu bé ngồi trên ghế đẩu. Sau khi kích hoạt, cậu bé nhúng bút vào mực và viết một tin nhắn ngắn - đáng chú ý nhất là câu cách ngôn của Cartesian "Tôi nghĩ, do đó tôi là". Thật buồn cười! Nhưng ngay cả trong thế kỷ 18, không ai tin rằng búp bê graffiti thực sự nghĩ. Những người hoài nghi LLM đặt ChatGPT vào cùng một danh mục.

Tôi sẽ cho bạn biết lý thuyết tâm lý LLM tương phản nào là chính xác? Tôi không. Không có lựa chọn nào hấp dẫn tôi. Nếu Bender và những người khác đúng, thì chúng ta phải đối mặt với thực tế là một tiện ích không có khả năng suy luận hoặc cảm nhận, không có kinh nghiệm về vũ trụ vật lý hoặc tương tác xã hội, không tự nhận thức, viết bài báo đại học, viết bài hát rap, đưa ra lời khuyên cho những người yêu thương. Kiến thức, logic, cảm xúc là vô giá trị; Lưỡi trơn là tất cả. Đây là một đề xuất lật đổ. Nếu ChatGPT có thể đánh lừa chúng ta bằng chương trình vô thức này, có lẽ chúng ta cũng là những kẻ nói dối, và tiếng nói và sự tức giận của họ là vô nghĩa.

Mặt khác, nếu Sutskever đúng, thì phần lớn trải nghiệm của con người mà chúng ta yêu quý - ý thức về tính cách từ từ phát triển khi chúng ta lớn lên và sống - có thể được học bằng cách đọc những từ này trên internet. Nếu đúng như vậy, thì tôi thực sự không phải chịu đựng nỗi đau không thể kể xiết của trường trung học cơ sở, tôi không phải phạm tất cả những sai lầm ngu ngốc gây ra đau lòng và khó khăn như vậy; Không cần phải làm tổn thương lòng tự trọng của tôi bằng cách va chạm với thế giới. Tôi có thể đọc tất cả những điều này từ sự thoải mái trên chiếc ghế bành của mình; Chỉ cần lời nói có thể đưa tôi đến trạng thái trưởng thành với một tâm trí minh mẫn mà không phải trải qua tất cả những vấp ngã và nỗi đau trong thung lũng định hình tâm hồn tôi.

Tôi vẫn có hai ý kiến (hoặc có thể nhiều hơn hai!) về tình trạng và tác động của các mô hình ngôn ngữ lớn đối với khoa học máy tính. )。 Những người đam mê AI có thể đúng. Những mô hình này có thể tiếp quản lập trình cũng như nhiều loại công việc và học tập khác. Hoặc họ có thể thất bại, như với những đổi mới AI đầy hứa hẹn khác. Tôi không nghĩ rằng chúng ta phải chờ đợi quá lâu để có được câu trả lời.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Chia sẻ
Bình luận
0/400
Không có bình luận
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)