Lưu ý rằng người chơi này đang chơi "Minecraft" một cách khéo léo và anh ta có thể thu thập đồ ăn nhẹ và phá vỡ các khối một cách dễ dàng.
Ngay khi máy quay quay, chúng tôi phát hiện ra rằng danh tính thực sự của người chơi hóa ra là một con đười ươi!
Vâng, đây là một thí nghiệm mạng thần kinh sinh học không phải của con người từ Ape Initiative.
Nhân vật chính của thí nghiệm, Kanzi, là một tinh tinh lùn 42 tuổi.
Sau khi huấn luyện, nó đã học được nhiều kỹ năng khác nhau, thử thách các môi trường như làng mạc, đền thờ sa mạc và cổng ở hạ giới, đồng thời thông quan cho đến cùng.
Các chuyên gia AI phát hiện ra rằng quá trình dạy người huấn luyện đười ươi học các kỹ năng tương tự như quá trình con người dạy AI chơi Minecraft, chẳng hạn như học tăng cường theo ngữ cảnh, RLHF, học bắt chước, học theo khóa học, v.v.
Khi đười ươi học chơi Minecraft
Kanzi, tinh tinh lùn từ Ape Initiative, là một trong những loài đười ươi thông minh nhất thế giới, hiểu tiếng Anh và sử dụng màn hình cảm ứng.
Trong Ape Initiative, Kanzi có quyền truy cập vào nhiều màn hình cảm ứng điện tử khác nhau, điều này có thể đã tạo nền tảng để anh nhanh chóng bắt đầu với "Minecraft".
Lần đầu tiên mọi người cho Kanzi Minecraft xem, nó đã tìm thấy một mũi tên màu xanh lá cây ngay khi ngồi xuống trước màn hình, rồi vuốt ngón tay về phía mục tiêu.
### Học ba kỹ năng
Chỉ trong vài giây, Kanzi đã tìm ra cách di chuyển trong Minecraft.
Sau đó, nó cũng học cách thu thập phần thưởng.
Mỗi khi thu được phần thưởng, nó sẽ được thưởng bằng đồ ăn nhẹ như đậu phộng, nho và táo.
Thao tác của Kanzi ngày càng điêu luyện.
Nó nhận ra các chướng ngại vật có cùng hình trụ màu xanh lá cây với mũi tên mục tiêu và tránh chúng khi thu thập phần thưởng.
Tất nhiên, Kanzi cũng sẽ gặp khó khăn. Nó yêu cầu phá vỡ các khối lớn bằng công cụ phá vỡ mà nó chưa từng thấy trước đây.
Thấy Kanzi gặp khó khăn, mọi người bắt đầu giúp đỡ bằng cách chỉ vào các nút công cụ mong muốn. Tuy nhiên, Kanzi vẫn không thể hiểu sau khi đọc nó.
Con người phải tự làm điều đó, phá vỡ các khối gỗ bằng các công cụ. Kanzi xem xong trầm ngâm, trong ánh mắt mong đợi của mọi người, nó cũng làm theo, sau khi bấm nút, nó đập nát khối gỗ. Mọi người vỡ òa trong tiếng reo hò ngay lập tức.
Bây giờ, cây kỹ năng của Kanzi có hai thứ: thu thập đồ ăn nhẹ và phá vỡ các khối.
Trong khi học các kỹ năng trong hang động, các nhân viên phát hiện ra rằng nếu Kanzi trượt khỏi khối gỗ mà anh ta đang cố phá, Kanzi sẽ bỏ đi. Do đó, mọi người đã đặc biệt tùy chỉnh một nhiệm vụ cho nó——
Đập vỡ các khối gỗ trong hang động đầy những bức tường kim cương để chứng tỏ kỹ năng thu thập và đập phá của mình.
Tất cả đều ổn trong hang, tuy nhiên, Kanzi gặp sự cố: nó bị mắc kẹt trong góc. Tại thời điểm này, con người là cần thiết để giúp một tay giúp đỡ.
Cuối cùng, Kanzi cũng đến được đáy hang, đập vỡ bức tường cuối cùng.
Đám đông nổ ra trong tiếng reo hò, và Kanzi đã đập tay với nhân viên.
### Con người bị lừa dối
Tiếp theo, điều thú vị đã đến: nhân viên đã mời một người chơi là con người để chơi trò chơi với Kanzi, tất nhiên, anh ta không biết danh tính của Kanzi.
Các nhân viên dự định xem mất bao lâu để người chơi nhận ra rằng người chơi trò chơi với mình không phải là con người.
Lúc đầu, tiểu đệ này chỉ cảm thấy tốc độ di chuyển của đối phương chậm một cách khó tin,
Khi hình ảnh của Kanzi hiện ra trước mắt, cậu em đã sợ hãi và lùi lại.
Ra khỏi mê cung
Sau khi chơi "Minecraft", Kanzi ngày càng can đảm hơn.
Bất cứ khi nào Kanzi nhận được phần thưởng, mọi người sẽ khẳng định hành vi của nó dưới hình thức cổ vũ, và nếu nó thất bại, người huấn luyện cũng sẽ khuyến khích nó tiếp tục trò chơi bằng cách vỗ tay và cổ vũ.
Tại thời điểm này, nó đã học cách mở khóa bản đồ của mê cung dưới lòng đất:
Phá vỡ các chướng ngại vật trước mặt bạn:
Tìm thạch anh tím:
Khi Kanzi gặp khó khăn, nó sẽ ra ngoài đi dạo và mang về một cây gậy để đặt cạnh mình.
Ngay cả khi không may thất bại, Kanzi sẽ nhấp vào nút để tự phục hồi.
Cấp độ cuối cùng là một mê cung khổng lồ đầy nĩa.
Vì chậm ra khỏi mê cung, Kanzi trở nên lo lắng và bắt đầu la hét với cành cây, hoặc bẻ cành cây trong cơn tức giận.
Cuối cùng, nó đã bình tĩnh lại và tiếp tục vượt qua cấp độ, thoát ra khỏi mê cung.
Ngay lập tức, những tràng vỗ tay và cổ vũ vây lấy Kanzi.
Có vẻ như "Thế giới của tôi" được chơi bởi Kanzi, một bonobo.
Điểm tương đồng giữa dạy đười ươi và dạy AI
Xem một tinh tinh tinh tinh chơi trò chơi điện tử thành thạo có thể cảm thấy hơi kỳ cục và kỳ lạ.
Nhà khoa học cấp cao của Nvidia Jim Fan đã nhận xét về điều này -
Mặc dù Kanzi và tổ tiên của nó chưa bao giờ nhìn thấy Minecraft trong đời, nhưng nó đã nhanh chóng thích nghi với kết cấu và vật lý của Minecraft được hiển thị trên màn hình điện tử.
Và điều này rất khác với môi trường tự nhiên mà chúng đã tiếp xúc và sinh sống. Mức độ khái quát hóa này vượt xa các mô hình tầm nhìn mạnh mẽ nhất cho đến nay.
Các kỹ thuật huấn luyện động vật chơi Minecraft về cơ bản giống như các nguyên tắc huấn luyện trí tuệ nhân tạo:
- Học tăng cường dựa trên ngữ cảnh:
Bất cứ khi nào Kanzi đạt được một cột mốc quan trọng trong trò chơi, cậu ấy sẽ nhận được một loại trái cây hoặc đậu phộng, động lực để cậu ấy tiếp tục tuân theo các quy tắc trong trò chơi.
- RLHF:
Kanzi không hiểu tiếng người, nhưng anh ấy có thể thấy các huấn luyện viên của mình cổ vũ anh ấy và thỉnh thoảng đáp lại. Sự cổ vũ từ các nhân viên huấn luyện đã cho Kanzi một tín hiệu mạnh mẽ rằng anh ấy đang đi đúng hướng.
- Học bằng cách bắt chước:
Sau khi người huấn luyện chỉ cho Kanzi cách hoàn thành nhiệm vụ, nó ngay lập tức hiểu ý nghĩa của hoạt động liên quan. Hiệu quả của việc trình bày vượt xa chiến lược chỉ sử dụng phần thưởng.
- Giáo trình học:
Người huấn luyện và Kanzi bắt đầu với một môi trường rất đơn giản và dần dần dạy Kanzi các kỹ năng điều khiển. Cuối cùng, Kanzi có thể đi qua các hang động, mê cung và âm phủ phức tạp.
Không chỉ vậy, ngay cả với các kỹ thuật huấn luyện tương tự, hệ thống thị giác của động vật có thể nhận biết và thích nghi với môi trường mới trong thời gian rất ngắn, trong khi mô hình thị giác AI sẽ tốn nhiều thời gian và chi phí đào tạo hơn, và thường là khó đạt được.Hiệu quả lý tưởng.
Một lần nữa chúng ta rơi vào vực thẳm của nghịch lý Moravec:
Trí tuệ nhân tạo hành xử ngược lại với khả năng của con người. Trong các hoạt động trí tuệ cấp thấp mà chúng ta cho là không suy nghĩ hoặc mang tính bản năng (chẳng hạn như nhận thức và điều khiển vận động), trí tuệ nhân tạo thật tồi tệ. Nhưng trong các hoạt động thông minh tiên tiến đòi hỏi khả năng suy luận và trừu tượng (chẳng hạn như suy luận logic và hiểu ngôn ngữ), trí tuệ nhân tạo có thể dễ dàng vượt qua con người.
Điều này tương ứng chính xác với kết quả được trình bày trong thí nghiệm này:
Trí tuệ nhân tạo tốt nhất của chúng tôi (GPT-4) tiệm cận với trình độ con người về khả năng hiểu ngôn ngữ, nhưng thua xa động vật về khả năng nhận thức, nhận biết.
Cư dân mạng: Thì ra đười ươi chơi game sẽ nổi giận
Cả Kanzi và LLM đều có thể chơi Minecraft, nhưng có một sự khác biệt không đáng kể giữa cách học của Kanzi và LLM mà chúng ta cần lưu ý.
Trước khả năng học tập xuất sắc của Kanzi, cư dân mạng bắt đầu bàn tán xôn xao.
Một số người dự đoán rằng thế giới trong 6 năm nữa sẽ là cuộc chiến tranh giành hành tinh của loài vượn...
Hay một con đười ươi uống Coke và hòa nhập vào xã hội loài người...
Ngay cả Boss Ma cũng bị bắn và biến thành "phiên bản khỉ" của Musk.
Người ta cũng nói rằng Kanzi là người đầu tiên không phải con người có cơn thịnh nộ của một game thủ, và anh ấy hài lòng.
"Nếu Kanzi có kênh trò chơi của riêng mình, tôi sẽ xem nó một cách trung thực."
"Không có nhiều khác biệt giữa con người và tinh tinh lùn khi chơi trò chơi. Tất cả chúng ta đều được thúc đẩy bởi phần thưởng để thực hiện một số nhiệm vụ nhất định và hoàn thành mục tiêu, sự khác biệt duy nhất là nội dung thực tế của phần thưởng."
"Trong Minecraft, phần thưởng của Kanzi cho việc khai thác kim cương là ngay lập tức và nguyên chất (thực phẩm), trong khi phần thưởng của chúng tôi cho việc khai thác kim cương bị trì hoãn hơn và liên quan đến trò chơi. Dù sao thì, hơi điên rồ."
Đầu tiên, GPT đã học chơi "Minecraft", và bây giờ tinh tinh lùn cũng có thể chơi, điều này khiến mọi người mong chờ vào tương lai của việc sử dụng Neuralink.
Jim Fan dạy các đặc vụ AI chơi Minecraft
Con người đã tích lũy được rất nhiều kinh nghiệm tiên tiến trong việc dạy AI chơi Minecraft.
Đầu tháng 5 năm nay, nhóm Jim Fan đã kết nối tác nhân AI của Nvidia với GPT-4 và tạo ra một tác nhân AI hoàn toàn mới là Du hành.
Du hành không chỉ vượt trội so với AutoGPT về hiệu suất mà còn có thể tiến hành học tập suốt đời trong trò chơi ở toàn cảnh!
Nó có thể viết mã độc lập để thống trị "Minecraft" mà không cần sự can thiệp của con người.
Có thể nói sau sự xuất hiện của Voyager, chúng ta đã tiến một bước gần hơn tới trí tuệ nhân tạo nói chung AGI.
Cuộc sống số đích thực
Sau khi truy cập GPT-4, Du hành hoàn toàn không cần lo lắng về con người và hoàn toàn tự học.
Nó không chỉ thành thạo các kỹ năng sinh tồn cơ bản như đào đất, xây nhà, thu thập và săn bắn mà còn học cách tự mình tiến hành khám phá ngoài trời.
Được điều khiển bởi chính nó, nó không ngừng mở rộng các vật phẩm và thiết bị của mình, trang bị các cấp độ khác nhau của áo giáp, sử dụng khiên để chặn Thượng Hải và sử dụng hàng rào để nhốt động vật.
Sự xuất hiện của các mô hình ngôn ngữ lớn đã mang lại những khả năng mới cho việc xây dựng các tác nhân hiện thân. Bởi vì tác nhân dựa trên LLM có thể sử dụng kiến thức thế giới có trong mô hình được đào tạo trước để tạo ra một kế hoạch hành động nhất quán hoặc chiến lược có thể thực hiện được.
Jim Fan: Chúng tôi đã có ý tưởng này trước BabyAGI/AutoGPT và đã dành rất nhiều thời gian để tìm ra kiến trúc không có độ dốc tốt nhất
Việc giới thiệu GPT-4 trong tác nhân mở ra một mô hình mới ("đào tạo" bằng cách thực thi mã, thay vì giảm dần độ dốc), cho phép tác nhân loại bỏ khuyết điểm không thể học suốt đời.
Nhà khoa học OpenAI Karpathy cũng ca ngợi điều này: Đây là một "kiến trúc không có độ dốc" dành cho các kỹ năng nâng cao. Ở đây, LLM tương đương với vỏ não trước trán và API trình khai thác cấp thấp hơn được tạo thông qua mã.
3 thành phần chính
Để biến Voyager trở thành một tác nhân học tập suốt đời hiệu quả, các nhóm từ Nvidia, Caltech và các tổ chức khác đã đề xuất 3 thành phần chính:
1. Cơ chế nhắc lặp đi lặp lại kết hợp phản hồi trò chơi, lỗi thực thi và tự xác thực để cải thiện chương trình
2. Cơ sở mã kỹ năng để lưu trữ và truy xuất các hành vi phức tạp
3. Hướng dẫn tự động tối đa hóa khả năng khám phá của nhân viên
Đầu tiên, Du hành sẽ cố gắng sử dụng Minecraft Java API phổ biến (Mineflayer) để viết một chương trình nhằm đạt được một mục tiêu cụ thể.
Phản hồi về môi trường trò chơi và lỗi triển khai Java (nếu có) sẽ giúp GPT-4 cải thiện chương trình.
Trái: Phản hồi về môi trường. GPT-4 nhận ra rằng nó cần thêm 2 tấm ván nữa trước khi tạo thành cây gậy.
Đúng: Lỗi thực thi. GPT-4 nhận ra rằng nên làm rìu gỗ chứ không phải rìu "Acacia" vì trong Minecraft không có rìu "Acacia".
Bằng cách cung cấp trạng thái và nhiệm vụ hiện tại của tác nhân, GPT-4 cho chương trình biết liệu nó đã hoàn thành nhiệm vụ hay chưa.
Ngoài ra, nếu nhiệm vụ thất bại, GPT-4 cũng sẽ đưa ra lời phê bình và gợi ý cách hoàn thành nhiệm vụ.
tự xác minh
Thứ hai, Du hành dần dần xây dựng ngân hàng kỹ năng bằng cách lưu trữ các quy trình thành công trong cơ sở dữ liệu véc tơ. Mỗi chương trình có thể được truy xuất bằng cách nhúng chuỗi tài liệu của nó.
Các kỹ năng phức tạp được tổng hợp bằng cách kết hợp các kỹ năng đơn giản, cho phép khả năng của Du hành phát triển nhanh chóng theo thời gian và giảm thiểu chứng mất trí nhớ nghiêm trọng.
Lên: Thêm kỹ năng. Mỗi kỹ năng được lập chỉ mục bằng cách nhúng mô tả của nó, có thể được truy xuất trong các tình huống tương tự trong tương lai.
Dưới cùng: Thu hồi kỹ năng. Khi đối mặt với một nhiệm vụ mới do chương trình giảng dạy tự động đề xuất, một truy vấn sẽ được đưa ra và 5 kỹ năng liên quan hàng đầu được xác định.
Thứ ba, một chương trình giảng dạy tự động đề xuất các nhiệm vụ khám phá phù hợp dựa trên trình độ kỹ năng hiện tại và trạng thái thế giới của đặc vụ.
Ví dụ: nếu nó thấy mình đang ở trong sa mạc thay vì trong rừng, hãy học cách thu thập cát và xương rồng thay vì sắt. Các bài học do GPT-4 tạo ra dựa trên mục tiêu "khám phá càng đa dạng càng tốt".
khóa học tự động
Là trí thông minh thể hiện do LLM điều khiển đầu tiên có thể học suốt đời, những điểm tương đồng giữa quy trình đào tạo của Du hành và quy trình đào tạo đười ươi có thể mang lại cho chúng ta rất nhiều cảm hứng.
Người giới thiệu:
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Đười ươi học chơi "Minecraft", phương pháp thực sự giống với cơ thể thông minh GPT-4?
Nguồn gốc: Xinzhiyuan
Lưu ý rằng người chơi này đang chơi "Minecraft" một cách khéo léo và anh ta có thể thu thập đồ ăn nhẹ và phá vỡ các khối một cách dễ dàng.
Ngay khi máy quay quay, chúng tôi phát hiện ra rằng danh tính thực sự của người chơi hóa ra là một con đười ươi!
Vâng, đây là một thí nghiệm mạng thần kinh sinh học không phải của con người từ Ape Initiative.
Nhân vật chính của thí nghiệm, Kanzi, là một tinh tinh lùn 42 tuổi.
Sau khi huấn luyện, nó đã học được nhiều kỹ năng khác nhau, thử thách các môi trường như làng mạc, đền thờ sa mạc và cổng ở hạ giới, đồng thời thông quan cho đến cùng.
Các chuyên gia AI phát hiện ra rằng quá trình dạy người huấn luyện đười ươi học các kỹ năng tương tự như quá trình con người dạy AI chơi Minecraft, chẳng hạn như học tăng cường theo ngữ cảnh, RLHF, học bắt chước, học theo khóa học, v.v.
Khi đười ươi học chơi Minecraft
Kanzi, tinh tinh lùn từ Ape Initiative, là một trong những loài đười ươi thông minh nhất thế giới, hiểu tiếng Anh và sử dụng màn hình cảm ứng.
Trong Ape Initiative, Kanzi có quyền truy cập vào nhiều màn hình cảm ứng điện tử khác nhau, điều này có thể đã tạo nền tảng để anh nhanh chóng bắt đầu với "Minecraft".
Chỉ trong vài giây, Kanzi đã tìm ra cách di chuyển trong Minecraft.
Sau đó, nó cũng học cách thu thập phần thưởng.
Nó nhận ra các chướng ngại vật có cùng hình trụ màu xanh lá cây với mũi tên mục tiêu và tránh chúng khi thu thập phần thưởng.
Thấy Kanzi gặp khó khăn, mọi người bắt đầu giúp đỡ bằng cách chỉ vào các nút công cụ mong muốn. Tuy nhiên, Kanzi vẫn không thể hiểu sau khi đọc nó.
Con người phải tự làm điều đó, phá vỡ các khối gỗ bằng các công cụ. Kanzi xem xong trầm ngâm, trong ánh mắt mong đợi của mọi người, nó cũng làm theo, sau khi bấm nút, nó đập nát khối gỗ. Mọi người vỡ òa trong tiếng reo hò ngay lập tức.
Đập vỡ các khối gỗ trong hang động đầy những bức tường kim cương để chứng tỏ kỹ năng thu thập và đập phá của mình.
Tất cả đều ổn trong hang, tuy nhiên, Kanzi gặp sự cố: nó bị mắc kẹt trong góc. Tại thời điểm này, con người là cần thiết để giúp một tay giúp đỡ.
Cuối cùng, Kanzi cũng đến được đáy hang, đập vỡ bức tường cuối cùng.
Tiếp theo, điều thú vị đã đến: nhân viên đã mời một người chơi là con người để chơi trò chơi với Kanzi, tất nhiên, anh ta không biết danh tính của Kanzi.
Các nhân viên dự định xem mất bao lâu để người chơi nhận ra rằng người chơi trò chơi với mình không phải là con người.
Lúc đầu, tiểu đệ này chỉ cảm thấy tốc độ di chuyển của đối phương chậm một cách khó tin,
Khi hình ảnh của Kanzi hiện ra trước mắt, cậu em đã sợ hãi và lùi lại.
Ra khỏi mê cung
Sau khi chơi "Minecraft", Kanzi ngày càng can đảm hơn.
Bất cứ khi nào Kanzi nhận được phần thưởng, mọi người sẽ khẳng định hành vi của nó dưới hình thức cổ vũ, và nếu nó thất bại, người huấn luyện cũng sẽ khuyến khích nó tiếp tục trò chơi bằng cách vỗ tay và cổ vũ.
Ngay cả khi không may thất bại, Kanzi sẽ nhấp vào nút để tự phục hồi.
Ngay lập tức, những tràng vỗ tay và cổ vũ vây lấy Kanzi.
Điểm tương đồng giữa dạy đười ươi và dạy AI
Xem một tinh tinh tinh tinh chơi trò chơi điện tử thành thạo có thể cảm thấy hơi kỳ cục và kỳ lạ.
Mặc dù Kanzi và tổ tiên của nó chưa bao giờ nhìn thấy Minecraft trong đời, nhưng nó đã nhanh chóng thích nghi với kết cấu và vật lý của Minecraft được hiển thị trên màn hình điện tử.
Và điều này rất khác với môi trường tự nhiên mà chúng đã tiếp xúc và sinh sống. Mức độ khái quát hóa này vượt xa các mô hình tầm nhìn mạnh mẽ nhất cho đến nay.
- Học tăng cường dựa trên ngữ cảnh:
Bất cứ khi nào Kanzi đạt được một cột mốc quan trọng trong trò chơi, cậu ấy sẽ nhận được một loại trái cây hoặc đậu phộng, động lực để cậu ấy tiếp tục tuân theo các quy tắc trong trò chơi.
- RLHF:
Kanzi không hiểu tiếng người, nhưng anh ấy có thể thấy các huấn luyện viên của mình cổ vũ anh ấy và thỉnh thoảng đáp lại. Sự cổ vũ từ các nhân viên huấn luyện đã cho Kanzi một tín hiệu mạnh mẽ rằng anh ấy đang đi đúng hướng.
- Học bằng cách bắt chước:
Sau khi người huấn luyện chỉ cho Kanzi cách hoàn thành nhiệm vụ, nó ngay lập tức hiểu ý nghĩa của hoạt động liên quan. Hiệu quả của việc trình bày vượt xa chiến lược chỉ sử dụng phần thưởng.
- Giáo trình học:
Người huấn luyện và Kanzi bắt đầu với một môi trường rất đơn giản và dần dần dạy Kanzi các kỹ năng điều khiển. Cuối cùng, Kanzi có thể đi qua các hang động, mê cung và âm phủ phức tạp.
Không chỉ vậy, ngay cả với các kỹ thuật huấn luyện tương tự, hệ thống thị giác của động vật có thể nhận biết và thích nghi với môi trường mới trong thời gian rất ngắn, trong khi mô hình thị giác AI sẽ tốn nhiều thời gian và chi phí đào tạo hơn, và thường là khó đạt được.Hiệu quả lý tưởng.
Một lần nữa chúng ta rơi vào vực thẳm của nghịch lý Moravec:
Trí tuệ nhân tạo hành xử ngược lại với khả năng của con người. Trong các hoạt động trí tuệ cấp thấp mà chúng ta cho là không suy nghĩ hoặc mang tính bản năng (chẳng hạn như nhận thức và điều khiển vận động), trí tuệ nhân tạo thật tồi tệ. Nhưng trong các hoạt động thông minh tiên tiến đòi hỏi khả năng suy luận và trừu tượng (chẳng hạn như suy luận logic và hiểu ngôn ngữ), trí tuệ nhân tạo có thể dễ dàng vượt qua con người.
Điều này tương ứng chính xác với kết quả được trình bày trong thí nghiệm này:
Trí tuệ nhân tạo tốt nhất của chúng tôi (GPT-4) tiệm cận với trình độ con người về khả năng hiểu ngôn ngữ, nhưng thua xa động vật về khả năng nhận thức, nhận biết.
Cư dân mạng: Thì ra đười ươi chơi game sẽ nổi giận
Cả Kanzi và LLM đều có thể chơi Minecraft, nhưng có một sự khác biệt không đáng kể giữa cách học của Kanzi và LLM mà chúng ta cần lưu ý.
Một số người dự đoán rằng thế giới trong 6 năm nữa sẽ là cuộc chiến tranh giành hành tinh của loài vượn...
"Trong Minecraft, phần thưởng của Kanzi cho việc khai thác kim cương là ngay lập tức và nguyên chất (thực phẩm), trong khi phần thưởng của chúng tôi cho việc khai thác kim cương bị trì hoãn hơn và liên quan đến trò chơi. Dù sao thì, hơi điên rồ."
Con người đã tích lũy được rất nhiều kinh nghiệm tiên tiến trong việc dạy AI chơi Minecraft.
Đầu tháng 5 năm nay, nhóm Jim Fan đã kết nối tác nhân AI của Nvidia với GPT-4 và tạo ra một tác nhân AI hoàn toàn mới là Du hành.
Nó có thể viết mã độc lập để thống trị "Minecraft" mà không cần sự can thiệp của con người.
Có thể nói sau sự xuất hiện của Voyager, chúng ta đã tiến một bước gần hơn tới trí tuệ nhân tạo nói chung AGI.
Cuộc sống số đích thực
Sau khi truy cập GPT-4, Du hành hoàn toàn không cần lo lắng về con người và hoàn toàn tự học.
Nó không chỉ thành thạo các kỹ năng sinh tồn cơ bản như đào đất, xây nhà, thu thập và săn bắn mà còn học cách tự mình tiến hành khám phá ngoài trời.
Được điều khiển bởi chính nó, nó không ngừng mở rộng các vật phẩm và thiết bị của mình, trang bị các cấp độ khác nhau của áo giáp, sử dụng khiên để chặn Thượng Hải và sử dụng hàng rào để nhốt động vật.
Sự xuất hiện của các mô hình ngôn ngữ lớn đã mang lại những khả năng mới cho việc xây dựng các tác nhân hiện thân. Bởi vì tác nhân dựa trên LLM có thể sử dụng kiến thức thế giới có trong mô hình được đào tạo trước để tạo ra một kế hoạch hành động nhất quán hoặc chiến lược có thể thực hiện được.
Việc giới thiệu GPT-4 trong tác nhân mở ra một mô hình mới ("đào tạo" bằng cách thực thi mã, thay vì giảm dần độ dốc), cho phép tác nhân loại bỏ khuyết điểm không thể học suốt đời.
Nhà khoa học OpenAI Karpathy cũng ca ngợi điều này: Đây là một "kiến trúc không có độ dốc" dành cho các kỹ năng nâng cao. Ở đây, LLM tương đương với vỏ não trước trán và API trình khai thác cấp thấp hơn được tạo thông qua mã.
Để biến Voyager trở thành một tác nhân học tập suốt đời hiệu quả, các nhóm từ Nvidia, Caltech và các tổ chức khác đã đề xuất 3 thành phần chính:
1. Cơ chế nhắc lặp đi lặp lại kết hợp phản hồi trò chơi, lỗi thực thi và tự xác thực để cải thiện chương trình
2. Cơ sở mã kỹ năng để lưu trữ và truy xuất các hành vi phức tạp
3. Hướng dẫn tự động tối đa hóa khả năng khám phá của nhân viên
Phản hồi về môi trường trò chơi và lỗi triển khai Java (nếu có) sẽ giúp GPT-4 cải thiện chương trình.
Bằng cách cung cấp trạng thái và nhiệm vụ hiện tại của tác nhân, GPT-4 cho chương trình biết liệu nó đã hoàn thành nhiệm vụ hay chưa.
Ngoài ra, nếu nhiệm vụ thất bại, GPT-4 cũng sẽ đưa ra lời phê bình và gợi ý cách hoàn thành nhiệm vụ.
Thứ hai, Du hành dần dần xây dựng ngân hàng kỹ năng bằng cách lưu trữ các quy trình thành công trong cơ sở dữ liệu véc tơ. Mỗi chương trình có thể được truy xuất bằng cách nhúng chuỗi tài liệu của nó.
Các kỹ năng phức tạp được tổng hợp bằng cách kết hợp các kỹ năng đơn giản, cho phép khả năng của Du hành phát triển nhanh chóng theo thời gian và giảm thiểu chứng mất trí nhớ nghiêm trọng.
Thứ ba, một chương trình giảng dạy tự động đề xuất các nhiệm vụ khám phá phù hợp dựa trên trình độ kỹ năng hiện tại và trạng thái thế giới của đặc vụ.
Ví dụ: nếu nó thấy mình đang ở trong sa mạc thay vì trong rừng, hãy học cách thu thập cát và xương rồng thay vì sắt. Các bài học do GPT-4 tạo ra dựa trên mục tiêu "khám phá càng đa dạng càng tốt".
Là trí thông minh thể hiện do LLM điều khiển đầu tiên có thể học suốt đời, những điểm tương đồng giữa quy trình đào tạo của Du hành và quy trình đào tạo đười ươi có thể mang lại cho chúng ta rất nhiều cảm hứng.
Người giới thiệu: