Mất 2 năm, Meta hợp tác với CMU để tạo ra "trí thông minh robot vạn năng" mạnh nhất! Một nhà tổng hợp lau trà và bát, dễ dàng khái quát hơn 100 nhiệm vụ chưa biết

**Nguồn:**Xinzhiyuan

**Hướng dẫn: ** Trên đường đến với "trí thông minh robot toàn cầu", Google đã trở nên nổi tiếng với RT-2. Giờ đây, RoboAgent, mất 2 năm để xây dựng bởi nhóm Meta và CMU, sử dụng một lượng nhỏ dữ liệu để nhận ra 12 kỹ năng phức tạp và nó có thể làm mọi thứ, từ pha trà đến lau bàn.

Mô hình vụ nổ đang định hình lại nghiên cứu về "tác nhân người máy vạn năng".

Cách đây một thời gian, Google DeepMind đã khởi động dự án RT-2, mất 7 tháng để xây dựng, nó có thể suy luận toán học và xác định các vì sao, và nó đã trở nên phổ biến trên Internet.

Ngoài Google, các nhà nghiên cứu từ Meta và CMU đã dành 2 năm để xây dựng tác nhân người máy đa năng "RoboAgent" mạnh nhất trong lịch sử.

Sự khác biệt là RoboAgent chỉ được đào tạo trên 7500 quỹ đạo.

Cụ thể, RoboAgent đã triển khai 12 kỹ năng phức tạp khác nhau trong 38 nhiệm vụ như làm bánh, nhặt đồ, phục vụ trà, dọn dẹp nhà bếp, v.v.

Thậm chí, khả năng của nó có thể được khái quát hóa thành 100 kịch bản chưa biết.

Có thể nói, lên sảnh là xuống bếp.

Thật thú vị, cho dù bạn có can thiệp vào nó nhiều như thế nào, RoboAgent vẫn hoàn thành nhiệm vụ.

RoboAgent có thể làm gì khác?

Làm bánh, phục vụ trà, dọn bàn tận tay

Trước hết, RoboAgent có thể mở hoặc đóng ngăn kéo một cách trơn tru.

Mặc dù sữa chua gần như bị đổ khi nó được mở ra, nhưng về cơ bản không có độ trễ trong kết nối hành động và hành động đẩy và kéo được hoàn thành suôn sẻ.

Ngoài các ngăn kéo, RoboAgent có thể dễ dàng mở hoặc đóng cửa lò vi sóng.

Nhưng thay vì nắm lấy tay cầm như con người, nó lại chui vào khe hở giữa tay cầm và cửa, dùng sức đóng mở cửa lò vi sóng.

Tương tự, khi đối mặt với nắp chai và lon, RoboAgent cũng có thể xử lý, mở và đóng nắp một cách chính xác - không bao giờ lộn xộn.

Tuy nhiên, trong nhà bếp, ngoài những lọ gia vị được đậy kín, còn có một số lọ cần mở nắp, chẳng hạn như rượu nấu ăn, Laoganma, v.v...

May mắn thay, đối với các tác vụ chọn và đặt khác nhau, RoboAgent về cơ bản không có gì phải lo lắng.

Trong video, RoboAgent lấy đồ ra khỏi ngăn kéo, hay cho túi trà vào cốc, bật lò vi sóng và đặt bát vào, v.v. Điều được thể hiện là RoboAgent có thể hiểu chuỗi hành động liên quan đến các nhiệm vụ như pha trà và hâm nóng thức ăn.

Sắp xếp và kết hợp chín hành động trên về cơ bản có thể bao gồm một loạt các nhiệm vụ trong nhà bếp.

Ví dụ như chuẩn bị nướng bánh, dọn dẹp nhà bếp, phục vụ súp, pha trà, cất giữ dao kéo, v.v.

Khi chuẩn bị nướng, bước đầu tiên là mở ngăn kéo và tìm bơ bên trong. Khi bạn tìm thấy nó, hãy đặt bơ lên thớt, và cuối cùng đóng ngăn kéo lại.

Có vẻ như trình tự logic của chuỗi hành động trong RoboAgent rất gần với bối cảnh đời thực.

Nhưng RoboAgent vẫn chưa linh hoạt bằng con người, chưa kể con người có hai tay, một tay có thể cầm bơ, tay kia đóng ngăn kéo. Thậm chí chỉ với một tay, con người có thể giữ bơ trong khi đẩy ngăn kéo sang một bên. Nhưng RoboAgent chỉ có thể đặt bơ xuống trước rồi đóng ngăn kéo lại.

Trông nó không được linh hoạt cho lắm.

Khi dọn dẹp nhà bếp, RoboAgent cũng thực hiện bốn bước:

Đóng ngăn kéo trước, sau đó đóng lò vi sóng. Sau đó lấy khăn tắm bên cạnh ra, cuối cùng lau thớt.

Để phục vụ súp, trước tiên RoboAgent bật lò vi sóng, sau đó lấy bát ra khỏi lò vi sóng. Sau đó đặt bát lên bàn và cuối cùng là tắt lò vi sóng.

Nhưng hiệu suất của RoboAgent ở đây không quá yên tâm.

Chỉ có thể nói, thật may là chiếc bát trong video trình diễn trống rỗng, nếu RoboAgent thực sự được phép nhặt chiếc bát chứa đầy thức ăn trong thực tế, ước chừng thức ăn sẽ vương vãi khắp mặt đất ngay khi nó nhặt nó lên.

Tuy nhiên, RoboAgent rất tiện dụng để pha trà:

Đầu tiên mở nắp trên ấm trà, lấy túi trà từ bên trong ra, sau đó thả túi trà vào cốc một cách chính xác, cuối cùng nhấc nắp lên và đặt lại vào ấm.

Nhưng còn một bước nữa để có được tách trà hoàn hảo: rót nước. Hay RoboAgent đang mời chúng ta uống không khí thơm mùi trà?

Nhìn vào hiệu suất của RoboAgent nói trên, mặc dù có thể hoàn thành hầu hết các tác vụ một cách trơn tru nhưng vẫn quá bất tiện khi chỉ có một tay.

Tôi hy vọng rằng Meta và CMU có thể hỗ trợ RoboAgent nhiều hơn để nó có thể thực hiện nhiều việc cùng lúc, nâng cao hiệu quả đáng kể.

Mất 2 năm để tạo ra một "đặc vụ người máy toàn năng"

Các nhà nghiên cứu của Meta và CMU hy vọng rằng RoboAgent có thể trở thành một tác nhân người máy có mục đích chung thực sự.

Trong 2 năm qua, họ không ngừng xúc tiến dự án. RoboAgent là tập hợp các nghiên cứu đa hướng, đồng thời cũng là điểm khởi đầu cho nhiều hướng nghiên cứu hơn trong tương lai.

Trong quá trình phát triển "đại lý rô bốt toàn cầu", các nhà nghiên cứu đã lấy cảm hứng từ nhiều dự án học tập rô bốt có thể khái quát hóa gần đây.

Hiện tại, trên con đường trở thành một đại lý robot tổng hợp, cần phải giải quyết hai vấn đề lớn.

** Một là tiến thoái lưỡng nan nhân quả. **

Có một robot có khả năng điều khiển các vật thể tùy ý trong các môi trường khác nhau là một mục tiêu xa vời và đầy tham vọng trong nhiều thập kỷ. Điều này một phần là do thiếu bộ dữ liệu để đào tạo các tác nhân như vậy, nhưng cũng thiếu các tác nhân chung có khả năng tạo dữ liệu đó.

Hai là thoát khỏi vòng luẩn quẩn. **

Để thoát ra khỏi vòng luẩn quẩn này, nghiên cứu tập trung vào việc phát triển một mô hình hiệu quả.

Nó có thể cung cấp một tổng đài viên có khả năng đạt được nhiều kỹ năng với ngân sách dữ liệu thực tế và khái quát hóa chúng cho các tình huống chưa biết khác nhau.

Địa chỉ giấy tờ:

Theo phần giới thiệu, RoboAgent được xây dựng trên các yếu tố mô-đun và có thể bù trừ sau:

- RoboPen:

Cơ sở hạ tầng rô-bốt phân tán được xây dựng bằng phần cứng hàng hóa có thể chạy liên tục trong một thời gian dài.

- RoboHive:

Một khuôn khổ thống nhất cho việc học tập của rô-bốt thông qua các hoạt động mô phỏng và trong thế giới thực.

- RoboSet: Một bộ dữ liệu chất lượng cao thể hiện các kỹ năng đa dạng của các đối tượng hàng ngày trong các cảnh khác nhau.

- MT-ACT:

Một khung hiệu quả cho việc học bắt chước ngoại tuyến trong đa tác vụ có điều kiện ngôn ngữ. Nó nhân lên các tập dữ liệu ngoại tuyến bằng cách tạo ra một tập hợp đa dạng các phần mở rộng ngữ nghĩa dựa trên trải nghiệm người máy hiện có và sử dụng kiến trúc chính sách mới với biểu diễn hành động hiệu quả để khôi phục các chính sách hiệu suất cao trong ngân sách dữ liệu.

Khối hành động, cấu trúc mới MT-ACT

Để tìm hiểu các chính sách vận hành chung, rô-bốt phải được tiếp xúc với những trải nghiệm phong phú và đa dạng, bao gồm các kỹ năng khác nhau và những thay đổi về môi trường.

Tuy nhiên, chi phí hoạt động và những thách thức thực tế của việc thu thập một tập dữ liệu mở rộng như vậy đã hạn chế kích thước tổng thể của tập dữ liệu.

Mục tiêu của các nhà nghiên cứu là giải quyết những hạn chế này bằng cách phát triển một mô hình có thể học các tác nhân đa tác vụ hiệu quả với ngân sách dữ liệu hạn chế.

Như thể hiện trong hình bên dưới, nhóm Meta và CMU đã đề xuất MT-ACT, Bộ chuyển đổi chia nhỏ hành động đa tác vụ (Multi-Task Action Chunking Transformer).

Phương pháp này gồm 2 giai đoạn:

Giai đoạn 1: Nâng cao ngữ nghĩa

RoboAgent đưa vào các linh mục thế giới từ các mô hình cơ sở hiện có bằng cách tạo phần mở rộng ngữ nghĩa của bộ dữ liệu RoboSet (MT-ACT).

Tập dữ liệu kết quả nhân lên gấp bội trải nghiệm của rô-bốt với các linh mục trên thế giới mà không phải trả thêm chi phí cho con người/rô-bốt.

Sau đó, các nhà nghiên cứu đã sử dụng SAM để phân đoạn và tăng cường đối tượng mục tiêu về mặt ngữ nghĩa thành các đối tượng riêng biệt với các biến thể về hình dạng, màu sắc và kết cấu.

Giai đoạn 2: Trình bày chính sách hiệu quả

Tập dữ liệu kết quả là đa phương thức, chứa nhiều kỹ năng, nhiệm vụ và tình huống phong phú.

Điều chỉnh phân đoạn hành động cho phù hợp với cài đặt đa tác vụ, các nhà nghiên cứu phát triển MT-ACT - một biểu diễn chính sách mới và hiệu quả có thể nhập các bộ dữ liệu đa phương thức cao đồng thời tránh trang bị quá mức trong cài đặt ngân sách dữ liệu thấp .

Sau đây là các thành phần khác nhau của chiến lược MT-ACT.

Bộ dữ liệu RoboSet

Mục tiêu của nghiên cứu là thiết lập một mô hình học tập rô-bốt hiệu quả về dữ liệu, theo đó các nhà nghiên cứu tự giới hạn mình trong một tập dữ liệu nhỏ nhưng đa dạng được thu thập trước.

Để nắm bắt sự đa dạng về hành vi, các nhà nghiên cứu cũng áp dụng các kỹ năng khác nhau cho các nhiệm vụ khác nhau trong các tình huống nhà bếp khác nhau.

Trong dự án này, bộ dữ liệu RoboSet (MT-ACT) bao gồm 7500 quỹ đạo được thu thập bởi hoạt động từ xa của con người.

Bộ dữ liệu chứa 12 kỹ năng bao gồm nhiều nhiệm vụ và tình huống.

Hình dưới đây cho thấy sự phân bổ các kỹ năng trong tập dữ liệu.

Mặc dù kỹ năng "chọn và đặt" thường được sử dụng chiếm 40% trong tập dữ liệu, nhưng các kỹ năng tiếp xúc phong phú như lau, đóng nắp và các kỹ năng liên quan đến các đồ vật có khớp nối (lật mở, đóng lật) cũng được đưa vào.

Các nhà nghiên cứu đã thu thập toàn bộ tập dữ liệu trong 4 trường hợp khác nhau về cảnh nhà bếp, chứa nhiều đồ vật hàng ngày khác nhau.

Ngoài ra, nhóm đã hoán đổi từng phiên bản của cảnh với các biến thể khác nhau của đối tượng, cho phép mỗi khả năng tiếp cận nhiều đối tượng mục tiêu và nhiều phiên bản của cảnh.

Tăng cường dữ liệu

Do các bộ dữ liệu được thu thập không thể đáp ứng nhu cầu về sự đa dạng của cảnh và đối tượng, nên các nhà nghiên cứu đã tăng cường bộ dữ liệu bằng cách thêm các cảnh thay đổi khác nhau ngoại tuyến trong khi vẫn duy trì hành vi thao tác trong mỗi quỹ đạo.

Dựa trên những tiến bộ gần đây trong mô hình phân đoạn và vẽ trong, các nhà nghiên cứu chắt lọc các tiền đề ngữ nghĩa trong thế giới thực từ dữ liệu internet để sửa đổi các cảnh theo cách có cấu trúc.

Kiến trúc MT-ACT

Kiến trúc chính sách của MT-ACT được thiết kế theo mô hình Transformer với đủ khả năng xử lý các bộ dữ liệu robot đa tác vụ đa phương thức.

Để thu thập dữ liệu đa phương thức, các nhà nghiên cứu đã làm theo công việc trước đó bằng cách thêm một CVAE mã hóa các chuỗi hành động dưới dạng nhúng kiểu tiềm ẩn z.

Để lập mô hình dữ liệu đa tác vụ, chúng tôi sử dụng bộ mã hóa ngôn ngữ được đào tạo trước để học cách nhúng T của mô tả dành riêng cho tác vụ.

Để giảm vấn đề lỗi ghép, các hành động ở H bước phía trước được dự đoán tại mỗi bước thời gian và được thực hiện bằng cách làm mịn tạm thời các hành động chồng chéo được dự đoán tại một bước thời gian cụ thể.

Ngoài ra, để cải thiện khả năng thay đổi cảnh một cách mạnh mẽ, các nhà nghiên cứu đã cung cấp chiến lược MT-ACT với bốn chế độ xem khác nhau của không gian làm việc thông qua 4 góc camera.

Sau đó, một phương pháp điều hòa dựa trên FiLM được sử dụng để đảm bảo rằng mã thông báo hình ảnh có thể tập trung vào hướng dẫn ngôn ngữ một cách đáng tin cậy, để chiến lược MT-ACT không gây nhầm lẫn cho các tác vụ khi có thể có nhiều tác vụ trong một cảnh.

Các mã thông báo được mã hóa sẽ đi vào bộ giải mã chính sách Transformer với vị trí nhúng cố định và cuối cùng xuất ra khối hành động tiếp theo (hành động H).

Tại thời điểm thực hiện, nhà nghiên cứu lấy giá trị trung bình của tất cả các hoạt động trùng lặp được dự đoán ở bước thời gian hiện tại (khi H > 1, các khối hành động trùng lặp) và thực hiện hành động trung bình kết quả.

Một lượng nhỏ dữ liệu, cập nhật với Google RT-1

Chiến lược MT-ACT hoạt động như thế nào trong thế giới thực?

Các nhà nghiên cứu đã đánh giá bằng thực nghiệm hiệu quả mẫu của khung được đề xuất, cũng như tính tổng quát của tác nhân trong các tình huống khác nhau.

Hình bên dưới so sánh chiến lược MT-ACT với các kiến trúc học tập bắt chước thường được sử dụng.

Các nhà nghiên cứu chỉ vẽ biểu đồ kết quả của quá trình tổng quát hóa L1 vì đây là cài đặt tiêu chuẩn được sử dụng bởi hầu hết các thuật toán học mô phỏng khác.

Như có thể thấy từ hình, tất cả các phương pháp chỉ mô phỏng hành vi của bước tiếp theo (chứ không phải quỹ đạo phụ) đều hoạt động kém.

Trong số các phương pháp này, các nhà nghiên cứu nhận thấy rằng phương pháp dựa trên phân cụm hành động (BeT) hoạt động kém hơn nhiều trong cài đặt đa tác vụ.

Hơn nữa, các phương pháp như RT1 yêu cầu lượng dữ liệu lớn không hoạt động tốt trong cài đặt này do chế độ dữ liệu thấp được sử dụng trong nghiên cứu.

Ngược lại, chiến lược MT-ACT sử dụng kiểm tra hành động để lập mô hình các quỹ đạo phụ, vượt trội hơn đáng kể so với tất cả các phương pháp cơ bản.

Hình 7 (phía dưới bên phải) cho thấy kết quả của tất cả các phương pháp trên nhiều cấp độ tổng quát hóa (L1, l2 và L3).

Ngoài ra, các nhà nghiên cứu báo cáo kết quả khái quát hóa cho từng hoạt động riêng biệt. Từ Hình 8, chúng ta có thể thấy rằng mỗi phương pháp tăng cường ngữ nghĩa ảnh hưởng tích cực đến hiệu suất của từng hoạt động.

Cuối cùng, các nhà nghiên cứu cũng điều tra kiến trúc bằng cách sử dụng các thiết kế khác nhau, chẳng hạn như kích thước của các khối biểu diễn hành động, độ dẻo và độ bền.

Người giới thiệu:

người máy/

bổ sung.html

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Chia sẻ
Bình luận
0/400
Không có bình luận
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)