CMU Tsinghua MIT đã kích nổ luồng vô hạn Agent đầu tiên trên thế giới, và robot "007" không thể ngừng làm thêm giờ và tự học! Trí thông minh thể hiện được cách mạng hóa

Nguồn bài viết: New Zhiyuan

Editor: Aeneas buồn ngủ

Gần đây, RoboGen, tác nhân robot thế hệ đầu tiên trên thế giới được đề xuất bởi CMU / MIT / Thanh Hoa / Umass, có thể tạo ra dữ liệu vô hạn và cho phép robot đào tạo không ngừng 24/7. AIGC for Robotics thực sự là con đường của tương lai.

Tác nhân bot tạo ra đầu tiên trên thế giới đã được phát hành!

Trong một thời gian dài, so với các mô hình ngôn ngữ hoặc tầm nhìn có thể được đào tạo trên dữ liệu Internet quy mô lớn, mô hình chiến lược đào tạo robot đòi hỏi dữ liệu với thông tin tương tác vật lý động và việc thiếu các dữ liệu này luôn là nút thắt cổ chai lớn nhất trong sự phát triển của trí thông minh thể hiện.

Gần đây, các nhà nghiên cứu từ CMU, Đại học Thanh Hoa, MIT, UMass và các tổ chức khác đã đề xuất một tác nhân RoboGen mới.

Sử dụng kiến thức quy mô lớn có trong các mô hình ngôn ngữ lớn và mô hình tổng quát, cùng với thông tin vật lý được cung cấp bởi thế giới mô phỏng thực tế, các nhiệm vụ, kịch bản và dữ liệu giảng dạy khác nhau có thể được tạo ra "không giới hạn" và robot có thể được đào tạo đầy đủ 24/7.

Ngay bây giờ, chúng tôi đang nhanh chóng cạn kiệt các mã thông báo chất lượng cao, trong thế giới thực từ mạng. Dữ liệu được sử dụng để đào tạo AI trên toàn thế giới đang cạn kiệt.

Hinton, cha đẻ của deep learning, cho biết: "Các công ty công nghệ đang đào tạo các mô hình mới với sức mạnh tính toán gấp 100 lần so với GPT-4 trong 18 tháng tới". Các thông số mô hình lớn hơn và nhu cầu sức mạnh tính toán là rất lớn, nhưng dữ liệu ở đâu?

Đối mặt với các mô hình đói, tổng hợp AI là câu trả lời.

Địa chỉ:

Trang chủ dự án:

Địa chỉ mã nguồn mở:

Cụ thể, một nhóm nghiên cứu dẫn đầu bởi Gan Chuang, nhà khoa học trưởng tại MIT-IBM, đã đề xuất một vòng lặp "đề xuất-tạo-học" với sự hỗ trợ của AI tạo ra và các mô phỏng vật lý khác biệt, cho phép các tác nhân giải quyết vấn đề và tự đào tạo robot.

Trước hết, người đại diện đề nghị chúng ta nên phát triển kỹ năng này.

Sau đó, nó tạo ra môi trường, cấu hình và hướng dẫn học tập kỹ năng thích hợp để tạo ra một môi trường mô phỏng.

Cuối cùng, tác nhân sẽ phân tách nhiệm vụ cấp trên được đề xuất thành các nhiệm vụ phụ, chọn phương pháp học tập tốt nhất, sau đó tìm hiểu chiến lược và nắm vững các kỹ năng được đề xuất.

Điều đáng chú ý là toàn bộ quá trình hầu như không cần sự giám sát của con người và số lượng nhiệm vụ là không giới hạn!

Đối với nghiên cứu bom tấn này, Jim Fan, một nhà khoa học cao cấp tại NVIDIA, cũng đã chuyển tiếp nó.

Bây giờ, robot đã học được một loạt các hoạt động nổ mìn -

Đặt đồ đạc của bạn vào tủ khóa:

Cho vào lò vi sóng một bát súp:

Kéo cần gạt để pha cà phê:

Cũng như backflips và nhiều hơn nữa:

**Môi trường mô phỏng, chìa khóa để học kỹ năng đa dạng **

Vấn đề nan giải lâu năm trong nghiên cứu robot là làm thế nào để cung cấp cho robot các kỹ năng hoạt động trong môi trường phi nhà máy và thực hiện một loạt các nhiệm vụ cho con người.

Trong những năm gần đây, chúng tôi đã dạy robot nhiều kỹ năng phức tạp, chẳng hạn như thao tác chất lỏng, ném đồ vật, chơi bóng đá, parkour, v.v., nhưng những kỹ năng này tách biệt, có tầm nhìn ngắn và yêu cầu mô tả nhiệm vụ do con người thiết kế và giám sát đào tạo.

Bởi vì việc thu thập dữ liệu trong thế giới thực rất tốn kém và tốn nhiều công sức, những kỹ năng này được đào tạo trong các mô phỏng ngẫu nhiên trong miền thích hợp và sau đó được triển khai trong thế giới thực.

Môi trường mô phỏng có nhiều lợi thế so với khám phá và thu thập dữ liệu trong thế giới thực, chẳng hạn như cung cấp quyền truy cập đặc quyền vào trạng thái cấp thấp và cơ hội khám phá không giới hạn; Hỗ trợ tính toán song song ồ ạt, và tốc độ thu thập dữ liệu được tăng tốc đáng kể; Cho phép bot phát triển các chiến lược vòng kín và khả năng khôi phục lỗi.

Tuy nhiên, xây dựng một môi trường mô phỏng đòi hỏi một loạt các nhiệm vụ tẻ nhạt (thiết kế nhiệm vụ, lựa chọn tài sản có liên quan và có ý nghĩa ngữ nghĩa, tạo bố cục và cấu hình kịch bản hợp lý, xây dựng giám sát đào tạo như chức năng thưởng hoặc mất). Ngay cả trong thế giới mô phỏng, khả năng mở rộng của việc học kỹ năng robot bị hạn chế rất nhiều.

Do đó, các nhà nghiên cứu đề xuất một mô hình "mô phỏng sinh sản" kết hợp những tiến bộ trong việc học các kỹ năng robot mô phỏng với những tiến bộ mới nhất trong các mô hình nền tảng và thế hệ.

Tận dụng khả năng tạo ra các mô hình cơ sở hiện đại, mô phỏng tổng quát có thể tạo ra thông tin cho tất cả các giai đoạn cần thiết cho các kỹ năng robot khác nhau trong mô phỏng.

Nhờ kiến thức mã hóa toàn diện trong các mô hình cơ sở mới nhất, dữ liệu kịch bản và tác vụ được tạo theo cách này có thể rất giống với việc phân phối các kịch bản trong thế giới thực.

Ngoài ra, các mô hình này có thể cung cấp thêm các nhiệm vụ con cấp thấp được phân tách có thể được xử lý liền mạch bằng các phương pháp học chính sách cụ thể theo miền, dẫn đến các cuộc biểu tình vòng kín về các kỹ năng và kịch bản khác nhau.

Quy trình RoboGen

RoboGen là một quy trình hoàn toàn tự động cho phép robot học các kỹ năng khác nhau 24/7 và bao gồm 4 giai đoạn:

  1. Đề xuất nhiệm vụ;

  2. Tạo cảnh;

  3. Đào tạo có giám sát;

  4. Sử dụng thông tin được tạo ra để học kỹ năng.

Tận dụng ý thức chung được nhúng và khả năng tạo ra của các mô hình cơ sở mới nhất, RoboGen có thể tự động hóa việc tạo ra các nhiệm vụ, kịch bản và giám sát đào tạo, cho phép học tập đa kỹ năng cho robot ở quy mô lớn.

Đề xuất nhiệm vụ

Ở giai đoạn này, RoboGen có thể đề xuất các nhiệm vụ cấp trên, tạo môi trường tương ứng, phân tách các mục tiêu cấp trên thành các nhiệm vụ phụ cấp thấp và sau đó học các kỹ năng phụ một cách tuần tự.

Đầu tiên, RoboGen tạo ra các nhiệm vụ có ý nghĩa, đa dạng, cấp cao để robot học hỏi.

Nhà nghiên cứu khởi tạo hệ thống bằng cách sử dụng một loại robot cụ thể và các mẫu vật thể ngẫu nhiên từ hồ bơi. Thông tin về robot và đối tượng mẫu được cung cấp sau đó được nhập vào LLM.

Quá trình lấy mẫu này đảm bảo sự đa dạng của các nhiệm vụ phát điện.

Ví dụ, một robot có chân như robot bốn chân có thể có được nhiều kỹ năng vận động khác nhau, trong khi bộ điều khiển cánh tay robot, khi được ghép nối, có khả năng thực hiện nhiều nhiệm vụ thao tác với các đối tượng lấy mẫu khác nhau.

Các nhà nghiên cứu đã sử dụng GPT-4 để thực hiện các truy vấn trong quy trình hiện tại. Tiếp theo là giải thích về các chi tiết của RoboGen trong bối cảnh của máy, cũng như các tác vụ liên quan đến thao tác của các đối tượng.

Các đối tượng được sử dụng để khởi tạo được lấy mẫu từ một danh sách được xác định trước, bao gồm các đối tượng có khớp nối và không khớp nối phổ biến trong các cảnh gia đình, chẳng hạn như lò nướng, lò vi sóng, bình đựng nước, máy tính xách tay, máy rửa chén, v.v.

Bởi vì GPT-4 đã được đào tạo trên các bộ dữ liệu internet lớn, nó có sự hiểu biết phong phú về khả năng chi trả của các đối tượng này, cách tương tác với chúng và những nhiệm vụ có ý nghĩa mà chúng có thể được liên kết.

Ví dụ: nếu đối tượng khớp nối được lấy mẫu là lò vi sóng, trong đó khớp 0 là khớp quay kết nối cửa và khớp 1 là một khớp quay khác điều khiển núm hẹn giờ, GPT-4 sẽ trả về một nhiệm vụ - "Cánh tay robot đặt một bát súp vào lò vi sóng, đóng cửa và đặt bộ hẹn giờ vi sóng để làm nóng thời gian a".

Các đối tượng khác cần thiết cho nhiệm vụ được tạo, có một bát súp a, và các khớp và liên kết liên quan đến nhiệm vụ, bao gồm khớp 0 (để mở cửa lò vi sóng), khớp 1 (để đặt hẹn giờ), liên kết 0 (đến cửa) và liên kết 1 (núm hẹn giờ).

Đối với các đối tượng khớp nối, vì PartNetMobility là bộ dữ liệu đối tượng khớp nối chất lượng cao duy nhất và đã bao gồm một loạt các tài sản khớp nối, các tác vụ được tạo dựa trên các tài sản được lấy mẫu.

Bằng cách liên tục truy vấn các đối tượng và ví dụ được lấy mẫu khác nhau, một loạt các hoạt động và tác vụ chuyển động có thể được tạo ra.

Tạo cảnh

Được giao một nhiệm vụ, bạn có thể tiếp tục tạo kịch bản mô phỏng tương ứng để học các kỹ năng hoàn thành nhiệm vụ đó.

Như thể hiện trong hình ảnh, các thành phần và cấu hình cảnh được tạo theo mô tả tác vụ và các tài sản đối tượng được truy xuất hoặc tạo, sau đó được điền vào cảnh mô phỏng.

Các thành phần và cấu hình cảnh được tạo thành từ các yếu tố sau: truy vấn cho nội dung liên quan được điền vào cảnh, các thông số vật lý của nó (chẳng hạn như kích thước), cấu hình (chẳng hạn như góc khớp ban đầu) và cấu hình không gian tổng thể của nội dung.

Ngoài các tài sản đối tượng cần thiết cần thiết cho nhiệm vụ được tạo ở bước trước, để tăng độ phức tạp và đa dạng của cảnh được tạo, đồng thời giống với phân phối đối tượng của cảnh thực, các nhà nghiên cứu cũng yêu cầu GPT-4 trả về các truy vấn bổ sung cho các đối tượng liên quan đến ngữ nghĩa nhiệm vụ.

Ví dụ: đối với nhiệm vụ "Mở tủ, đặt đồ chơi vào đó và đóng lại", cảnh kết quả cũng sẽ bao gồm thảm phòng khách, đèn, sách và ghế văn phòng.

### ** Đào tạo thế hệ giám sát **

Để có được các kỹ năng liên quan, việc học kỹ năng cần được giám sát.

RoboGen trước tiên sẽ truy vấn GPT-4 để lập kế hoạch và chia nhỏ các tác vụ dài thành các nhiệm vụ con ngắn hơn.

Một giả định quan trọng là khi một nhiệm vụ được chia thành các nhiệm vụ con đủ ngắn, mỗi nhiệm vụ con có thể được giải quyết một cách đáng tin cậy bằng các thuật toán hiện có như học tăng cường, lập kế hoạch chuyển động, tối ưu hóa quỹ đạo, v.v.

Sau khi phân hủy, RoboGen truy vấn GPT-4 để chọn thuật toán thích hợp để giải quyết từng nhiệm vụ con.

Một số loại thuật toán học tập khác nhau được tích hợp trong RoboGen: học tăng cường, chiến lược tiến hóa, tối ưu hóa quỹ đạo dựa trên độ dốc và khởi tạo hành động với lập kế hoạch chuyển động.

Mỗi loại phù hợp cho các nhiệm vụ khác nhau, chẳng hạn như tối ưu hóa quỹ đạo dựa trên độ dốc, phù hợp hơn để học các nhiệm vụ thao tác chi tiết liên quan đến các cơ thể mềm, chẳng hạn như định hình bột thành hình dạng mục tiêu.

Khởi tạo hành động kết hợp với lập kế hoạch chuyển động đáng tin cậy hơn khi giải quyết các nhiệm vụ, chẳng hạn như tiếp cận đối tượng mục tiêu thông qua đường dẫn không va chạm.

Học tăng cường và các chiến lược tiến hóa phù hợp hơn cho các nhiệm vụ giàu tiếp xúc liên quan đến sự tương tác liên tục với các thành phần cảnh khác, chẳng hạn như chuyển động chân hoặc khi hành động mong muốn không thể được tham số hóa đơn giản bằng tư thế hiệu ứng cuối rời rạc, chẳng hạn như xoay núm của lò nướng.

Tóm lại, GPT-4 chọn thuật toán nào để sử dụng trực tuyến dựa trên các nhiệm vụ con được tạo.

Tiếp theo, đã đến lúc xây dựng một kịch bản mô phỏng cho robot và để chúng học các kỹ năng.

** Robot học cách mở két sắt **

Ví dụ, RoboGen sẽ yêu cầu robot tìm hiểu nhiệm vụ rất tinh tế là điều chỉnh hướng của đèn bàn.

Điều thú vị là trong cảnh này, có những vật thể mỏng manh như màn hình máy tính trên mặt đất.

Có thể nói, đây là một bài kiểm tra tuyệt vời về khả năng nhận diện môi trường của robot.

Đối với điều này, RoboGen tạo mã hoạt động rất chi tiết, bao gồm cấu hình cảnh, phân tách tác vụ và giám sát:

Ngoài ra, các nhiệm vụ đòi hỏi nhiều bước để hoàn thành, chẳng hạn như để robot lấy ra nội dung của két sắt, sẽ được đào tạo.

Điều này liên quan đến việc mở, lấy, đặt xuống, đóng cửa và các hoạt động khác, trong thời gian đó cũng cần phải cố gắng tránh va chạm với đồ nội thất.

Mã do RoboGen đưa ra như sau:

Hoặc, ví dụ, có một robot hình người tại Boston Dynamics quay tại chỗ, có thể bắt gặp trong một không gian nhỏ.

Đây là mã:

Kết quả thí nghiệm

**- Đa dạng nhiệm vụ **

Như thể hiện trong Bảng 1, RoboGen đạt được sự tương đồng tự BLEU và nhúng thấp nhất so với tất cả các điểm chuẩn trước đó. Nói cách khác, sự đa dạng của các nhiệm vụ tạo RoboGen cao hơn so với các điểm chuẩn và bộ dữ liệu học tập kỹ năng nhân tạo!

**- Hiệu quả kịch bản **

Như thể hiện trong Hình 4, việc loại bỏ xác minh kích thước dẫn đến điểm BLIP-2 giảm mạnh do sự khác biệt lớn giữa kích thước của các đối tượng trong Objaverse và PartNetMobility và kích thước thực tế trong thế giới thực. Ngoài ra, BLIP-2 không có xác thực đối tượng cũng có điểm số thấp hơn và phương sai lớn hơn.

Ngược lại, bước xác thực trong RoboGen có thể cải thiện đáng kể hiệu quả của việc lựa chọn đối tượng.

**- Hiệu quả của hướng dẫn đào tạo **

Như thể hiện trong Hình 3, robot học các kỹ năng dựa trên hướng dẫn đào tạo (tức là phân tách nhiệm vụ và chức năng khen thưởng) do RoboGen tạo ra trong bốn nhiệm vụ tầm xa.

Kết quả cho thấy robot học thành công các kỹ năng để hoàn thành các nhiệm vụ tương ứng. Nói cách khác, huấn luyện viên đào tạo được tạo tự động có hiệu quả trong việc rút ra các kỹ năng có ý nghĩa và hữu ích.

- Học kỹ năng

Kết quả trong Bảng 2 cho thấy việc cho phép lựa chọn thuật toán học tập có lợi để cải thiện hiệu suất hoàn thành nhiệm vụ. Nếu bạn chỉ sử dụng RL, bạn sẽ thất bại trong việc học kỹ năng cho hầu hết các tác vụ.

-Hệ thống

Như thể hiện trong Hình 1, RoboGen có thể tạo ra nhiều nhiệm vụ khác nhau để học kỹ năng, bao gồm thao tác vật cứng / khớp, vận động và thao tác cơ thể mềm.

Hình 3 tiếp tục cho thấy RoboGen có thể cung cấp các kỹ năng hoạt động tầm xa theo cách phân hủy hợp lý.

Giới thiệu tác giả

Yufei Wang là nghiên cứu sinh tiến sĩ năm thứ ba tại Viện Robotics của Đại học Carnegie Mellon, nơi anh được giám sát bởi Giáo sư Zackory Erickson và Giáo sư David Held, với mối quan tâm nghiên cứu về học robot.

Trước đó, ông đã nhận bằng thạc sĩ khoa học máy tính tại CMU vào tháng 12/2020 dưới sự giám sát của Giáo sư David Held và bằng cử nhân khoa học dữ liệu tại Đại học Yuanpei, Đại học Bắc Kinh vào tháng 7/2019 dưới sự giám sát của Giáo sư Bin Dong.

Zhou Xian là nghiên cứu sinh tiến sĩ tại Viện Robotics của Đại học Carnegie Mellon dưới sự giám sát của Katerina Fragkiadaki. Sở thích nghiên cứu của ông là robot, thị giác máy tính và học tập mô hình thế giới.

Trước khi gia nhập CMU, ông đã hoàn thành bằng cử nhân tại Đại học Công nghệ Nanyang, Singapore, dưới sự giám sát của Phạm Quang Cường và I-Ming Chen. Anh cũng đã thực tập tại Meta AI, Akshara Rai và MIT-IBM AI Lab dưới sự cố vấn của Chuang Gan.

Hiện tại, nghiên cứu của ông tập trung vào việc xây dựng một chiến lược thần kinh thống nhất và cơ sở hạ tầng mô phỏng để học robot có thể mở rộng.

Ngoài ra, còn có Chen Feng của Thanh Hoa Yao Ban.

Trưởng nhóm, Gan Chuang, hiện là nhà khoa học trưởng của IBM và là trợ lý giáo sư tại Đại học Massachusetts, và là đệ tử của Viện sĩ Yao Chizhi. Trong thời gian học tiến sĩ, ông đã giành được Giải thưởng Đặc biệt Thanh Hoa, Học giả Microsoft và Học giả Baidu. Nghiên cứu của ông đã được tài trợ bởi Giải thưởng Nghiên cứu Amazon, Giải thưởng Khoa Sony, Giải thưởng Khoa Cisco, Chương trình Nghiên cứu Mô hình Nền tảng Tăng tốc Microsoft và các chương trình khác.

Tài nguyên:

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Chia sẻ
Bình luận
0/400
Không có bình luận
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)