Meta cập nhật nặng nề, Xiaoza có một chú chó có thể làm việc nhà trong metaverse! Hình đại diện hình người cực kỳ chân thực và các tác nhân AI tương tác với mọi người trong thế giới vật lý thực

2023-10-22 04:40:35

Nguồn: Shin Zhiyuan

Hôm nay, Meta đã phát hành Habitat 3.0, một đặc vụ AI được đào tạo bởi nó đã học cách tìm người và giúp mọi người dọn dẹp phòng. Bot xã hội, cột mốc tiếp theo!

Bắt đầu từ hôm nay, con người đã tiến gần hơn một bước đến robot giúp làm việc nhà!

Meta công bố Habitat 3.0 với mục đích phát triển một tác nhân AI xã hội, đồng nghĩa với việc robot trí tuệ xã hội đã bước vào một cột mốc mới.

Chìa khóa đằng sau những trí thông minh được thể hiện này, tất nhiên, là AI Agent. Với chúng, robot có thể cộng tác với con người và giúp chúng hoàn thành các công việc hàng ngày.

Địa chỉ giấy:

Địa chỉ dự án:

Trên thực tế, Meta đã công bố ba phát triển lớn cùng một lúc vào ngày hôm nay -

**1. Habitat 3.0 là trình mô phỏng đầu tiên hỗ trợ đào tạo quy mô lớn về các nhiệm vụ tương tác giữa người và máy trong môi trường trong nhà đa dạng, thực tế. **

Nó hỗ trợ cả robot và hình đại diện hình người, cho phép con người và robot cộng tác trong môi trường gia đình, chẳng hạn như giúp dọn dẹp phòng.

**2. Bộ dữ liệu cảnh tổng hợp môi trường sống (HSSD-200) là một bộ dữ liệu ba chiều được tạo bởi các nghệ sĩ chứa hơn 18.000 đối tượng trong 466 danh mục ngữ nghĩa trong 211 cảnh. **

HSSD-200 có chất lượng cao nhất trong các bộ dữ liệu tương tự, có thể đào tạo các tác nhân điều hướng và có tác dụng khái quát hóa rất tốt đối với các cảnh tái tạo ba chiều trong thế giới vật lý và số lượng cảnh được sử dụng ít hơn hai bậc độ lớn.

**3. HomeRobot là một nền tảng phần cứng và phần mềm rất phải chăng cho các trợ lý robot gia đình, cho phép robot thực hiện các nhiệm vụ từ vựng kết thúc mở trong môi trường mô phỏng và vật lý. **

Trên quy mô lớn, Habitat 3.0 có thể hoàn thành hơn 1.000 bước mỗi giây trên một GPU duy nhất.

Netizen: Khi nào robot có khả năng làm việc nhà sẽ xuất hiện

Cư dân mạng cho biết: Đây là một bước nhảy vọt lớn trong lĩnh vực robot.

Cũng có những người thở dài: đây là một trò chơi Sims rất tiên tiến.

Một số người đã mong muốn được trải nghiệm Habitat 3.0 trong Meta Quest VR.

Ước mơ, robot hỗ trợ dọn phòng không nên ở xa.

Môi trường sống 3.0

Với Habitat 3.0, Meta không chỉ cung cấp mô phỏng chân thực con người về ngoại hình và tư thế.

Nó cũng hỗ trợ nhiều loại hành động khác nhau, từ đơn giản (như đi bộ và vẫy tay) đến phức tạp (chẳng hạn như tương tác với các đối tượng) và tương thích với chụp chuyển động.

Ngoài ra, hình đại diện có thể được điều khiển theo chương trình mà không làm giảm hiệu suất - tốc độ mô phỏng giữa người và máy tương tự như tốc độ mô phỏng robot-robot.

### ** Mọi người trong vòng lặp**

Một tính năng quan trọng khác của Habitat 3.0 là "con người trong vòng lặp".

Với chuột, bàn phím hoặc VR, chúng ta có thể đạt được khả năng kiểm soát tương tác giữa người và máy tính tuyệt vời.

Sau khi hoàn thành nhiệm vụ, hệ thống thu thập chiến lược và dữ liệu của robot, đồng thời đánh giá sự tương tác giữa người và máy.

Nhiệm vụ xã hội

Ngoài ra, Habitat 3.0 có thể mô phỏng nhiều kịch bản xã hội trong thế giới thực.

Ví dụ, trong một nhiệm vụ được gọi là điều hướng xã hội, robot cần tìm và theo dõi con người trong khi vẫn giữ an toàn.

Trong một nhiệm vụ khác, robot cần phải làm việc với con người để hoàn thành các nhiệm vụ như dọn dẹp một căn phòng.

Lúc này, con người và robot cần phải đi đến vị trí mục tiêu một cách riêng biệt, và robot cần tìm cách đạt được mục tiêu này với con người một cách hiệu quả nhất có thể.

Robot được đào tạo có thể đạt được nhiều hành vi xã hội khác nhau!

Ngoài việc giữ khoảng cách an toàn với con người, robot cũng sẽ lùi lại khi cần thiết, chừa chỗ cho con người đi lại.

Hãy để các tác nhân AI tương tác với con người trong thế giới thực

Trước đây, khi chúng ta nghĩ về trợ lý AI, chúng ta thường nghĩ đến chatbot dựa trên web hoặc loa thông minh.

Các nhà nghiên cứu của Meta đã hy vọng triển khai các tác nhân AI thể hiện với trí thông minh chung, để họ có thể cảm nhận môi trường, giao tiếp và giúp đỡ con người trong thế giới kỹ thuật số và vật lý.

Một trong những tầm nhìn là tạo ra tai nghe AR có thể đeo cả ngày để sử dụng cho con người.

Ngoài ra, các nhà nghiên cứu đang cải tiến công nghệ đằng sau robot thông minh xã hội, cho phép họ giúp con người làm việc nhà và thích nghi với sở thích cá nhân của con người theo yêu cầu của đối tác.

Công việc tập trung vào nghiên cứu chuyên sâu về các hệ thống nhúng để làm cho thế hệ tiếp theo của trải nghiệm AR và VR tốt hơn.

Tuy nhiên, việc đào tạo và thử nghiệm thể hiện các tác nhân AI với người thật trên phần cứng vật lý, cho dù là robot hay kính AR, có một số hạn chế về khả năng mở rộng và có thể có vấn đề về bảo mật.

Điều này đòi hỏi phải thiết lập các quy trình đo điểm chuẩn được tiêu chuẩn hóa.

Do đó, các nhà nghiên cứu Meta đã phát triển một bộ công cụ mới để nghiên cứu robot trên các trình mô phỏng và bộ dữ liệu.

Họ cũng đã phát triển một ngăn xếp công nghệ bao gồm phần cứng và phần mềm để làm cho khía cạnh nghiên cứu này dễ dàng hơn và giá cả phải chăng hơn.

Để nhanh chóng cải thiện khả năng của robot, các nhà nghiên cứu phát triển và thử nghiệm các thuật toán và mô hình mới trong các trình mô phỏng và sau đó chuyển chúng sang robot vật lý.

Trong những năm qua, Habitat Simulator đã có nhiều tiến bộ đáng kể.

Các robot ảo được đào tạo trong Habitat 1.0 có thể điều hướng quét 3D các ngôi nhà trên thế giới vật lý với tốc độ hơn 10.000 bước mỗi giây (SPS).

Habitat 2.0 giới thiệu các môi trường tương tác (ví dụ: các vật dụng cần lấy, ngăn kéo có thể mở được) và đào tạo robot ảo để dọn dẹp nhà cửa bằng cách sắp xếp lại các vật phẩm.

Habitat 3.0 tiến một bước xa hơn và có thể hỗ trợ cả robot và hình đại diện hình người, cho phép cộng tác giữa người và máy để hoàn thành các công việc hàng ngày, chẳng hạn như dọn dẹp phòng khách và chuẩn bị công thức nấu ăn trong nhà bếp.

Điều này mở ra con đường mới để nghiên cứu sự hợp tác giữa người và robot trong các nhiệm vụ đa dạng, thực tế, trực quan và giàu ngữ nghĩa.

Ngoài ra, Habitat 3.0 hỗ trợ hình đại diện hình người với ngoại hình chân thực, dáng đi tự nhiên và chuyển động, có thể mô phỏng các tương tác cấp thấp và cấp cao thực tế.

Những hình đại diện này có thể được điều khiển bằng các chiến lược đã học hoặc bởi người thật thông qua giao diện "con người trong vòng lặp".

Giao diện này hỗ trợ bàn phím, chuột và tai nghe VR.

Sự cùng tồn tại của con người và robot trong môi trường mô phỏng cho phép con người học các chiến lược AI robot, hoàn thành các nhiệm vụ hàng ngày và đánh giá chúng lần đầu tiên trong môi trường giống như gia đình, với sự có mặt của hình đại diện hình người.

Điều này chắc chắn có ý nghĩa rất lớn -

Các thuật toán học tăng cường thường yêu cầu hàng triệu lần lặp lại để học kiến thức có ý nghĩa, vì vậy có thể mất nhiều năm để tiến hành các thí nghiệm này trong thế giới vật lý.

Trong một thí nghiệm mô phỏng, nó có thể được thực hiện trong một vài ngày.

2. Thu thập dữ liệu trong các ngôi nhà khác nhau trong thế giới vật lý là không thực tế, vì điều này đòi hỏi phải di chuyển robot đến những nơi khác nhau và cũng thiết lập môi trường.

Trong mô phỏng, bạn có thể thay đổi môi trường trong một phần của giây và ngay lập tức bắt đầu thử nghiệm trong một môi trường mới.

Nếu mô hình không được đào tạo tốt, robot có khả năng gây hại cho môi trường hoặc gây hại cho con người trong thế giới vật chất.

Trình mô phỏng cho phép các nhà nghiên cứu kiểm tra các phương pháp trong một môi trường an toàn trước khi triển khai chúng vào thế giới vật lý, đảm bảo an ninh.

Các mô hình AI tiên tiến nhất hiện nay đòi hỏi một lượng lớn dữ liệu để đào tạo và mô phỏng giúp các nhà nghiên cứu dễ dàng mở rộng quy mô thu thập dữ liệu.

Trong thế giới vật lý, việc thu thập dữ liệu có thể khá tốn kém và chậm.

Hơn nữa, các nhà nghiên cứu đề xuất hai nhiệm vụ có liên quan cao và một bộ điểm chuẩn để thiết lập các điểm chuẩn trong lĩnh vực AI thể hiện xã hội.

Nhiệm vụ đầu tiên là "dọn dẹp xã hội", liên quan đến robot và hình đại diện hình người làm việc cùng nhau để thực hiện một loạt các nhiệm vụ chọn và đặt, chẳng hạn như dọn dẹp nhà cửa.

Trong nhiệm vụ này, robot và con người phải hành động phối hợp để đạt được mục tiêu chung. Hành vi thông minh này xảy ra sau khi đào tạo mô phỏng quy mô lớn.

Nhiệm vụ thứ hai là "điều hướng xã hội", cho phép robot xác định vị trí và theo dõi một người trong khi vẫn duy trì khoảng cách an toàn.

Tập dữ liệu cảnh tổng hợp môi trường sống

Bộ dữ liệu cảnh 3D rất cần thiết để huấn luyện robot trong môi trường mô phỏng.

Hiện tại, mặc dù có nhiều bộ dữ liệu hỗ trợ mở rộng dữ liệu đào tạo, nhưng chúng tôi không hiểu sự đánh đổi giữa kích thước tập dữ liệu và tính xác thực.

Để đạt được điều này, Meta đã ra mắt bộ dữ liệu cảnh 3D tổng hợp mới - HSSD-200.

Nó bao gồm 211 cảnh 3D chất lượng cao đại diện cho môi trường trong nhà thực tế, bao gồm 18.656 mô hình các đối tượng thế giới vật lý từ 466 danh mục ngữ nghĩa. Gần với vật lý thực hơn so với các bộ dữ liệu trước đó.

Cụ thể, HSSD-200 cung cấp các cảnh nội thất 3D chất lượng cao hơn, được chế tác hoàn toàn nhân tạo và bao gồm phân loại ngữ nghĩa chi tiết tương ứng với bản thể học WordNet.

Ngoài ra, chức năng nén tài sản của HSSD-200 cho phép mô phỏng AI hiệu suất cao.

Về mặt cảnh, HSSD-200 được thực hiện bằng giao diện thiết kế nội thất Floorplanner, và bố cục chủ yếu là tái tạo ngôi nhà thực tế.

Trong số đó, các đối tượng riêng lẻ được tạo ra bởi các nghệ sĩ 3D chuyên nghiệp, trong hầu hết các trường hợp phù hợp với đồ nội thất và thiết bị thực tế.

Các thí nghiệm đã chỉ ra rằng bộ dữ liệu HSSD-200 nhỏ hơn nhưng chất lượng cao hơn có thể tạo ra các tác nhân objectNav với các đối tượng là mục tiêu điều hướng và hiệu suất của nó tương đương với các tác nhân được đào tạo trên các bộ dữ liệu lớn hơn.

Hơn nữa, số lượng kịch bản cần thiết để đào tạo một đại lý trên HSSD-200 ít hơn 2 bậc cường độ -

So với các đặc vụ được đào tạo với 10.000 kịch bản ProcTHOR, các đại lý được đào tạo với 122 kịch bản HSSD-200 khái quát hóa tốt hơn các kịch bản thế giới vật lý HM3DSem.

Trang chủRobot

Các nền tảng chia sẻ phổ biến là một phần quan trọng của những tiến bộ học máy, nhưng trong robot, các nền tảng tương tự đang thiếu vì rất khó để sao chép và mở rộng thành tựu phần cứng.

Về vấn đề này, Meta đề xuất ba mục tiêu cho một nền tảng nghiên cứu robot có thể tái tạo:

- Một ngôi sao Bắc Đẩu đầy cảm hứng:

Nền tảng này cần cung cấp các nhiệm vụ Sao Bắc Đẩu có hướng dẫn để thúc đẩy các nhà nghiên cứu và giúp họ trong công việc của họ. Trong số đó, họ cũng có thể so sánh các phương pháp khác nhau về các vấn đề thú vị trong thế giới thực.

Ví dụ: "Open Word Movement Manipulation (OVMM)" - nhặt các đối tượng trong bất kỳ môi trường không xác định nào và đặt chúng vào một vị trí được chỉ định. Điều này đòi hỏi nhận thức lâu dài rất mạnh mẽ và hiểu biết về cảnh, và hữu ích cho một loạt các nhiệm vụ.

- Khả năng phần mềm:

Nền tảng này cần cung cấp một số giao diện trừu tượng để làm cho robot dễ sử dụng hơn cho nhiều nhiệm vụ khác nhau, bao gồm điều hướng và thao tác.

-Cộng đồng:

Nền tảng này cần khuyến khích các nhà phát triển tham gia và cố gắng xây dựng một cộng đồng xung quanh cơ sở mã.

Để thúc đẩy nghiên cứu trong lĩnh vực này, Meta đã ra mắt thư viện HomeRobot mới cho phép hỗ trợ các tính năng điều hướng và thao tác của Hello Robot Stretch.

Địa chỉ dự án:

Cụ thể, HomeRobot có hai thành phần:

Các thành phần mô phỏng: sử dụng một bộ đối tượng lớn và đa dạng trong môi trường gia đình nhiều phòng mới, chất lượng cao;
Các thành phần thế giới vật lý: Cung cấp ngăn xếp phần mềm cho các sản phẩm Hello Robot Stretch và Boston Dynamics chi phí thấp để khuyến khích nhân rộng các thí nghiệm thế giới vật lý trên các phòng thí nghiệm.

Ngoài ra, HomeRobot cung cấp một ngăn xếp phần mềm rất thân thiện, cho phép người dùng nhanh chóng thiết lập robot và kiểm tra nó ngay lập tức. Các tính năng bao gồm:

-Di:

Có một trạng thái và không gian hành động thống nhất giữa cài đặt thế giới mô phỏng và vật lý cho mỗi nhiệm vụ, cung cấp một cách dễ dàng để vận hành robot bằng cách sử dụng không gian chuyển động cấp cao (chẳng hạn như chiến lược kẹp đặt trước) hoặc điều khiển chung liên tục cấp thấp.

**-Mô-đun hóa: **

Thành phần nhận thức và hành động hỗ trợ các trạng thái cấp cao (ví dụ: bản đồ ngữ nghĩa, đám mây điểm được phân đoạn) và các hành động cấp cao (ví dụ: đi đến vị trí mục tiêu, chọn đối tượng mục tiêu).

**- Đại lý cơ sở: **

Các chiến lược sử dụng các khả năng này để cung cấp chức năng cơ bản của OVMM, cũng như các công cụ để xây dựng các tác nhân phức tạp hơn, có thể được phát triển bởi các nhóm khác.

Trong điểm chuẩn HomeRobot OVMM, một tác nhân có thể lấy các mặt hàng mới lạ trong môi trường gia đình và đặt chúng vào hoặc trong một thùng chứa mục tiêu.

Trong số đó, Meta sử dụng học tăng cường và đường cơ sở heuristic (dựa trên mô hình) để cho thấy rằng các kỹ năng điều hướng và vị trí có thể được chuyển từ mô phỏng sang thế giới vật lý. Kết quả cho thấy đường cơ sở có thể đạt được tỷ lệ thành công 20% trong thế giới vật chất.

Tài nguyên:

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.