RT-2 của Google có phải là thời điểm GPT-3 dành cho robot không?

Question

Vào ngày 29 tháng 7, một phóng viên của tờ New York Times đã dẫn đầu khi nhìn thấy rô bốt điều khiển theo mô hình RT-2 mới nhất của Google tại Google Lab.

Robot một tay đứng trước bàn. Trên bàn có ba bức tượng nhỏ bằng nhựa: một con sư tử, một con cá voi và một con khủng long. Người kỹ sư ra lệnh cho rô-bốt: "Nhặt những loài động vật đã tuyệt chủng." Rô-bốt kêu vo vo một lúc, sau đó dang rộng cánh tay, bàn chân dang rộng và rơi xuống. Nó đã bắt được con khủng long.

Đó là một tia sáng của trí thông minh.

Thời báo New York mô tả: "Cho đến tuần trước, cuộc biểu tình này là không thể. Robot không thể điều khiển các vật thể mà chúng chưa từng thấy trước đây một cách đáng tin cậy và chắc chắn chúng không thể đạt được mục tiêu chuyển từ "động vật đã tuyệt chủng" sang "khủng long nhựa" một bước nhảy vọt hợp lý. "

**Mặc dù vẫn còn trong bản trình diễn và Google không có kế hoạch phát hành bản phát hành lớn hơn hoặc thương mại hóa nó ngay lập tức, nhưng bản trình diễn này đủ để cho thấy một cái nhìn thoáng qua về những cơ hội mà các mô hình lớn có thể mang lại cho rô-bốt. **

Trước khi kỷ nguyên mô hình lớn xuất hiện, người ta huấn luyện robot, thường là tối ưu hóa cho từng nhiệm vụ, chẳng hạn như cầm nắm một món đồ chơi nào đó, yêu cầu một lượng dữ liệu đủ lớn để robot có thể nhận dạng chính xác món đồ chơi đó từ mọi góc độ và dưới nhiều góc độ khác nhau. đèn và nắm lấy đồ chơi. Để làm cho robot nhận ra rằng nó có nhiệm vụ lấy đồ chơi, robot cần được lập trình để giải quyết nó.

Trí thông minh và khả năng khái quát hóa của mô hình lớn cho phép mọi người nhìn thấy bình minh của việc giải quyết những vấn đề này và tiến tới robot vạn năng.

Áp dụng Transformer cho robot

Mẫu RT-2 mới của Google, được gọi là Robotic Transformer 2, sử dụng kiến trúc Transformer làm cơ sở cho mẫu của nó.

Kiến trúc Transformer được đề xuất vào năm 2018 là cơ sở cơ bản của mô hình ngôn ngữ lớn (LLM) hiện đang phổ biến trên toàn thế giới, nhưng trên thực tế, với tư cách là một kiến trúc, Transformer không chỉ được sử dụng trong các mô hình ngôn ngữ lớn mà còn trong Train trên các loại dữ liệu khác. Đầu tháng 3 năm nay, Google đã phát hành PaLM-E, đây là mô hình ngôn ngữ hình ảnh (VLM) lớn nhất thế giới vào thời điểm đó.

Trong mô hình ngôn ngữ lớn, ngôn ngữ được mã hóa dưới dạng vector và người ta cung cấp một lượng lớn kho ngữ liệu cho mô hình, để nó đoán được con người thường nói gì ở câu tiếp theo, từ đó sinh ra câu trả lời bằng ngôn ngữ.

Trong mô hình ngôn ngữ hình ảnh, mô hình có thể mã hóa thông tin hình ảnh thành một vectơ giống như ngôn ngữ, cho phép mô hình "hiểu" văn bản và "hiểu" hình ảnh theo cùng một cách. Các nhà nghiên cứu đã cung cấp một lượng lớn văn bản và hình ảnh cho mô hình ngôn ngữ hình ảnh, cho phép nó thực hiện các tác vụ như trả lời câu hỏi bằng hình ảnh, chú thích hình ảnh và nhận dạng đối tượng.

Cả hình ảnh và ngôn ngữ đều tương đối dễ dàng để có được một lượng lớn dữ liệu. Do đó, thật dễ dàng để mô hình đạt được kết quả đáng kinh ngạc.

Tuy nhiên, có một khó khăn lớn trong việc sử dụng kiến trúc Transformer để tạo ra hành vi của robot. "Dữ liệu liên quan đến chuyển động của robot rất đắt." Giáo sư Xu Huazhe, trợ lý giáo sư tại Viện Thông tin liên ngành tại Đại học Thanh Hoa, nói với Geek Park, "Dữ liệu về thị giác và ngôn ngữ đến từ con người, là dữ liệu thụ động, trong khi chuyển động của robot tất cả dữ liệu đến từ Dữ liệu hoạt động cho bot.

**Ví dụ, tôi muốn nghiên cứu hành động của robot rót cà phê, cho dù đó là viết mã cho robot thực hiện hay sử dụng các phương thức khác để robot thực hiện, thì điều cần thiết là robot phải thực sự thực hiện thao tác này một lần để có được dữ liệu này. ** Do đó, quy mô và độ lớn của dữ liệu, ngôn ngữ và hình ảnh của robot là hoàn toàn khác nhau. "

**Trong thế hệ robot Transformer đầu tiên model RT-1 do Google nghiên cứu, lần đầu tiên Google mở ra một thử thách như vậy, đó là thử xây dựng một mô hình hành động bằng ngôn ngữ hình ảnh. **

Để xây dựng một mô hình như vậy, Google đã sử dụng 13 rô bốt và dành 17 tháng để thu thập bộ dữ liệu bao gồm dữ liệu hoạt động của rô bốt đối với hơn 700 nhiệm vụ trong môi trường nhà bếp được xây dựng.

Bộ dữ liệu đồng thời ghi lại ba chiều:

Tầm nhìn - dữ liệu camera khi robot đang thực hiện nhiệm vụ;
Ngôn ngữ - nhiệm vụ văn miêu tả bằng ngôn ngữ tự nhiên;
và chuyển động của rô-bốt - trục xyz và dữ liệu về độ lệch, v.v... khi tay rô-bốt thực hiện một tác vụ.

Mặc dù đã thu được kết quả thử nghiệm tốt vào thời điểm đó, nhưng có thể hình dung rằng sẽ rất khó để tăng thêm lượng dữ liệu trong tập dữ liệu.

Nguồn hình ảnh: Video giới thiệu AI của Google

**Điểm đổi mới của RT-2 là RT-2 sử dụng mô hình ngôn ngữ hình ảnh (VLM) PaLM-E đã nói ở trên và một mô hình ngôn ngữ hình ảnh khác PaLI-X làm cơ sở - một mô hình ngôn ngữ hình ảnh thuần túy có thể được truyền Dữ liệu cấp độ mạng được đào tạo, bởi vì lượng dữ liệu đủ lớn và có thể thu được kết quả đủ tốt.Ở giai đoạn tinh chỉnh, dữ liệu chuyển động của robot được thêm vào đó và được tinh chỉnh lại với nhau (co-finetuning). **

Bằng cách này, robot tương đương với việc đầu tiên có một hệ thống ý thức chung đã được học trên dữ liệu khổng lồ — mặc dù nó chưa thể nắm bắt được quả chuối, nhưng nó đã có thể nhận ra quả chuối và thậm chí biết rằng chuối là một loại trái cây giống như vậy. ăn.

Ở giai đoạn tinh chỉnh, bằng cách bổ sung kiến thức về cách robot lấy chuối sau khi nhìn thấy chúng trong thế giới thực, robot không chỉ có khả năng nhận biết chuối dưới nhiều góc độ và ánh sáng khác nhau mà còn có khả năng lấy chuối. khả năng.

Bằng cách này, dữ liệu cần thiết để huấn luyện rô bốt với kiến trúc Máy biến áp được giảm đáng kể.

RT-2 trực tiếp sử dụng tập dữ liệu tầm nhìn/ngôn ngữ/hành động rô-bốt được sử dụng trong giai đoạn đào tạo của RT-1 trong giai đoạn tinh chỉnh. Dữ liệu do Google cung cấp cho thấy RT-2 hoạt động tốt như RT-1 khi lấy các mục ban đầu xuất hiện trong dữ liệu đào tạo. Và nhờ có "bộ não thông minh", khi chộp lấy những vật phẩm chưa từng thấy trước đó, tỷ lệ thành công đã tăng từ 32% của RT-1 lên 62%.

"Đây là vẻ đẹp của mô hình lớn." Xu Huazhe nói, "Bạn không thể tháo rời nó vì nó nhận ra rằng hai vật thể giống nhau về chất liệu, hoặc vì chúng có kích thước tương tự nhau, hoặc vì các lý do khác. Sự thành công tỷ lệ nắm bắt đã tăng lên. Sau khi nó học đủ thứ, một số khả năng sẽ xuất hiện.

Tương lai của việc tương tác với rô-bốt bằng ngôn ngữ tự nhiên

Về mặt học thuật, khả năng khái quát hóa mạnh mẽ mà RT-2 thể hiện có thể giải quyết vấn đề không đủ dữ liệu huấn luyện rô-bốt. **Thêm vào đó, cú sốc trực quan của RT-2 vẫn đến từ khía cạnh thông minh của nó. **

Trong các thí nghiệm mà các nhà nghiên cứu muốn nó có thể nhặt "thứ gì đó có thể dùng làm búa", robot nhặt một hòn đá trong đống đồ vật và khi được yêu cầu lấy đồ uống được đưa cho một Red Bull đang mệt mỏi. được chọn trong đống mục.

Kỹ năng như vậy đến từ khả năng của nhà nghiên cứu trong việc giới thiệu một "chuỗi suy nghĩ" khi đào tạo các mô hình lớn. Lý luận ngữ nghĩa đa phân khúc như vậy rất khó đạt được trong nghiên cứu học tập bắt chước robot truyền thống.

Tuy nhiên, sử dụng ngôn ngữ tự nhiên để tương tác với robot không phải là ý tưởng ban đầu của RT-2.

Trong nghiên cứu về robot trước đây, các nhà nghiên cứu luôn cần chuyển các yêu cầu nhiệm vụ thành mã để robot hiểu, đồng thời khi xảy ra sự cố, họ cũng cần viết mã để điều chỉnh hành vi của robot, cả quá trình cần nhiều tương tác và không hiệu quả. . **Và bây giờ chúng ta đã có một rô-bốt đối thoại rất thông minh, bước tự nhiên tiếp theo là để rô-bốt tương tác với con người bằng ngôn ngữ tự nhiên. **

Nhà khoa học nghiên cứu của Google, Karol Hausman cho biết: "Chúng tôi bắt đầu làm việc với các mô hình ngôn ngữ này khoảng hai năm trước và sau đó chúng tôi nhận ra rằng có rất nhiều kiến thức trong đó".

Tuy nhiên, việc sử dụng một mô hình lớn làm tâm trí của robot có những khó khăn riêng. Một trong những vấn đề quan trọng nhất là vấn đề nền tảng, nghĩa là làm thế nào để chuyển đổi phản ứng của mô hình lớn, thường tương đối không bị ràng buộc, thành các hướng dẫn điều khiển hành động của rô-bốt.

** Năm 2022, Google ra mắt mô hình Say-can. **Các mô hình, như tên cho thấy, sử dụng các cân nhắc hai lần để giúp rô-bốt hành động. Cân nhắc đầu tiên là nói. Mô hình này được kết hợp với mô hình PaLM của mô hình ngôn ngữ lớn của Google, mô hình này có thể phân tách các nhiệm vụ thu được thông qua ngôn ngữ tự nhiên và tương tác của con người, đồng thời tìm ra nhiệm vụ phù hợp nhất cho hành động hiện tại; một cân nhắc khác là có thể. Mô hình sử dụng một thuật toán để tính Tìm xác suất để robot hiện tại có thể thực hiện thành công nhiệm vụ này. Robot di chuyển dựa trên hai cân nhắc này.

Ví dụ: nói với robot "Sữa của tôi bị đổ, bạn có thể giúp tôi không?" Đầu tiên, robot sẽ lên kế hoạch cho nhiệm vụ thông qua mô hình ngôn ngữ. Lúc này, cách hợp lý nhất có thể là tìm một người dọn dẹp, sau đó tìm một miếng bọt biển để lau nó bằng chính nó. Sau đó, robot sẽ tính toán thông qua một thuật toán rằng với tư cách là một robot, xác suất tìm thành công chất tẩy rửa là rất thấp và xác suất tìm thấy miếng bọt biển để tự lau là rất cao. Sau khi cân nhắc kỹ lưỡng, robot sẽ chọn hành động tìm miếng bọt biển để lau sữa.

Nguồn hình ảnh: Video giới thiệu Saycan

Mặc dù trong kiến trúc mô hình hai lớp như vậy, các hành động mà rô-bốt có thể thực hiện thành công đã được thiết kế sẵn, mô hình ngôn ngữ lớn chỉ có thể giúp rô-bốt chọn một kế hoạch tác vụ phù hợp. Trong một mô hình như vậy, robot đã thể hiện được trí thông minh mạnh mẽ.

**Tuy nhiên, trong khi hiệu ứng trông giống nhau từ bên ngoài, thì RT-2 lại đi theo một con đường khác. Trong quá trình đào tạo, mô hình học đồng thời ba loại dữ liệu về thị giác, ngôn ngữ và hành vi của robot.Mô hình RT-2 không thực hiện phân tách tác vụ trước rồi mới thực hiện thao tác tác vụ mà sau khi nhập ngôn ngữ tự nhiên, nó sẽ trực tiếp tạo ra các hành động thông qua hoạt động của mô hình. **

"Cấu trúc hai tầng tương tự như những gì tôi muốn làm. Đầu tiên tôi nghĩ về bước đầu tiên để làm điều này, bước thứ hai để làm điều đó, sau đó thực hiện từng chiến lược này." Giáo sư Xu Huazhe nói, "Và cấu trúc từ đầu đến cuối là tương tự. Vì vậy, tôi không thực sự nghĩ về bước đầu tiên và bước thứ hai, vì vậy tôi đã làm nó.” Một ví dụ về bước thứ hai có thể được so sánh với việc gõ và trò chuyện trên điện thoại di động mỗi ngày . Chúng ta thường không coi trọng việc gõ và trò chuyện, hãy nghĩ xem các cơ nên vận động như thế nào, nhưng hãy nghĩ đến những từ cần gõ và gõ trực tiếp.

“Hai con đường khác nhau hoặc hai phương pháp khác nhau vẫn chưa chứng minh được mình là con đường đúng đắn duy nhất.” Xu Huazhe nói. Tuy nhiên, do hiệu suất tuyệt vời của RT-2, một mô hình có thể đảm nhận hướng kỹ thuật của đầu vào và đầu ra có vẻ đáng để khám phá.

"Vì sự thay đổi này (hiệu suất tuyệt vời của RT-2), chúng tôi đã phải suy nghĩ lại toàn bộ kế hoạch nghiên cứu của mình," Vincent Vanhoucke, giám đốc người máy tại DeepMind của Google cho biết. "Rất nhiều điều mà tôi đã làm trước đây là hoàn toàn vô dụng."

RT-2 là thời điểm GPT3 dành cho rô-bốt?

Robot RT-2 của Google không hoàn hảo. Trong một cuộc biểu tình thực tế có sự chứng kiến của một phóng viên tờ New York Times, nó đã xác định nhầm hương vị của một lon nước ngọt chanh (nói là "cam"). Một lần khác, khi được hỏi trên bàn có trái cây gì, robot trả lời "màu trắng" (thực ra đó là một quả chuối). Người phát ngôn của Google giải thích rằng bot đã sử dụng các câu trả lời được lưu trong bộ nhớ cache để trả lời các câu hỏi từ những người thử nghiệm trước đó vì Wi-Fi của nó bị gián đoạn trong thời gian ngắn.

**Ngoài ra, việc sử dụng các mô hình lớn để huấn luyện rô-bốt chắc chắn sẽ gặp phải vấn đề về chi phí. **Hiện tại, khi rô-bốt của Google đưa ra suy luận và phán đoán, chúng cần truyền dữ liệu lên đám mây và nhiều TPU sẽ cùng nhau tính toán, sau đó gửi kết quả lại cho rô-bốt và rô-bốt sẽ thực hiện thao tác. Tính toán như vậy có thể được tưởng tượng là rất tốn kém.

Vincent Vanhoucke, giám đốc robot tại DeepMind của Google, tin rằng nghiên cứu mới mở ra cơ hội cho robot được sử dụng trong môi trường của con người -- các nhà nghiên cứu tin rằng robot có mô hình ngôn ngữ tích hợp có thể vào nhà kho, trong ngành y tế và thậm chí là một người giúp việc nhà, giúp gấp quần áo, lấy đồ ra khỏi máy rửa bát và dọn dẹp nhà cửa.

"Nếu bạn mở một nhà máy và cần sử dụng robot, thì tỷ lệ thành công phải rất cao. Bạn không muốn nói rằng sau khi mua robot, bạn cần rất nhiều người để bảo trì robot và cải tiến những thứ mà bạn đã làm. giáo sư Xu Huazhe nói, "Robot trong bối cảnh gia đình có thể là một tình huống khác, bởi vì có thể yêu cầu về tỷ lệ thành công đối với một số nhiệm vụ trong bối cảnh gia đình không quá cao. tỷ như gấp quần áo không tốt lắm, ở trong mắt ngươi, lần này nhiệm vụ thất bại, nhưng đối với ngươi sẽ không có ảnh hưởng lớn."

Yang Likun (Yaan Lecun), một trong ba người khổng lồ về trí tuệ nhân tạo, có một khẳng định nổi tiếng được nhấn mạnh nhiều lần: trí tuệ nhân tạo không đủ thông minh. Bất kỳ đứa trẻ nào cũng có thể nhanh chóng học cách dọn bàn và đặt bát đĩa vào máy rửa chén, nhưng rô-bốt thì không thể.

Điều này có thể đúng với nghiên cứu rô-bốt hiện tại, nhưng giống như GPT-3 không hoàn hảo đã chỉ ra cho ngành công nghiệp hướng phát triển mô hình quy mô lớn, có lẽ RT-2 không hoàn hảo ngày nay cũng sẽ mở ra một kỷ nguyên tương lai trong đó rô-bốt vào nhà và trở thành trợ lý của chúng tôi.

Xem bản gốc

RT-2 của Google có phải là thời điểm GPT-3 dành cho robot không?

Áp dụng Transformer cho robot

Tương lai của việc tương tác với rô-bốt bằng ngôn ngữ tự nhiên

**RT-2 là thời điểm GPT3 dành cho rô-bốt? **

RT-2 là thời điểm GPT3 dành cho rô-bốt?