谷歌的RT-2，是不是機器人的GPT-3 時刻？

Question

7 月29 日，《紐約時報》的記者在谷歌實驗室，率先看到了谷歌最新推出的RT-2 模型驅動的機器人。

一個單臂機器人站在一張桌子前。桌子上坐著三個塑料雕像：獅子、鯨魚和恐龍。工程師給機器人發出指令：「撿起滅絕的動物。」機器人呼呼地響了一會兒，然後手臂伸出，爪子張開落下。它抓住了恐龍。

這是一道智能的閃光。

《紐約時報》描述道，「直到上週，這一演示還是不可能的。機器人無法可靠地操縱它們以前從未見過的物體，它們當然也無法實現從「滅絕的動物」到「塑料恐龍」的邏輯飛躍。」

**雖然仍然存在於展示之中，且谷歌並不打算立即進行更大規模的發布或者對其進行商業化，但這一展示已經足以展現大模型為機器人能夠帶來的機遇的一角。 **

在大模型時代到來之前，人們訓練機器人，通常針對每個任務進行優化，比如抓取某種玩具，需要足量的數據，機器人才能準確地從各個角度、各個光線下識別這種玩具，抓取成功。而讓機器人意識到自己有抓取玩具的任務，也需要對機器人進行編程才能解決。

而大模型的智能和泛化能力，讓人們看到了解決這些問題，走向通用機器人的一道曙光。

將Transformer 運用到機器人中

谷歌新的RT-2 模型，全稱為Robotic Transformer 2，運用Transformer 架構作為其模型的基座。

2018 年被提出的Transformer 架構，是目前火遍全球的大語言模型（LLM）的最底層的基座，但事實上，作為一種架構，Transformer 不止可以應用於大語言模型當中，也可以用於訓練其他類型的數據。早在今年3 月份，谷歌就發布了PaLM-E，是當時世界上最大視覺語言模型（VLM）。

大語言模型中，語言被編碼為向量，人們為模型提供大量的語料，使其能夠預測出人類通常下一句會說什麼，藉此生成語言回答。

而在視覺語言模型中，模型可以將圖像信息編碼為與語言類似的向量，讓模型既能「理解」文字，又能用相同方式「理解」圖像。而研究員們為視覺語言模型提供大量的語料和圖像，使其能夠執行視覺問答、為圖像添加字幕和物品識別等任務。

無論是圖像還是語言，都是相對容易大量獲取的數據。因此，模型很容易取得令人驚豔的成果。

而想使用Transformer 架構來生成機器人行為，卻有一個很大的難點。「涉及到機器人動作的數據非常昂貴。」清華大學交叉信息研究院助理教授許華哲教授告訴極客公園，「視覺和語言數據都來自於人類，是被動數據，而機器人的動作數據，全部是來自於機器人的主動數據。

**比如我想研究機器人倒咖啡的動作，不管是寫代碼讓機器人執行，還是利用其他的方式讓機器人執行，都是需要機器人實際執行一遍這個操作才能得到這個數據。 **因此，機器人的數據與語言和圖片的規模和量級是完全不一樣的。」

**在谷歌研究的第一代機器人Transformer 模型RT-1 中，谷歌第一次開啟了這樣的挑戰，嘗試建立一個視覺語言動作模型。 **

為了建立這樣的模型，谷歌使用了13 個機器人，在一個搭建的廚房環境中耗時17 個月收集到了機器人在700 多個任務上的主動數據組建的數據集。

數據集同時記錄了三個維度：

視覺——機器人在執行任務操作時的攝像頭數據；
語言——用自然語言描述的任務文字；
和機器人動作——機器手進行任務時在xyz 軸和偏轉數據等。

雖然當時得到了較好的實驗效果，但可想而知，想要進一步增加數據集內數據的數量，將是一件非常難的事情。

圖片來源：谷歌AI 介紹視頻

**而RT-2 的創新之處在於，RT-2 使用前面所述的視覺語言模型（VLM）PaLM-E 和另一個視覺語言模型PaLI-X 作為其底座——單純的視覺語言模型可以通過網絡級的數據訓練出來，因為數據量足夠大，能夠得到足夠好的效果，而在微調（fine-tuning）階段，再將機器人的動作數據加入進去一起微調（co-finetuning）。 **

這樣，機器人相當於首先已經擁有了一個在海量數據上學習過了的常識系統——雖然還不會抓取香蕉，但是已經能夠認識香蕉了，甚至也知道了香蕉是一種水果，猴子會比較喜歡吃。

而在微調階段，通過再加入機器人在真實世界中看到香蕉後是如何抓取香蕉的知識，機器人就不但擁有了在各種光線和角度下識別香蕉的能力，也擁有了能夠抓取香蕉的能力。

在这种方式下，用 Transformer 架构训练机器人所需的数据显著降低了。

RT-2 在微調階段直接使用了RT-1 訓練階段使用的視覺/語言/機器人動作數據集。谷歌給出的數據顯示，在抓取訓練數據中原來出現過的物品時，RT-2 的表現與RT-1 同樣好。而因為有了「擁有常識的大腦」，在抓取之前沒有見過的物品時，成功率從RT-1 的32% 提升到了62%。

「這就是大模型的妙處。」許華哲講道，「你沒有辦法把它拆解成因為它識別到了兩個物體是材質相似，還是因為大小相近還是因為別的什麼原因抓取的成功率提升了。它學到的東西足夠多了之後，就會湧現出一些能力。」

使用自然語言與機器人交互的未來

學術上，RT-2 展現的很強的泛化性有可能解決機器人訓練數據不足的難題。 **而在此之外，RT-2 給人的直觀震撼還是來自於它所展現的智能的一面。 **

在實驗中，研究員希望它能夠拿起一個「能夠用作錘子的東西」，機器人在一堆物品中拿起了石頭，而在被要求拿起一個提供給疲憊的人的飲料時，機器人在一堆物品中選擇了紅牛。

這樣的技巧來自在進行大模型訓練時，研究員引入「思維鏈」（chain of thought）的能力。而這樣的多段語義推理在傳統的機器人模仿學習研究中時非常難以做到的。

不過，利用自然語言與機器人交互，並不是RT-2 的創見。

在過去的機器人研究中，研究者始終需要將任務要求轉換為代碼而讓機器人能夠理解，同時一旦出現問題，也需要編寫代碼來糾正機器人的行為，整個過程需要多次交互，效率較低。 **而既然我們已經有了非常智能的對話機器人了，下面比較自然的一步，自然是讓機器人與人類用自然語言交互。 **

「我們大約兩年前開始研究這些語言模型，然後我們意識到它們蘊藏著豐富的知識。」谷歌研究科學家卡羅爾·豪斯曼(Karol Hausman) 表示，「所以我們開始將它們連接到機器人。」

不過，讓大模型作為機器人的頭腦，也有著自己的難題。其中最重要的一個問題之一，就是grounding 問題，即如何使大模型通常比較天馬行空的回應，轉化成驅動機器人行動的指令。

**2022 年，谷歌推出Say-can 模型。 **模型正如其名，採用兩重考量來幫助機器人行動。一重考量是say，模型通過與穀歌的大語言模型PaLM 模型結合，可以通過自然語言和人類交互，把獲得的任務進行分解，找到最適合當前行動；另一重考量是can，模型通過一個算法，計算出當前機器人能夠成功執行這一任務的概率。機器人根據這兩重考量下，進行動作。

比如對機器人講「我的牛奶撒了，你能不能幫我？」機器人會首先通過語言模型進行任務規劃，這時可能最合理的方式是找到一個清潔工，其次是找一塊海綿自己擦。然後機器人會通過算法計算出作為機器人，它能夠成功找到清潔工的概率很低，而找到海綿自己擦的概率很高。在兩重考慮後，機器人就會選擇尋找海綿擦牛奶的行動。

圖片來源：Saycan 介紹視頻

雖然在這樣雙層模型架構中，機器人能夠成功做出的動作已經是預先設計好的，大語言模型只是能夠幫助機器人選擇合適的任務規劃。在這樣模型中，機器人已經展現出了極強的智能感。

**不過，雖然從外在看起來效果是類似的，RT-2 採取的是另一種道路。通過訓練時模型就同時學習視覺、語言、機器人行為這三種數據，RT-2 的模型並不是先進行任務分解，再進行任務操作，而是自然語言輸入後，通過模型的運算，直接產生動作的輸出。 **

「雙層結構類似於我想去做一件事情，腦袋裡先想好第一步幹這個，第二步干那個，然後再挨個執行這些策略。」許華哲教授表示，「而端到端的結構類似於我也沒有特別仔細想第一步、第二步是什麼，就把這個事情給乾了。」後者的一個例子可以類比於我們每天在手機上打字聊天，我們打字聊天時一般不會認真思考肌肉具體要如何去動作，而是想到了要打的字，就直接打出來了。

「兩種不同的路線或者不同的方法，都還沒有證明自己是唯一正確的方式。」許華哲表示。但由於RT-2 的優秀表現，一個模型能夠接管輸入輸出的技術方向，似乎值得探索。

「由於這一變化（RT-2 的優秀表現），我們不得不重新考慮我們的整個研究規劃了，」谷歌DeepMind 機器人技術主管文森特·範霍克（Vincent Vanhoucke）表示。「之前所做的很多事情都完全變成無用功了。」

RT-2 是機器人的GPT3 時刻嗎？

谷歌的RT-2 機器人並不完美。在《紐約時報》記者目睹的實際演示中，它錯誤地識別了一罐檸檬味蘇打水的味道（說成「橘子味」）。還有一次被問到桌子上有什麼水果時，機器人回答成「白色」（實際是香蕉）。谷歌發言人解釋說，該機器人使用了緩存的答案來回答之前測試者的問題，因為它的Wi-Fi 曾短暫中斷過。

**除此之外，利用大模型訓練機器人，不可避免地要面對成本問題。 **目前谷歌的機器人在進行推理和判斷的時候，需要將數據傳到雲端，由多塊TPU 一起進行計算，再將結果發回機器人，由機器人執行操作。這樣的計算可想而知十分昂貴。

谷歌DeepMind 機器人技術主管文森特·範霍克（Vincent Vanhoucke）認為，新的研究開啟了機器人能夠在有人的環境中使用的大門——研究者認為，內置了語言模型的機器人可以進入倉庫、用於醫療行業，甚至成為家庭助理，幫助折疊衣物、從洗碗機中取出物品、在房子周圍收拾東西。

「如果你開一個工廠，需要使用機器人，成功率一定是要求很高的。你不會希望說買了機器人後，還需要很多人去維護這個機器人，完善機器人做的不夠好的事情。那這樣成本太高了。」許華哲教授表示，「家居場景下的機器人可能是另一個情形，因為也許家居場景下的一些任務的成功率要求沒有那麼高。比如疊衣服，疊的沒有那麼好，可能在你眼中這個任務失敗了，但對你的影響也不會非常大。」

人工智能三巨頭之一的楊立昆（Yaan Lecun）有一個強調過許多次的著名論斷：人工智能還不夠聰明。任何一個孩子都能很快學會收拾桌子，把碗放進洗碗機，而機器人卻做不到。

目前的機器人研究或許確實如此，但正如不完美的GPT-3 讓業界看到了大模型發展的方向一樣，或許今天不完美的RT-2 也將開啟機器人進入家庭成為我們的助手的未來時代。

查看原文

谷歌的RT-2，是不是機器人的GPT-3 時刻？

將Transformer 運用到機器人中

使用自然語言與機器人交互的未來

**RT-2 是機器人的GPT3 時刻嗎？ **

RT-2 是機器人的GPT3 時刻嗎？