將ChatGPT與物理機器人結合，波士頓動力開發了一隻怪物！

2023-10-27 02:46:19

原文來源：AIGC開放社區

圖片來源：由無界AI生成

10月27日，全球頂級機器人開發商波士頓動力（Boston Dynamics）在官網展示了一項新的研究，通過將ChatGPT、Spot以及其他AI模型相結合，開發了一種會說話的導遊機器狗。

據悉，該機器狗能夠根據文字、語音提示與人類進行交談，同時提供了視覺問答功能，可以分析攝像頭拍攝的畫面，自動生成圖像說明。

波士頓動力表示，ChatGPT等大語言模型展現出了強大的控制和輸出能力，這讓他們大受啟發，可以用於控制物理機器人的行為和決策功能。例如，輸入一些特定景點數據、圖片等，可讓機器人提供邏輯清晰、條理分明的導遊功能。

此外，這也增強了物理機器人的擬人化能力，如為你講一個冷笑話，做一個逗你開心的滑稽動作。如果採用傳統的發方法，將是一件非常困難的事情。

導遊機器狗技術原理

波士頓動力使用了自研的四足機器人Spot作為物理機器人框架，實現了行走、監控、導航、掃描等基礎功能。

為了能讓機器狗說話與人類互動，研發人員為其配備了Respeaker V2揚聲器，這是一個帶有LED的環形陣列麥克風，可通過USB將其連接到Spot的EAP 2實現數據傳輸。

1）Spot EAP 2）揚聲器3）藍牙音箱4）點臂和夾具相機

使用了一台電腦作為機器狗的控制大腦，並通過Spot SDK與其實現數據交互。為了讓機器狗具備擬人化動作，例如，點頭，伸脖子等，使用了Spot的點臂和夾具相機。

物理硬體環境搭建完成後，為了使機器狗具備對話功能，研發人員使用了GPT-3.5和GPT-4與Spot SDK相結合，並進行了簡單的指令微調，讓機器狗具備了初級導遊判斷和對話功能。

接下來，為了讓Spot與人類和環境進行交互，集成了VQA和語音轉文本軟體。同時將機器人的抓手攝像頭和前置機身攝像頭輸入BLIP-2，並以視覺問答模式（例如“這張圖片有什麼有趣的地方？” 等簡單問題）或圖像字幕模式運行它。

該過程大約每秒運行一次，結果將直接輸入到提示中。

為了讓機器狗可以實現「聽」的功能，研發人員將麥克風數據分塊輸入到OpenAI的語音模型Whisper中轉換為英文文本。

為了讓機器狗能與人類實現對話，需要將人類的語音指令轉換成文本用於提示ChatGPT，因此還需要一個轉換工具。開發人員在嘗試了多種工具后，決定使用了雲服務ElevenLabs。

在多個測試對話過程中，研發人員發現了一個令人驚奇的現象，機器狗好像具備了簡單的自我決策能力。

例如，向機器狗詢問Marc Raibert（波士頓動力執行董事）是誰時？它回答：「我不知道他是誰，讓我們去服務台問一問吧。 ”

到了服務台，機器狗繼續向服務人員詢問Marc Raibert是誰？

當研發人員提問：你的父母是誰？機器狗走向了Spot V1和Big Dog的展示區，並認為這些機器人是它的父輩們。實際上，它們之間確實有關聯。

機器狗還展現出了有趣的一面，可以主動向路人詢問，周圍是否有神秘的生物。

波士頓動力表示，未來還會持續優化該產品的功能。 ChatGPT與實體機器人的相結合，為大語言模型實現物理化落地打開了大門，可以在導遊、娛樂、物流、陪伴等領域得到廣泛應用。

波士頓動力（Boston Dynamics）成立於1992年，總部位於馬薩諸塞州波士頓。起初是麻省理工學院（MIT）的一個分支機構，後來發展成為一家獨立的公司。

波士頓動力以開發高度先進、靈活且具有實用性的機器人而聞名，其產品在工業、研究和消費領域都有應用，主要代表機器人包括：BigDog、Atlas、Spot、Handle等。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

1人點讚了這條動態

留言

0/400

暫無留言