ChatGPTと物理的なロボットを組み合わせて、ボストンダイナミクスはモンスターを開発しました!

オリジナルソース: AIGCオープンコミュニティ

画像ソース:無制限のAIによって生成

10月27日、世界トップのロボット開発者であるボストンダイナミクスは、ChatGPT、Spot、およびその他のAIモデルを組み合わせて、話すガイドガイド付きロボット犬を開発した新しい研究をWebサイトで公開しました。

ロボット犬は、テキストと音声のプロンプトに従って人間と話すことができ、カメラで撮影した写真を分析し、画像の説明を自動的に生成できる視覚的な質疑応答機能を提供すると報告されています。

Boston Dynamicsによると、ChatGPTなどの大言語モデルは、強力な制御および出力機能を実証しており、物理的なロボットの動作と意思決定機能を制御するように促されています。 たとえば、特定のアトラクションデータや写真などを入力すると、ロボットは論理的で整理されたツアーガイド機能を提供できます。

さらに、これはまた、あなたに冷たい冗談を言ったり、あなたを幸せにする面白い行動をするなど、物理的なロボットの擬人化能力を強化します。 あなたが伝統的な髪の方法を使うならば、それは非常に難しいことになるでしょう。

ツアーガイドのためのロボット犬技術の原理

ボストンダイナミクスは、自社開発の四足歩行ロボットSpotを物理的なロボットフレームワークとして使用し、歩行、監視、ナビゲーション、スキャンなどの基本機能を実現しています。

ロボット犬が人間と話したり対話したりできるようにするために、開発者は、データ転送のためにUSB経由でSpotのEAP 2に接続できるLED付きリングアレイマイクであるRespeaker V2スピーカーを装備しました。

1)スポットEAP 2)スピーカー 3)Bluetoothスピーカー 4)ポイントアームとフィクスチャカメラ

コンピューターをロボット犬の制御頭脳として使用し、Spot SDKを介してロボットと対話しました。 ロボット犬にうなずいたり首を伸ばしたりするなどの擬人化された行動をさせるために、Spotのポイントアームとクランプカメラが使用されます。

ロボット犬がChatGPTと話している

物理的なハードウェア環境を構築した後、ロボット犬に対話機能を持たせるために、研究開発担当者はGPT-3.5とGPT-4をSpot SDKと組み合わせて使用し、簡単な指示微調整を実行して、ロボット犬が一次ガイド判断と対話の機能を持つようにします。

次に、Spotが人間や環境と対話できるようにするために、VQAと音声テキスト変換ソフトウェアが統合されています。 同時に、ロボットのグリッパーカメラと前面ボディカメラがBLIP-2に入力され、視覚的な質疑応答モードで表示されます(例:「この写真の何がそんなに面白いのですか?」)。 およびその他の簡単な質問)または画像キャプションモードを実行して実行します。

このプロセスは約 1 秒に 1 回実行され、結果はプロンプトに直接入力されます。

ロボット犬が「聞く」機能を実現できるようにするために、開発者はマイクデータをOpenAIの音声モデルWhisperに英語のテキストに入力します。

ロボット犬が人間と会話するためには、人間の音声コマンドをテキストに変換してChatGPTを促す必要があるため、変換ツールも必要です。 さまざまなツールを試した後、開発者はクラウドサービスElevenLabsを使用することにしました。

実験で驚く現象

複数のテスト会話の過程で、開発者は驚くべき現象を発見し、ロボット犬は単純な自己意思決定能力を持っているようです。

たとえば、ロボット犬にマーク・ライバート(ボストンダイナミクスのエグゼクティブディレクター)は誰ですか? それは答えました:「私は彼が誰であるかわかりません、ヘルプデスクに行って尋ねましょう。」 "**

サービスデスクに着くと、ロボット犬はサービススタッフにマークライバートが誰であるかを尋ね続けましたか?

開発者が尋ねるとき:あなたの両親は誰ですか? ロボット犬はスポットV1とビッグドッグの展示エリアまで歩き、これらのロボットを父親と見なしました。 実際、それらには相関関係があります**。

ロボット犬も面白い一面を見せていて、周りに不思議な生き物がいるかどうか積極的に通行人に尋ねることができます。

ボストンダイナミクスは、今後も製品の機能を最適化し続けると述べた。 ChatGPTと物理ロボットの組み合わせにより、ツアーガイド、エンターテインメント、ロジスティクス、コンパニオンシップなどの分野で広く使用できる大規模な言語モデルの物理的な着陸への扉が開かれます。

ボストンダイナミクスについて

ボストンダイナミクスは1992年に設立され、マサチューセッツ州ボストンに本社を置いています。 マサチューセッツ工科大学(MIT)の支部として始まったものは、独立した会社に成長しました。

ボストンダイナミクスは、高度で柔軟で実用的なロボットの開発で知られており、その製品は産業、研究、消費者の分野で使用されており、主に代表的なロボットには、BigDog、Atlas、Spot、Handleなどがあります。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • 共有
コメント
0/400
コメントなし
  • ピン
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)