出典: 新志源
画像ソース: Unbounded AI によって生成
このプレイヤーは「Minecraft」を上手にプレイしており、スナックを集めたり、ブロックを壊したりするのが簡単であることに注意してください。
カメラが回るとすぐに、プレイヤーの正体はオランウータンであることが判明しました。
はい、これはApe Initiativeによる非ヒト生物学的ニューラルネットワーク実験です。
実験の主人公、カンジは42歳のボノボです。
訓練を経て様々なスキルを習得し、村や砂漠の神殿、下界のポータルなどの環境に挑戦し、最後まで税関をクリアしてきました。
AI の専門家は、文脈強化学習、RLHF、模倣学習、コース学習など、オランウータンのトレーナーにスキルの学習を教えるプロセスは、人間が AI に Minecraft のプレイを教えるプロセスと似ていることを発見しました。
エイプ・イニシアティブのボノボであるカンジは、世界で最も賢いオランウータンの 1 つで、英語を理解し、タッチスクリーンを使います。
Ape Initiative では、Kanzi はさまざまな電子タッチ スクリーンにアクセスでき、これが彼が「Minecraft」をすぐに始めるための基礎を築いた可能性があります。
初めて Kanzi Minecraft を見せたとき、スクリーンの前に座るとすぐに緑色の矢印を見つけ、ターゲットに向かって指をスワイプしました。
### 3 つのスキルを学ぶ
Kanzi は数秒以内に、Minecraft 内を移動する方法を理解しました。
その後、報酬を集める方法も学びました。
報酬を集めるたびに、ピーナッツ、ブドウ、リンゴなどのお菓子がもらえます。
Kanziの手術はますます熟練してきています。
ターゲットの矢印と同じ緑色の円柱の障害物を認識し、報酬を集めるときに回避します。
もちろん、カンジにも困難が訪れるだろう。これまでに見たことのないブレイクツールを使って大きなブロックを壊す必要がありました。
Kanzi が行き詰まっているのを見て、人間たちは目的のツール ボタンを指して助け始めました。しかし、カンジはそれを読んでもまだ理解できませんでした。
人間は道具を使って木のブロックを壊し、自分たちでそれを行わなければなりませんでした。カンジはそれを見て思慮深く、皆が期待する中、カンジもそれに倣い、ボタンをクリックすると木版を粉砕した。人々は即座に歓声を上げた。
さて、Kanzi のスキル ツリーには、スナックの収集とブロックの破壊の 2 つがあります。
洞窟のスキルを学んでいたスタッフは、カンジが壊そうとした木のブロックから滑り落ちても、カンジはそのまま立ち去ってしまうことに気づきました。したがって、人々はタスクを特別にカスタマイズしました—
ダイヤモンドの壁でいっぱいの洞窟で木のブロックを粉砕して、その収集と粉砕のスキルを証明します。
洞窟の中はすべて順調でしたが、カンジには問題が発生しました。洞窟の隅で動けなくなってしまったのです。このとき、人間が助けの手を差し伸べる必要があります。
やがてカンジは洞窟の底に到達し、最後の壁を打ち破った。
観客からは歓声が上がり、Kanziさんはスタッフとハイタッチを交わした。
### 騙された人間
次に、興味深いことが起こりました。スタッフは、Kanzi とゲームをプレイするように人間のプレイヤーを招待しました。もちろん、彼は Kanzi の正体を知りませんでした。
スタッフは、プレイヤーが一緒にゲームをプレイしている相手が人間ではないことに気づくまでにどれくらいの時間がかかるかを確認するつもりだ。
この弟は最初、相手の動きの速さが信じられないほど遅いとしか感じなかったが、
カンジの写真が目の前に示されると、弟は怯えて後ずさりした。
「Minecraft」をプレイした後、Kanzi さんはますます勇気が湧いてきました。
Kanzi が報酬を獲得するたびに、人々はその行動を歓声という形で肯定し、失敗した場合にはトレーナーも拍手と声援でゲームの続行を促します。
この時点で、地下迷宮の地図のロックを解除する方法を学びました。
目の前にある障害物を打ち破りましょう。
アメジストを見つけてください:
Kanzi は行き詰まったとき、散歩に出かけ、棒を持ち帰って自分の横に置きます。
たとえ残念ながら失敗しても、Kanzi はボタンをクリックして再生します。
最後のレベルはフォークだらけの巨大な迷路です。
迷路から抜け出すのが遅れたため、カンジは不安になり、枝を持って叫び始めたり、怒りで枝を折ったりしました。
最終的には落ち着いてレベルを突破し続け、迷路から抜け出すことができました。
すぐに拍手と歓声がKanziを取り囲んだ。
「My World」はボノボのKanziさんが演奏したそうです。
オランウータンの指導と AI の指導の類似点
ボノボがビデオゲームを巧みにプレイしているのを見ると、少しグロテスクで不気味に感じるかもしれません。
Nvidia の上級科学者 Jim Fan はこれについてコメントしました -
Kanzi とその先祖は人生で Minecraft を見たことはありませんでしたが、電子スクリーンに表示される Minecraft のテクスチャと物理学にすぐに適応しました。
そしてこれは、彼らが曝され、生活してきた自然環境とは大きく異なります。このレベルの一般化は、これまでで最も強力なビジョン モデルをはるかに超えています。
動物を訓練して Minecraft をプレイするためのテクニックは、人工知能を訓練するための原則と基本的に同じです。
- コンテキストベースの強化学習:
Kanzi がゲームでマークされたマイルストーンに到達するたびに、果物やピーナッツを受け取り、ゲームのルールに従い続けるよう動機づけます。
-RLHF:
カンジは人間の言葉を理解できませんが、トレーナーが彼を応援しているのが見え、時折反応します。トレーニングスタッフからの声援は、カンジに正しい軌道に乗っているという強い合図を与えた。
- 模倣による学習:
トレーナーがタスクの完了方法をKanziに教えると、Kanziは関連する操作の意味をすぐに理解しました。プレゼンテーションの効果は、報酬だけを使用する戦略をはるかに超えています。
- カリキュラム学習:
トレーナーと Kanzi は非常に簡単な環境から始めて、徐々に Kanzi にコントロール スキルを教えます。最後に、Kanzi は複雑な洞窟、迷路、ネザーを通過できるようになりました。
それだけでなく、同様のトレーニング技術を使用したとしても、動物の視覚システムは非常に短期間で新しい環境を認識して適応できますが、AI視覚モデルはより多くの時間とトレーニングコストがかかり、多くの場合、達成するのは難しいですが、理想的な効果です。
私たちは再びモラヴェックのパラドックスの深淵に陥ってしまいます。
人工知能は人間の能力に反して動作します。私たちが非思考または本能的であると考えている低レベルの知能活動 (知覚や運動制御など) では、人工知能は恐ろしいものです。しかし、推論と抽象化(論理的推論や言語理解など)を必要とする高度な知的活動では、人工知能は容易に人間を超えることができます。
これは、この実験で示された結果と正確に一致します。
私たちの最高の AI (GPT-4) は、言語理解においては人間のレベルに近いものの、知覚と認識においては動物にはるかに及ばないものです。
ネチズン: オランウータンはゲームをすると怒ることが判明
Kanzi と LLM は両方とも Minecraft をプレイできますが、Kanzi の学習方法と LLM の間には無視できない違いがあり、これには注意する必要があります。
Kanziの優れた学習能力に直面して、ネチズンはなりすましを始めました。
6年後の世界は猿の惑星の戦争になると予言する人もいる…。
あるいはオランウータンがコーラを飲んで人間社会に溶け込むとか…。
マー親分さえも撃たれ、マスクの「猿バージョン」に変わってしまった。
カンジは人間以外でゲーマーのような怒りを持った最初の人であるとも言われており、彼は満足しています。
「もしKanziが自分のゲームチャンネルを持っていたら、私はそれを正直に見るでしょう。」
「ゲームをプレイすることに関しては、人間とボノボの間に大きな違いはありません。私たちは皆、特定のタスクを実行し、目標を達成するという報酬によって動機づけられています。唯一の違いは、報酬の実際の内容です。」
「Minecraft では、Kanzi のダイヤモンド採掘に対する報酬はより即時的で生の(食べ物)ものですが、私たちのダイヤモンド採掘に対する報酬はより遅れてゲームに関連したものになります。とにかく、ちょっとクレイジーです。」
まず、GPT が「Minecraft」をプレイできるようになり、ボノボもプレイできるようになり、Neuralink の将来が期待されます。
ジム ファンが AI エージェントに Minecraft の遊び方を教える
人間は、AI に Minecraft のプレイを教えることにおいて、すでに多くの高度な経験を蓄積しています。
今年の 5 月には、Jim Fan チームは Nvidia の AI エージェントを GPT-4 に接続し、まったく新しい AI エージェント Voyager を作成しました。
Voyager はパフォーマンスで AutoGPT を上回るだけでなく、シーン全体のゲームで生涯学習を行うことができます。
人間の介入なしに独自にコードを記述して「Minecraft」を支配することができます。
ボイジャーの登場により、汎用人工知能AGIにまた一歩近づいたと言えるでしょう。
真のデジタルライフ
GPT-4 にアクセスした後、Voyager は人間のことをまったく心配する必要がなく、完全に独学で学習できます。
穴を掘ったり、家を建てたり、採集したり、狩猟したりする基本的なサバイバルスキルを習得しただけでなく、自分自身で野外探検を行うことも学びました。
自ら駆動し、アイテムや装備を常に拡張し、さまざまなレベルの鎧を装備し、盾を使用して上海を封鎖し、柵を使用して動物を収容します。
大規模な言語モデルの出現により、身体化されたエージェントの構築に新たな可能性がもたらされました。 LLM ベースのエージェントは、事前トレーニングされたモデルに含まれる世界の知識を使用して、一貫したアクション プランや実行可能な戦略を生成できるためです。
Jim Fan: このアイデアは BabyAGI/AutoGPT よりも前からあり、最高の勾配のないアーキテクチャを見つけるのに多くの時間を費やしました。
エージェントに GPT-4 を導入すると、新しいパラダイム (勾配降下法ではなくコード実行による「トレーニング」) が開かれ、エージェントは生涯学習できないという欠点を取り除くことができます。
OpenAI の科学者 Karpathy もこれを賞賛しました。これは高度なスキルのための「勾配のないアーキテクチャ」です。ここで、LLM は前頭前皮質に相当し、下位レベルのマインフレイヤー API はコードを通じて生成されます。
3 つの主要コンポーネント
Voyager を効果的な生涯学習エージェントにするために、Nvidia、Caltech、その他の教育機関のチームは 3 つの重要なコンポーネントを提案しました。
1. ゲームのフィードバック、実行エラー、自己検証を組み合わせてプログラムを改善する反復プロンプト メカニズム
2. 複雑な動作を保存および取得するためのスキル コード ベース
3. エージェントの探索を最大限に高める自動チュートリアル
まず、Voyager は、一般的な Minecraft Java API (Mineflayer) を使用して、特定の目標を達成するためのプログラムを作成しようとします。
ゲーム環境のフィードバックと Java 実装エラー (ある場合) は、GPT-4 がプログラムを改善するのに役立ちます。
左: 環境フィードバック。 GPT-4 は、スティックを作成する前にさらに 2 枚の板が必要であることに気づきました。 右: 実行エラー。 GPT-4 は、Minecraft には「アカシア」の斧が存在しないため、「アカシア」の斧ではなく木の斧を作成する必要があることに気づきました。
GPT-4 は、エージェントの現在の状態とタスクを提供することで、タスクが完了したかどうかをプログラムに伝えます。
さらに、タスクが失敗した場合、GPT-4 は批判を提供し、タスクを完了する方法を提案します。
自己確認
第 2 に、Voyager は成功した手順をベクトル データベースに保存することで、スキル バンクを徐々に構築します。各プログラムは、その docstring を埋め込むことで取得できます。
複雑なスキルは単純なスキルを組み合わせることで合成され、これによりボイジャーの能力は時間の経過とともに急速に成長し、壊滅的な記憶喪失を軽減することができます。
上: スキルを追加します。各スキルはその説明の埋め込みによってインデックスが付けられ、将来同様の状況で取得できるようになります。 下: スキルを取得します。自動化されたカリキュラムによって提案された新しいタスクに直面すると、クエリが作成され、上位 5 つの関連スキルが特定されます。
3 番目に、自動カリキュラムが、エージェントの現在のスキル レベルと世界の状態に基づいて、適切な探索タスクを提案します。
たとえば、森ではなく砂漠にいる場合は、鉄の代わりに砂とサボテンを集める方法を学びます。レッスンは、「可能な限り多様なものを発見する」という目標に基づいて GPT-4 によって生成されます。
自動コース
生涯にわたって学習できる初の LLM 主導の身体化知能として、ボイジャーの訓練プロセスとオランウータンの訓練プロセスの類似点は、私たちに多くのインスピレーションを与えてくれます。
参考文献:
27k 人気度
58k 人気度
8k 人気度
16k 人気度
30k 人気度
2k 人気度
112k 人気度
26k 人気度
7k 人気度
オランウータンが「Minecraft」の遊び方を学ぶ、その方法は実はGPT-4知的体と同じ?
出典: 新志源
このプレイヤーは「Minecraft」を上手にプレイしており、スナックを集めたり、ブロックを壊したりするのが簡単であることに注意してください。
カメラが回るとすぐに、プレイヤーの正体はオランウータンであることが判明しました。
はい、これはApe Initiativeによる非ヒト生物学的ニューラルネットワーク実験です。
実験の主人公、カンジは42歳のボノボです。
訓練を経て様々なスキルを習得し、村や砂漠の神殿、下界のポータルなどの環境に挑戦し、最後まで税関をクリアしてきました。
AI の専門家は、文脈強化学習、RLHF、模倣学習、コース学習など、オランウータンのトレーナーにスキルの学習を教えるプロセスは、人間が AI に Minecraft のプレイを教えるプロセスと似ていることを発見しました。
オランウータンが Minecraft の遊び方を学ぶとき
エイプ・イニシアティブのボノボであるカンジは、世界で最も賢いオランウータンの 1 つで、英語を理解し、タッチスクリーンを使います。
Ape Initiative では、Kanzi はさまざまな電子タッチ スクリーンにアクセスでき、これが彼が「Minecraft」をすぐに始めるための基礎を築いた可能性があります。
Kanzi は数秒以内に、Minecraft 内を移動する方法を理解しました。
その後、報酬を集める方法も学びました。
ターゲットの矢印と同じ緑色の円柱の障害物を認識し、報酬を集めるときに回避します。
Kanzi が行き詰まっているのを見て、人間たちは目的のツール ボタンを指して助け始めました。しかし、カンジはそれを読んでもまだ理解できませんでした。
人間は道具を使って木のブロックを壊し、自分たちでそれを行わなければなりませんでした。カンジはそれを見て思慮深く、皆が期待する中、カンジもそれに倣い、ボタンをクリックすると木版を粉砕した。人々は即座に歓声を上げた。
ダイヤモンドの壁でいっぱいの洞窟で木のブロックを粉砕して、その収集と粉砕のスキルを証明します。
洞窟の中はすべて順調でしたが、カンジには問題が発生しました。洞窟の隅で動けなくなってしまったのです。このとき、人間が助けの手を差し伸べる必要があります。
やがてカンジは洞窟の底に到達し、最後の壁を打ち破った。
次に、興味深いことが起こりました。スタッフは、Kanzi とゲームをプレイするように人間のプレイヤーを招待しました。もちろん、彼は Kanzi の正体を知りませんでした。
スタッフは、プレイヤーが一緒にゲームをプレイしている相手が人間ではないことに気づくまでにどれくらいの時間がかかるかを確認するつもりだ。
この弟は最初、相手の動きの速さが信じられないほど遅いとしか感じなかったが、
カンジの写真が目の前に示されると、弟は怯えて後ずさりした。
迷路から抜け出そう
「Minecraft」をプレイした後、Kanzi さんはますます勇気が湧いてきました。
Kanzi が報酬を獲得するたびに、人々はその行動を歓声という形で肯定し、失敗した場合にはトレーナーも拍手と声援でゲームの続行を促します。
たとえ残念ながら失敗しても、Kanzi はボタンをクリックして再生します。
すぐに拍手と歓声がKanziを取り囲んだ。
オランウータンの指導と AI の指導の類似点
ボノボがビデオゲームを巧みにプレイしているのを見ると、少しグロテスクで不気味に感じるかもしれません。
Kanzi とその先祖は人生で Minecraft を見たことはありませんでしたが、電子スクリーンに表示される Minecraft のテクスチャと物理学にすぐに適応しました。
そしてこれは、彼らが曝され、生活してきた自然環境とは大きく異なります。このレベルの一般化は、これまでで最も強力なビジョン モデルをはるかに超えています。
- コンテキストベースの強化学習:
Kanzi がゲームでマークされたマイルストーンに到達するたびに、果物やピーナッツを受け取り、ゲームのルールに従い続けるよう動機づけます。
-RLHF:
カンジは人間の言葉を理解できませんが、トレーナーが彼を応援しているのが見え、時折反応します。トレーニングスタッフからの声援は、カンジに正しい軌道に乗っているという強い合図を与えた。
- 模倣による学習:
トレーナーがタスクの完了方法をKanziに教えると、Kanziは関連する操作の意味をすぐに理解しました。プレゼンテーションの効果は、報酬だけを使用する戦略をはるかに超えています。
- カリキュラム学習:
トレーナーと Kanzi は非常に簡単な環境から始めて、徐々に Kanzi にコントロール スキルを教えます。最後に、Kanzi は複雑な洞窟、迷路、ネザーを通過できるようになりました。
それだけでなく、同様のトレーニング技術を使用したとしても、動物の視覚システムは非常に短期間で新しい環境を認識して適応できますが、AI視覚モデルはより多くの時間とトレーニングコストがかかり、多くの場合、達成するのは難しいですが、理想的な効果です。
私たちは再びモラヴェックのパラドックスの深淵に陥ってしまいます。
人工知能は人間の能力に反して動作します。私たちが非思考または本能的であると考えている低レベルの知能活動 (知覚や運動制御など) では、人工知能は恐ろしいものです。しかし、推論と抽象化(論理的推論や言語理解など)を必要とする高度な知的活動では、人工知能は容易に人間を超えることができます。
これは、この実験で示された結果と正確に一致します。
私たちの最高の AI (GPT-4) は、言語理解においては人間のレベルに近いものの、知覚と認識においては動物にはるかに及ばないものです。
ネチズン: オランウータンはゲームをすると怒ることが判明
Kanzi と LLM は両方とも Minecraft をプレイできますが、Kanzi の学習方法と LLM の間には無視できない違いがあり、これには注意する必要があります。
6年後の世界は猿の惑星の戦争になると予言する人もいる…。
「Minecraft では、Kanzi のダイヤモンド採掘に対する報酬はより即時的で生の(食べ物)ものですが、私たちのダイヤモンド採掘に対する報酬はより遅れてゲームに関連したものになります。とにかく、ちょっとクレイジーです。」
人間は、AI に Minecraft のプレイを教えることにおいて、すでに多くの高度な経験を蓄積しています。
今年の 5 月には、Jim Fan チームは Nvidia の AI エージェントを GPT-4 に接続し、まったく新しい AI エージェント Voyager を作成しました。
人間の介入なしに独自にコードを記述して「Minecraft」を支配することができます。
ボイジャーの登場により、汎用人工知能AGIにまた一歩近づいたと言えるでしょう。
真のデジタルライフ
GPT-4 にアクセスした後、Voyager は人間のことをまったく心配する必要がなく、完全に独学で学習できます。
穴を掘ったり、家を建てたり、採集したり、狩猟したりする基本的なサバイバルスキルを習得しただけでなく、自分自身で野外探検を行うことも学びました。
自ら駆動し、アイテムや装備を常に拡張し、さまざまなレベルの鎧を装備し、盾を使用して上海を封鎖し、柵を使用して動物を収容します。
大規模な言語モデルの出現により、身体化されたエージェントの構築に新たな可能性がもたらされました。 LLM ベースのエージェントは、事前トレーニングされたモデルに含まれる世界の知識を使用して、一貫したアクション プランや実行可能な戦略を生成できるためです。
エージェントに GPT-4 を導入すると、新しいパラダイム (勾配降下法ではなくコード実行による「トレーニング」) が開かれ、エージェントは生涯学習できないという欠点を取り除くことができます。
OpenAI の科学者 Karpathy もこれを賞賛しました。これは高度なスキルのための「勾配のないアーキテクチャ」です。ここで、LLM は前頭前皮質に相当し、下位レベルのマインフレイヤー API はコードを通じて生成されます。
Voyager を効果的な生涯学習エージェントにするために、Nvidia、Caltech、その他の教育機関のチームは 3 つの重要なコンポーネントを提案しました。
1. ゲームのフィードバック、実行エラー、自己検証を組み合わせてプログラムを改善する反復プロンプト メカニズム
2. 複雑な動作を保存および取得するためのスキル コード ベース
3. エージェントの探索を最大限に高める自動チュートリアル
ゲーム環境のフィードバックと Java 実装エラー (ある場合) は、GPT-4 がプログラムを改善するのに役立ちます。
GPT-4 は、エージェントの現在の状態とタスクを提供することで、タスクが完了したかどうかをプログラムに伝えます。
さらに、タスクが失敗した場合、GPT-4 は批判を提供し、タスクを完了する方法を提案します。
第 2 に、Voyager は成功した手順をベクトル データベースに保存することで、スキル バンクを徐々に構築します。各プログラムは、その docstring を埋め込むことで取得できます。
複雑なスキルは単純なスキルを組み合わせることで合成され、これによりボイジャーの能力は時間の経過とともに急速に成長し、壊滅的な記憶喪失を軽減することができます。
3 番目に、自動カリキュラムが、エージェントの現在のスキル レベルと世界の状態に基づいて、適切な探索タスクを提案します。
たとえば、森ではなく砂漠にいる場合は、鉄の代わりに砂とサボテンを集める方法を学びます。レッスンは、「可能な限り多様なものを発見する」という目標に基づいて GPT-4 によって生成されます。
生涯にわたって学習できる初の LLM 主導の身体化知能として、ボイジャーの訓練プロセスとオランウータンの訓練プロセスの類似点は、私たちに多くのインスピレーションを与えてくれます。
参考文献: