清華チーム主導で、初の AI エージェントの体系的なベンチマークテストが実施

2023-08-09 02:18:36

AI エージェント、つまり自律型インテリジェントエージェントは、『ジャービス』などの SF 映画に登場する人間のスーパーアシスタントであるだけでなく、現実世界の AI 分野における研究のホットスポットでもあります。特に GPT-4 に代表される AI 大型モデルの出現により、AI エージェントの概念がテクノロジーの最前線に押し上げられました。

以前人気だったスタンフォードの「仮想タウン」では、25人のAIエージェントが仮想タウンで自由に成長してバレンタインデーパーティーを開催、NVIDIAなどが提案する具現化エージェントモデルのボイジャーも「My World」で学び、さまざまなサバイバルスキルが独自のものを生み出したさらに、独立してタスクを完了できる AutoGPT、BabyAGI、および AgentGPT も、一般の人々の間で幅広い関心を呼び起こし、白熱した議論を引き起こしています。

元 Tesla AI ディレクターで OpenAI に復帰した Andrej Karpathy でさえ、開発者イベントで、AI エージェントの新しい論文が発表されるたびに、OpenAI は非常に興味を持ち、真剣に議論するだろうと明らかにしました**。

現在の AI エージェントの研究は非常に活発ですが、現在、AI 業界には、エージェントとしての LLM の知能レベルを評価するための体系的かつ標準化されたベンチマークがありません。

この目的を達成するために、清華大学、オハイオ州立大学、およびカリフォルニア大学バークレー校の研究チームは、さまざまな現実世界の課題やパフォーマンス (たとえば、推論と意思決定のスキル）を 8 つの異なる環境で学びます。

結果は、GPT-4 などのトップ商用言語モデルが複雑な環境でも良好に動作し、オープンソースモデル間で大きな利点があることを示しています。この目的を達成するために、研究チームは、オープンソースLLMの学習能力を向上させるさらなる努力が必要であると示唆しています。

「AgentBench: uating LLMs as Agents」というタイトルの関連研究論文が、プレプリント Web サイト arXiv で公開されました。さらに、関連するデータセット、環境、統合評価パッケージも GitHub で公開されています。

最初の体系的なベンチマーク

これまでの研究と実践では、言語主体の評価にテキストベースのゲーム環境が使用されてきました。ただし、それらは閉じた個別のアクション空間によって制限されることが多く、主にモデルの常識に基づく機能に重点が置かれています。

身体化エージェントに関する最近のいくつかの試みでは、ゲーム、グラフィカルユーザーインターフェイス (GUI)、屋内シーンに基づいた複雑なマルチモーダルシミュレーターが採用されています。ただし、これらのシミュレーターは複雑であるにもかかわらず、実際のユースケースでの LLM の使用法を正確に反映することができず、そのマルチモーダルな性質もプレーンテキスト LLM の迅速な評価に障害をもたらします。

さらに、ほとんどのエージェントベンチマークは単一の環境に焦点を当てているため、さまざまなアプリケーションシナリオにおける LLM の包括的な概要を提供する能力が制限されています。

この研究で研究チームは、オペレーティングシステム(OS)、データベース(DB)、ナレッジグラフ(KG)、カードゲーム(DCG)、シナリオ推測(LTP)、家庭用家具(Alfworld)、オンラインショッピング(WebShop)に取り組みました。 ** 25 の異なる言語モデル (API ベースのモデルとオープンソースモデルの両方) が、8 つの異なる環境タスクで AgentBench を使用して包括的に評価されました。

テスト結果では、GPT-4 のような最先端のモデルは現実世界のさまざまなタスクを処理できる一方で、ほとんどのオープンソース LLM のパフォーマンスは、AgentBench の API ベースの LLM よりもはるかに悪いことが示されています。オープンソースモデルの openchat-13b-v3.2 と gpt-3.5-turbo の間にも、パフォーマンスに大きな差があります。

広範な調整トレーニングを通じて、LLM は質問応答、自然言語推論、テキスト要約などの従来の NLP タスクを習得できるだけでなく、人間の意図を理解して指示を実行する能力も実証できますが、アクションの有効性などの AgentBench タスクではあまりパフォーマンスが良くありません。、長いコンテキスト、マルチラウンドの一貫性、コードトレーニングなど）のパフォーマンスが比較的遅れています。

研究チームによると、より厳密で体系的な評価を実施し、そのような評価を容易にする強力なオープンソースツールを提供するには、将来さらに多くの作業が必要です。これには、AgentBench をより包括的かつ包括的なものにするために継続的に改善することが含まれます。 LLM等のより体系的な評価制度の確立

「自律型」AI エージェントを求める競争がシリコンバレーを席巻しています

AI ビッグモデルの継続的な進化は、新しいアシスタントの誕生につながりました。「自律型」AI エージェントをめぐる競争は現在、シリコンバレーで熱狂を煽っている。個人の開発者だけでなく、マイクロソフトやグーグルの親会社アルファベットなどの巨大企業や多くの新興企業も積極的に参加している。

スタートアップのInflection AIを例に挙げると、同社の共同創設者リード・ホフマン氏とムスタファ・スレイマン氏はポッドキャストで、メンターとして機能し、フライトクレジットやホテルの手配などのタスクを処理できるパーソナルアシスタントを開発していると述べた。

MultiOn 社の開発者 Div Garg 氏は、目標は仮想アシスタント「ジャービス」のようなパーソナル AI フレンドに開発することであると述べました。彼らは、このプロキシが個々のサービスに接続できるようにしたいと考えています。

General Intelligent の CEO、Kanjun Qiu 氏は次のように述べています。「人間にとって簡単なことでも、コンピュータにとっては依然として非常に難しい。たとえば、上司と重要な顧客のグループとの会議をスケジュールするなど。これには、全員の好みへのアクセス、問題解決など、非常に複雑な推論能力が必要である。対立する一方で、クライアントと仕事をする際には微妙な違いも生まれます。」

Qiu 氏と他の 4 人の代理店開発者は、コーディングやマーケティングなどの分野に焦点を当て、ある程度の自律性を備えて複数ステップのタスクを確実に実行できる最初のシステムが 1 年以内に利用可能になるだろうと予測しています。

Microsoftの最高経営責任者（CEO）サティア・ナデラ氏はかつてフィナンシャル・タイムズ紙のインタビューで、「MicrosoftのCortana、AmazonのAlexa、Google Assistant、AppleのSiriのいずれであっても、それらは当初の期待に応えるほど賢くない」と語った。

**既存の懸念は別として、AI エージェントは大きな可能性と市場を示しています。 **歴史上の多くのイノベーションと同様に、探索と応用の過程でいくつかの課題に直面することもありますが、時間が経つにつれて、これらの AI エージェントが継続的な最適化と改善を通じて人間社会にプラスのプラスの利益をもたらすのを目撃することが期待されています。深い影響力。

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。