AI-Agents関連のプロジェクトの紹介は数多くありますが、どのプロジェクトがAI-Agentsの方向性に属するかはわかる内容ですが、本質的に関連性はなく、均質なリストと紹介に問題があると思います。これは、さまざまな応用分野における AI エージェントの可能性と、特定のタイプの AI エージェント プロジェクトの生態学的位置を示しています。
スタンフォード大学と Google の研究者によって発表された論文「Generative Agents: Interactive Simulacra of Human Behavior」はすでに非常によく知られた AI エージェント プロジェクトであり、全体として、この研究では 25 人の AI エージェントをピクセル形式の小さな仮想空間に配置しています。 、インテリジェントエージェントは、人間の生活行動の模擬的な相互作用を実現でき、仮想都市の環境と相互作用することもでき、また仮想世界の外の人間と相互作用することもできます。 **
私たちが最も直観的に感じられるのは、生成エージェントがメタバースのネイティブのデジタル常駐者の役割として作成され、人間のメタバースの環境とのさまざまなインタラクションを生成するということです。実際、私たちは AI エージェントの高度に発達したデジタル仮想世界をシミュレートすることができ、人間はこの世界から AI エージェントのデジタル労働の結果を抽出することができます。
著者らは、エージェントのタスク実行中に、人間のフィードバックとループ内の評価観察を通じて、システムが高い評価に収束する速度を検討します。実際、これは、タスク要件に関して人間の当事者 A とコミュニケーションする際に、繰り返し最適化された改善戦略を達成するための特定のスキルを AI エージェントに提供するためです。
まず、AutoCorp はオリジナルのアイデアに基づいて T シャツ ブランドの初期アイデアを開発しました。次に、この最初のアイデアを使用して、会社のさまざまな資産とデフォルトのスタイル ガイドを生成しました。顧客がニーズを表明すると、オートコープはそのニーズに応じて計画を更新します。計画によって売上が減少した場合、オートコープは調整を行います。上記のプロセスは最初から最後まで実行されており、実際に広告 API とカスタム T シャツ API に接続して現実世界に展開できます。
AI エージェントを一種の AI チームとして設計するプロジェクトがますます増えます。NexusGPT の場合のように、エージェントを本番ロールとして定義することは難しくありません。開発者は各エージェントを設定できます。これは困難です。独占的なスキルを持つエージェントになること、そしてこれらのエージェントと協力してそれぞれのスキルを発揮し、タスク/プロジェクトの自動化を組み合わせて実行することは困難ですが、Project Atlas エージェントは自然言語ベースの自動化を模索しています。エージェント チームにとって優れたアプリケーション シナリオ。
これらすべてを考えると、自動化されたガバナンス ロジックに基づいた自動化されたタスク コラボレーション組織である DAO について考える必要があります。
エージェントが反復的な作業をどのように置き換えるか
AIが私たちの仕事を完全に代替する前に、現在の反復労働の大部分をエージェントが代替することが、ビジネス分野におけるエージェントの次の発展方向であり、LLMベースのエージェントが登場する前は、業界初のRPA(ロボット・プロセス・オートメーション)がソリューションを模索していますが、従来の RPA は敷居が高く、一般に普及することができませんでしたが、RPA は従来の IT インタラクション ロジックの自動化不足を補うものであり、現在のエージェントは自然言語で通信して RPA のニーズに応じた機能を実現できます。
「Automate your business using Natural Language」、自然言語を使用してビジネスを自動化する、これが Cheat Layere のブランド スローガンです。チート レイヤーは、カスタム トレーニングされた GPT-4 機械学習モデルを通じて、不可能なビジネス自動化の問題を解決し、各ユーザーの AI ソフトウェア エンジニアとして機能します。
GPT Researcher は GPT に基づく学術研究ツールですが、これは MIT ライセンスに基づく学術目的のオープンソース プロジェクトです。コンテンツ作成の観点から見ると、このオープンソースは高い商業的価値を持っています。たとえば、このオープンソース プロジェクトをビジネス分析レポートに適用すると、依然として大幅な時間を節約できます。第 2 に、このオープンソース プロジェクトを AI に変換します。徹底的なコンテンツライティング - エージェントはコンテンツメディア業界のパターンも完全に変えるでしょう。
プロジェクトアドレス:
AI エージェントのインフラストラクチャ エコロジー
明らかな未来は、将来の人間間の協力関係は、もはや人間と人間の間の協力関係ではなく、人間と AI エージェントの間の協力関係になり、誰もができるだけ多くの AI エージェントを持つようになるということです。できるだけ多くのタスクを処理し、大規模で複雑なインテリジェントなソーシャル コラボレーション構造を形成します。**
これは、論文「HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face」で構築された、LLM を介して巨大なモデル ライブラリを接続し、複数の分野、複数のモダリティの複雑なタスクを解決するソリューションであると感じました。実際には非常に巨大であり、人間の最高の知性を結集した初の AI モデル ライブラリは、エージェントの形でさまざまな業界の複雑な問題に対応するために使用されており、そのような未来を期待せずにはいられません。 **
**WebArena は、自律エージェントを構築するための自己完結型の自己ホスト型 Web 環境です。 **WebArena は、現実世界の対応物を模倣した機能とデータを備えた 4 つの人気のある Web サイトのカテゴリを作成します。
人間による問題解決をシミュレートするために、WebArena にはツールや知識リソースもスタンドアロン Web サイトとして埋め込まれています。 WebArena は、現実世界の高レベルの自然言語コマンドを具体的な Web ベースの対話に解釈するためのベンチマークを導入します。研究者らは、各タスクの機能の正しさをプログラム的に検証するための注釈付きプログラムを提供しました。
引用論文の概要:
「現在のエージェントは主に、単純化された合成環境で作成およびテストされており、現実世界のシナリオの表現が大幅に制限されています。この論文では、非常に現実的で再現性のあるエージェントのコマンド アンド コントロール環境を構築します。特に、次の点に焦点を当てました。エージェントは Web 上でタスクを実行し、電子商取引、ソーシャル フォーラムでのディスカッション、共同ソフトウェア開発、コンテンツ管理という 4 つの共通領域で完全に機能する Web サイトを含む環境を作成しました。当社の環境は、いくつかのツール (地図など) を含め、豊富で多様です。 ) と外部ナレッジ ベース (ユーザー マニュアルなど) を利用して、人間らしいタスク解決を促進します。
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
代表的な AI エージェント 10 人、インターネットはどう変わる / Web3 はどう変わるのか
出典: ヴィオン・ウィリアムズ
AI エージェントの革新的な可能性を探る
AI エージェントの合意と非合意
AI-Agents がますます注目を集める方向になった理由は、LLM が AI-Agents のアプリケーションに実現可能な技術的実装ルートを提供するという事実によるところが大きく、第 2 に、AI-Agents 関連のプロジェクトが数多く存在することです。 . ロックアップします。
LiLian Weng 氏は記事の中で LLM 駆動の AI エージェントとは何であるかを定義していますが?しかし、Deepmind は統一エージェントの概念も定義しようとしているので、AI エージェントの概念も、さまざまな AI 企業の理解により、さまざまな種類の差別化を形成すると信じています。
より明確な重要なコンセンサスは、一般的な問題の自動処理を実現するための LLM 駆動エージェントに基づいているということであり、この大規模な言語モデルの爆発サイクルで特定され、共通の理解を形成しているのは AI エージェントであるということです。
エージェントの相関関係から可能性を見つける
AIエージェントの応用レベルでは、現段階ではできる限り「関連性」の観点からAIエージェントを捉えるべきであり、試行錯誤を許容し、可能な形を革新していく必要がある。可能性**、一部の批評家のように狭い立場で標準化された答えを探してはなりません、お勧めできません。
たとえば、可能性としての Auto-GTP は、実際に多くのエージェント プロジェクトに影響を与えていますが、狭い批判によって新たな機会を獲得する機会が失われます。これは中国の開発者の間でよく見られる現象です。創造性のない開発者として、自然言語プログラミングの時代に従来の競争力にどうやって頼るでしょうか?
AI-Agents関連のプロジェクトの紹介は数多くありますが、どのプロジェクトがAI-Agentsの方向性に属するかはわかる内容ですが、本質的に関連性はなく、均質なリストと紹介に問題があると思います。これは、さまざまな応用分野における AI エージェントの可能性と、特定のタイプの AI エージェント プロジェクトの生態学的位置を示しています。
たとえば、私の紹介では、Auto-GPT、BabayAGI、および MetaGPT は、特定のパスの連続性があるため、私によって 1 つのタイプのエコロジーに分類されます。
エージェントのパズルで全体的な認知を構築する
以上、AIエージェントに関する代表的なプロジェクトの紹介では、「関連性」「生態的位置」「継続性」の視点を用いて、今後の展開がなんとなく分かるように代表的なプロジェクトを紹介してきました。 AIエージェントの動向。
以下の 10 の代表的な関連プロジェクトが表示されます (いくつかの関連参照プロジェクトも含まれます)。このケースをパズルとして使用して、比較的完全なマップをつなぎ合わせます。これにより、エージェントの可能性がインターネット上のすべてをどのように変えることができるかをより多くの人に明確に認識させるのに十分です。 . Web3 の状況を再構築することを含みます。
AI エージェントの 2 つの主要な将来方向
AI エージェントは、**自律エージェントと生成エージェントの 2 つの方向に大別できます。 **
自律エージェントは、自然言語要件の記述を通じて目標結果を達成するためにさまざまなタスクを自動的に実行する機能を表す Auto-GPT を例として取り上げます。この協力関係では、自律エージェントは人々にサービスを提供し、明確なツール属性を持ちます。
Generative Agents は、スタンフォード大学が公開した 25 人のインテリジェント エージェントの仮想都市を例に挙げています。Generative Agents は、人格に似た特性、自律的な意思決定能力、および長期記憶を備えた AI エージェントとして、次の概念に傾いています。この協力的な関係において、エージェントは人々にサービスを提供するためのツールだけではなく、デジタルネイティブな社会的関係を持ちます。
自動 GPT
Auto-GPT の最も有名なオープンソース プロジェクトの 1 つで、GitHub での紹介は非常にシンプルです。「GPT-4 を完全に自律化するための実験的なオープンソースの試み」、GPT-4 を完全に自律化するための実験的なオープンソースの試み自律的。
簡単に要約すると、Auto-GTP は 1 文のタスク要件を通じて最終的なタスクの結果を完全に自動化できるということです。Auto-GPT が独立してタスクを完了できる機能の中心となるロジックは、タスク Carry を介した言語モデルのタスク計画能力にあります。タスクの実行手順を段階的に分解・分析し、自動的に改善する過程で、インターネット上の検索結果が言語モデルにフィードバックされ、タスクがさらに分解されて実行されます。
よく使われる言葉を比喩として使用すると、**Auto-GPT は、人間が即座に言葉を発する必要なく、「自問自答」のプロセスでタスクを完了しました。 **
プロジェクトアドレス:
**BabyAGI は、以前のタスクの結果と事前に設定された目標に基づいて、新しいタスクを自動的に作成、並べ替え、実行できます。 **自然言語処理テクノロジーを使用して、目標に基づいて新しいタスクを作成し、必要なときに関連情報を見つけられるようにタスクの結果をデータベースに保存します。
BabyAGI は実際には、無限ループを実行して次の手順を実行する Python スクリプトです。
Auto-GPT と BabyAGI は理論的には、現在の LLM 発生の初期段階に相当します。LLM に基づく AGI の探求と、LLM によって駆動される汎用タスク解決プロセッサは、AI 分野における聖杯だと思います。これからのエージェント。
生成エージェント
スタンフォード大学と Google の研究者によって発表された論文「Generative Agents: Interactive Simulacra of Human Behavior」はすでに非常によく知られた AI エージェント プロジェクトであり、全体として、この研究では 25 人の AI エージェントをピクセル形式の小さな仮想空間に配置しています。 、インテリジェントエージェントは、人間の生活行動の模擬的な相互作用を実現でき、仮想都市の環境と相互作用することもでき、また仮想世界の外の人間と相互作用することもできます。 **
この文書には、最も注目すべき 2 つの重要なソリューションが含まれています。
1、生成エージェントのアーキテクチャ
2、メモリフロー
上記の 2 つの主要な要素に基づいて、生成エージェントの全体的な動作は、実際には [記憶と検索] [反映] [計画と応答] の 3 つの部分に分割されます。詳細については、原論文の内容を参照してください。 。
この論文とこの実験は、LLM に基づいて形成されたエージェントによって生成されたインタラクティブな動作が、デジタル環境における人間のインタラクションの動作をシミュレートするのに信頼できることを検証しました。生成エージェントは多くのデジタル環境で役割を果たすことができ、特に生成されたエージェントは、人間エージェントと人間の間に形成される人間とコンピューターの相互作用関係。
私たちが最も直観的に感じられるのは、生成エージェントがメタバースのネイティブのデジタル常駐者の役割として作成され、人間のメタバースの環境とのさまざまなインタラクションを生成するということです。実際、私たちは AI エージェントの高度に発達したデジタル仮想世界をシミュレートすることができ、人間はこの世界から AI エージェントのデジタル労働の結果を抽出することができます。
エージェントが働くパートナーになる方法
今回は、Agent が「エージェント」と訳されることが多いため、エージェントは仲介者の役割概念と結びつきやすく、多くの人にとってエージェントの場面適用の関連付けを直感的に確立することが困難になります。この 3 つのケースはそれぞれこれは、エージェントが雇用可能な「人間の専門家」になる方法、人間の参加をまったく必要としない自動化されたマーケティング会社になる方法、およびエージェントが互いに協力するチームを形成する方法を示しています。
次の例では、NexusGPT を使用して複数の専門スタッフを作成し、GPTeam を使用して人間が雇ったチームを形成できます。この AI チームは AutoCorp などの完全に自動化された企業で働いています。これらのパズルのピースを組み合わせると、未来が来たことを直感的に感じることができます。
NexusGPT
これは、独立した開発者 Assem によって作られた、いわゆる世界初の AI フリーランス プラットフォームです。NexusGPT は、LangChainAI フレームワークに基づいており、GPT-3.5 API と Chroma (AI ネイティブのオープンソース組み込みデータベース) を使用し、NexuseGPT プラットフォーム上で特定のスキルを持つ 800 人の AI エージェント。
しかし、これらはすべて OpenAI と LangchainAI の関数呼び出しのサポートに依存しています。
NexusGPT は、人間がエージェントを雇用するための将来のビジネス モデルを表しています。このプロジェクトには、エージェントとエキスパート モジュール (エキスパート システムとエキスパート モデル) の組み合わせなど、実際には多くの改善の余地があります。エージェントを雇用するための当事者 A の価格設定方法は次のとおりです。消費量などのトークン計算に基づくこれらは、従来の労働市場の雇用方法を変え、DAO の協力方法も変えることになります。
オートコープ
AutoCorpmina fahmi とそのチームがニューヨーク GPT/LLM ハッカソン中に 5 時間で作成しました。 AutoCorp は完全に独立したブランド マーケティング会社です。T シャツを直接販売する会社のブランド広告と製品デザインを AutoCorp が自動的に作成します。顧客が新たな消費者ニーズを提起すると、AutoCorp はテーマを更新し、新しいデザイン資産を生成します。継続的な自己反復より良いビジネスの方向に向けて。
この段落はミナ・ファーミ氏のツイッターからの引用ですが、AutoCorp もミナ・ファーミ氏とそのチームによってニューヨークでの GPT/LLM ハカソン中に 5 時間で作成されました。AutoCorp を作成した目的は、「自律性」の概念を社会に広めることでもあります。極端な。
実際、AutoCorp と DAO の目的は非常に一貫しています ** 分散型組織の最終目標が「人的」要素を排除することである場合、運用業務を完全に自動化することは、実際には DAO の概念の合理的な発展の魅力となります。 **AutoCorp は実際、DAO の将来の事業開発の方向性を代表しています。
GPチーム
GPTeam は、オープンソースのマルチエージェント シミュレーション システムです。 GPTeam は GPT-4 を利用して、事前定義された目標を達成するために協力する複数のエージェントを作成します。このプロジェクトの主な目標は、マルチエージェントの生産性と効果的なコミュニケーションの向上における GPT モデルの可能性を探ることです。
プロジェクトアドレス:
実際、ユーザー向けにカスタマイズされたマイクロサービスを作成する自動開発チームである Dev-GPT など、GPTeam のようなオープンソース プロジェクトがまだ数多くあります。チームは、プロダクト マネージャー、開発者、開発運用保守の 3 つの仮想的な役割で構成されています。Dev-GPT の技術的思想は、主に効果的なタスク戦略を特定してテストすることです。10 回連続で失敗すると、スイッチが切り替わります。次の方法へ。
これらすべてを考えると、自動化されたガバナンス ロジックに基づいた自動化されたタスク コラボレーション組織である DAO について考える必要があります。
エージェントが反復的な作業をどのように置き換えるか
AIが私たちの仕事を完全に代替する前に、現在の反復労働の大部分をエージェントが代替することが、ビジネス分野におけるエージェントの次の発展方向であり、LLMベースのエージェントが登場する前は、業界初のRPA(ロボット・プロセス・オートメーション)がソリューションを模索していますが、従来の RPA は敷居が高く、一般に普及することができませんでしたが、RPA は従来の IT インタラクション ロジックの自動化不足を補うものであり、現在のエージェントは自然言語で通信して RPA のニーズに応じた機能を実現できます。
次の 2 つのプロジェクトは、LLM ベースのエージェントが、日常の仕事や学術研究における反復労働からどのように解放されるかを示しています。 (実際、これら 2 つのプロジェクトの可能性はそれ以上です)
チートレイヤー
「Automate your business using Natural Language」、自然言語を使用してビジネスを自動化する、これが Cheat Layere のブランド スローガンです。チート レイヤーは、カスタム トレーニングされた GPT-4 機械学習モデルを通じて、不可能なビジネス自動化の問題を解決し、各ユーザーの AI ソフトウェア エンジニアとして機能します。
Cheat Layerは、Google Chromeのプラグインモードと自然言語を利用してWebページ全体の操作を自動化するもので、例えばWebページ上の日常的な操作のほとんどを実際に自動操作することができます。 Cheat Layer は、RPA、つまりロボットによるプロセス自動化を容易に思い出させます。エージェントと RPA の関係については多くの議論がなされてきましたが、従来の RPA がエージェントによって排除されてきたことは議論の余地のない事実です。
Cheat Layer を通じて自然言語を使用してビジネス プロセスの自動化を設定し、Project Atlas エージェントを使用してさまざまな自動化プロセスを管理します。一般的に、自然言語モードを使用して、特定のビジネスの自動実行を管理するエージェントを作成できます。ビジネスが複雑になった場合は、エージェントを繰り返し改善できます。
GPT 研究者
GPT Researcher は、特定のトピックについてオンラインで包括的な調査を実行できる GPT ベースの自律エージェントです。 Github でのプロジェクトの紹介は次のとおりです。
「このエージェントは、関連するリソース、概要、教訓に焦点を当てるためのカスタマイズ オプションを備えた、詳細で客観的かつ公平な調査レポートを生成できます。AutoGPT と最近の Plan-and-Solve 論文に触発され、GPT Researcher は速度と決定論的な問題を解決します、同期操作ではなくエージェントの作業を並列化することで、より安定したパフォーマンスと高速な速度を実現します。
GPT Researcher のアーキテクチャは、主に 2 つのエージェントを実行することによって実行されます。1 つは「プランナー」、もう 1 つは「実行者」です。 プランナーは調査の質問を生成する責任を負い、実行者は調査に基づいて作業を行います。プランナーによって生成された質問 関連情報を検索し、最後にプランナーを通じてすべての関連情報をフィルタリングして要約し、調査レポートを生成します。
特定のタスクについて客観的な意見を形成する一連のリサーチ質問を生成します。
研究の質問ごとに、クローラー エージェントをトリガーして、オンライン リソースから特定のタスクに関連する情報を収集します。
クロールされたリソースごとに、関連情報に基づいて要約し、そのソースを追跡します。
最後に、すべての要約されたリソースが選別および集約され、最終的な調査レポートが生成されます。
このプロジェクトの特徴
調査、概要、リソース、教訓レポートを生成する
各研究は 20 以上のインターネット情報源を集約して、客観的かつ事実に基づいた結論を導き出します。
使いやすい Web インターフェイス (HTML/CSS/JS) が含まれています
Java 対応の Web スクレイピング
アクセスおよび使用された Web ソースに関するコンテキスト情報をログに記録し、追跡します。
調査レポートを PDF などの形式にエクスポートします...
GPT Researcher は GPT に基づく学術研究ツールですが、これは MIT ライセンスに基づく学術目的のオープンソース プロジェクトです。コンテンツ作成の観点から見ると、このオープンソースは高い商業的価値を持っています。たとえば、このオープンソース プロジェクトをビジネス分析レポートに適用すると、依然として大幅な時間を節約できます。第 2 に、このオープンソース プロジェクトを AI に変換します。徹底的なコンテンツライティング - エージェントはコンテンツメディア業界のパターンも完全に変えるでしょう。
プロジェクトアドレス:
AI エージェントのインフラストラクチャ エコロジー
明らかな未来は、将来の人間間の協力関係は、もはや人間と人間の間の協力関係ではなく、人間と AI エージェントの間の協力関係になり、誰もができるだけ多くの AI エージェントを持つようになるということです。できるだけ多くのタスクを処理し、大規模で複雑なインテリジェントなソーシャル コラボレーション構造を形成します。**
人間とエージェントの協力関係は、これまでの社会科学理論における人間とツールの協力理論とは異なり、重要なのは、エージェントが人間に似た知性の一種として、一定の独立した意思決定能力と人間の信頼を持っているということです。エージェントも重要な問題となっています。エージェントの自己認識は言うまでもなく、人間の代わりに意思決定を行う際の社会的相互作用行動に対するエージェントの影響も重要です。
上記の 2 つの命題の考察に基づいて、人間は独自の AI エージェントを効率的かつ便利に作成することが可能であると同時に、人間自身のエージェントにより強力な機能を持たせることが可能であることを認識する必要があります。サポートを提供するには、優れたインフラストラクチャが不可欠です。以下の 3 つのプロジェクトの導入は、将来の AI-Agents インフラストラクチャの構築の方向性を示していると思います。
ラングチェーン
LangChain は、言語モデルベースのアプリケーション開発フレームワークです。以下の機能を実現できます
データ認識: 言語モデルを他のデータ ソースに接続する
エージェント: 言語モデルがその環境と対話できるようにします。
LangChain の主な価値は次のとおりです。
コンポーネント: 言語モデルを操作するための抽象化を提供し、各抽象化の一連の実装を提供します。これらのコンポーネントはモジュール式であり、LangChain フレームワークの残りの部分を使用するかどうかに関係なく、簡単に使用できます。
既製のチェーン: 特定の高レベルのタスクを実装するための構造化されたコンポーネントのセット。
既製のチェーンを使用すると、簡単にすぐに始めることができます。より複雑なアプリケーションや詳細なユースケースの場合、コンポーネントを使用すると、既存のチェーンをカスタマイズしたり、新しいチェーンを構築したりすることが簡単になります。
langchain は、次のモジュールを提供することで、標準の拡張可能なインターフェイスと外部統合を提供します
モデル I/O モデルの入出力: 言語モデルとのインターフェイス対話
データ接続 データ接続: 特定のアプリケーションのデータとのインターフェイスの対話
チェーンチェーン: 呼び出しシーケンスを構築
*エージェント: チェーンに、高レベルの指示に基づいて使用するツールを選択させます。 *
*メモリ: チェーンの実行の間にアプリケーションの状態を保存します。 *
*コールバック コールバック: チェーンの中間ステップを記録してストリーミングします。 *
英語コミュニティでは Langchain の開発者エコロジーが比較的活発なため、Langchain を使用した Agent アプリケーション開発の事例が比較的多く、Agent のフレームワークを定義し、ゼロコード開発フレームワークを提供することは今後のトレンドです。
特定のフレームワークシステムに基づいて、エージェントの製造はレゴブロックを組み立てるようなもので、Web3 のモジュール化とは異なり、エージェントのモジュールは既製である必要はなく、一般の人でも自然言語プログラミングを通じて特定のコンポーネントを開発できます。 . エージェントのフレームワークに追加されました。
たとえば、ラングチェーン フレームワークを使用してチャットボットを開発し、自然言語プログラミングによって口調変換コンポーネントを開発し、チャットボットに追加することで、元のデフォルトの会話トーンをユーザー自身の好みに合った会話トーンに変更することができます。
langchain が私たちに与えてくれた啓発は、コードフリープログラミングのためのエージェント開発フレームワーク + 自然言語プログラミングのためのコンポーネントモジュールが、エージェントの普及のために必要な開発ツールである可能性があるということです。
変圧器エージェント
Transformer Agents は Hangging Face によって立ち上げられた AI-Agents システムであり、現状の機能はあまり良くありませんが、注目すべき重要な理由は、HuggingFace が巨大なモデル ライブラリのオープンソース コミュニティであることです。
Transformer Agents は実際には Transformer フレームワークに基づいており、自然言語ベースの API を追加しています。huggingface は一連のツールを定義し、自然言語を解釈してこれらのツールを使用するエージェントを設計します。最も重要なのは、このシステムが拡張可能な設計であることです。
つまり、Transformer Agent は、初期段階で、このシステムの実現可能性を検証するために、十分に準備された少数のプロキシ ツールを使用しました。その後、拡張性により、Transformer Agent は、huggingface の巨大なモデル ツール ライブラリを自由に使用できるようになります。
もちろん、このビジョンを実現することは興奮していますが、現段階では、巨大な金鉱を含むこの生態系への開発者の流入に対応するための優れたエージェント フレームワークを Transformer Agents が提案できることを私はまだ楽しみにしています。 HuggingFace は独自の開発戦略を調整した可能性があります。
ウェブアリーナ
**WebArena は、自律エージェントを構築するための自己完結型の自己ホスト型 Web 環境です。 **WebArena は、現実世界の対応物を模倣した機能とデータを備えた 4 つの人気のある Web サイトのカテゴリを作成します。
人間による問題解決をシミュレートするために、WebArena にはツールや知識リソースもスタンドアロン Web サイトとして埋め込まれています。 WebArena は、現実世界の高レベルの自然言語コマンドを具体的な Web ベースの対話に解釈するためのベンチマークを導入します。研究者らは、各タスクの機能の正しさをプログラム的に検証するための注釈付きプログラムを提供しました。
引用論文の概要:
「現在のエージェントは主に、単純化された合成環境で作成およびテストされており、現実世界のシナリオの表現が大幅に制限されています。この論文では、非常に現実的で再現性のあるエージェントのコマンド アンド コントロール環境を構築します。特に、次の点に焦点を当てました。エージェントは Web 上でタスクを実行し、電子商取引、ソーシャル フォーラムでのディスカッション、共同ソフトウェア開発、コンテンツ管理という 4 つの共通領域で完全に機能する Web サイトを含む環境を作成しました。当社の環境は、いくつかのツール (地図など) を含め、豊富で多様です。 ) と外部ナレッジ ベース (ユーザー マニュアルなど) を利用して、人間らしいタスク解決を促進します。
私たちの環境に基づいて、タスク完了の機能的正確性の評価に焦点を当てた一連のベンチマーク タスクを公開します。私たちのベンチマークのタスクは多岐にわたり、長期間にわたっており、インターネット上で人間によって頻繁に実行されるタスクをシミュレートするように設計されています。私たちは、行動する前に考えるなどの最先端の技術を統合して、いくつかの自律エージェントを設計および実装します。
結果は、複雑なタスクを解決するのが困難であることを示しています。当社の最高の GPT-4 ベースのエージェントは、エンドツーエンドのタスク成功率 10.59% しか達成していません。これらの結果は、強力なエージェントのさらなる開発の必要性を浮き彫りにしており、現在の最先端の言語モデルはこれらの現実世界のタスクでは完璧には程遠いが、WebArena を使用してそのような進歩を測定できる可能性があります。 」
論文アドレス:
これはカーネギー メロン大学の AI 研究者の学術研究結果です。実際、WebArena は、現在よく知られているラングチェーン開発アーキテクチャ、またはさまざまなエージェント チーム関連プロジェクトを補完します。エージェント シミュレーション テスト プラットフォームが必要です。堅牢性と信頼性を確保するために使用されます。エージェントの有効性。
このプラットフォームの主な機能は、さまざまなエージェント プロジェクトの実現可能性をテストすることです。私が想像できるシナリオの 1 つは、将来特定のプラットフォームでエージェントを雇用するときに、WebArena のようなプラットフォームを通じてエージェントを使用して、エージェントの実際の作業能力は、人間が AI エージェントの価格決定について発言する権利があることも意味します。
**AI エージェントはすべてにどのような影響を及ぼしますか? **
エージェントベースの自動コラボレーション ネットワーク
上記の十数のプロジェクトの紹介と分析を通じて、これらのさまざまなプロジェクトはジグソーパズルのピースのようなものであり、エージェントについての相対的な全体的な理解を構成しています。実際、エージェントは LLM の可能性を真に引き出す方向であり、LLM はLLM 主導のエージェントの機能的多様性に基づいて、エージェントは生物爆発のようになり、人間とエージェントはデジタル コンパニオン/共生発展関係になります。
人間社会の協働ネットワークも、エージェントの大規模適用により、人間とエージェントとの間に自動化された協働ネットワークが形成され、人間社会の生産構造が高度化され、社会のあらゆる側面に影響と変化がもたらされます。
インターネット上のすべてを変える
AIエージェントは、インターネット上での情報の取得、情報の処理、情報の生成、情報の利用方法を完全に変え、インターネットに依存した現在のビジネスモデルを変えました。タスクはインターネットです。エージェントは、私たちが対話して実行するインテリジェントな媒体です。
Web3 向けに物語を再構築
暗号化通貨ネットワークはエージェントの自然通貨ネットワークとなり、AI とエージェントのコラボレーション ネットワーク全体によって消費されるコンピューティング リソースにより、トークンは重要な AI 経済リソースとなり、Web3 に代表される個人データの所有権も新たな人間とコンピューターの関係に直面することになります。相互作用関係 その中には、人間とAIエージェントがデータ財産権を共有するというまったく新しい提案があります。独立した所有権を持つエージェント(AI を解放する急進的な動き)、AI エージェントによって完全に自動化された DAO、および超個人の出現により、ネットワーク データの所有権と効果的なコンピューティング リソースのほとんどが独占されます。
Web3 の波の下でのデータ肯定運動は、すべての人のデータ所有権を取り戻しました。実際、ほとんどの人が必ずしも高価値のデータ リソースを持っているわけではありません。データ所有権の返還は Web3 の物語主義の政治的訴えとなっていますが、それは AGI を無視しています生産構造は不平等です。AI エージェントが表すのは、AI が非常に生産性が高い一方で、人間とコンピューターの相互作用と自動コラボレーションという新しい生産関係も構築しており、そのため Web3 の物語ロジックを再構築する必要があるということです。 ;
メタバースの構築を加速します
生成エージェントの開発と進化から、デジタルネイティブのデジタル居住者を探索し、ネイティブデジタルヒューマン(人格特性と自律意識を備えたAIエージェント)のメタバース環境で一連の社会活動を構築することで、実際にメタバースが加速しています。宇宙はデジタル空間から、社会的な機能と形態を備えたデジタル領域へと進化しました。コンピューティング空間の概念により、エージェントはデジタル複合開発空間を取得できるようになり、それによってデジタル環境におけるエージェントの身体化された知性の出現が加速されます。
メタバースの構築はもはや人間の仕事ではなく、AI-Agent の居住空間として継続的に自己拡張する仕事です。
単一のテクノロジーの物語の誘拐に注意してください
実際、近年、さまざまなテクノロジーのホットスポットが次々と出現し、人類はメタバース、Web3、AGIという3つの物語が次々と出現し、技術革新が頻発する時代に入ったかに見えます。市場のほとんどの人々がプロジェクトベースの思考を重視しているという事実により、プロジェクト自体の位置付けは、Web3 や AI などの特定のカテゴリに簡単に帰属することができます。 . テクノロジーを無視して、尻が頭を決めるのはここだ 歴史の発展の客観的法則。
**科学技術の発展は決して細分化されたことはなく、弁証法的統一のもとで学際的な統合に向かって進んできた。 **たとえば、Web3 の NFT の物語性はメタバースの物語性と自然に一致しています。Web3 の初期には、この 2 つは一部の人々によって意図的に反対されていました。これらは非常に狭い視点です。同じことが今日の AGI の物語にも当てはまります。Web3 実践者は AI ツールしか知りませんが、AGI の物語ロジックについては深く考えていません。AI と Web3 の間に認知的な抵抗を意図的に作り出します。たとえば、多くの Web3 担当者の DAO に対する理解は次のとおりです。原文 DAO に対する AGI の影響を立ち止まって再考する勇気を持つ人はほとんどいません。
Web3、メタバース、AGI は関連性の高い 3 つの方向性であり、従来の主流テクノロジー メディア組織や投資機関は、将来のテクノロジーの物語のための新しいパラダイム コンセプトをまだ確立しておらず、市場に影響を与えるために古い物語のパラダイムを使用してきました。この方向のテクノロジー専門家は分散しており、彼らのアイデアは十分にオープンではありません。将来的に新しい技術の物語が出現し続ける可能性を排除するわけではありませんが、技術の物語の古いパラダイムが採用され続ければ、科学的および技術的才能のリソースは何度も分割され、分散されるだけです。テクノロジーの認識力は目に見えないものの無駄な資源です。
中国のテクノロジー業界全体が現在直面している重要な問題は、テクノロジーとは何か?ということです。新しい物語のパラダイムや、次のテクノロジーの波にうまく対処するための新しい物語の概念が不足しています。私たちは常にプロジェクトに夢中ですが、科学技術の力を凝縮できるような物語が不足しており、Web3、メタバース、AGI という 3 つの主要な物語も中国発祥ではありません。
「百の花が咲き、百の思想が科学技術の物語で争う時代の到来を心から楽しみにしています。私たちは、技術の物語についての新たな理解を早急に形成する必要があります。そうすれば、私たちは発展と発展のための正しい道筋を見つけることができます」技術エコシステム全体における当社の持続可能な開発の位置を決定します。
もちろん、訴えるだけではダメで、誰かがやらないといけないから、まずは私がやる、という単一技術のナラティブ思考をずっと耐えてきました!