シリコンバレーの大物たちが話題にしているAIエージェントは本当に話題になっているのでしょうか？

Question

著者｜李漢朱岳編集｜栗出典：Jiazi Guangnian![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-6871add7c5-dd1a6f-7649e1) *画像の出典: Unbounded AI ツールによって生成*ChatGPT の大成功を受けて、OpenAI はすでに次の目標である AI エージェント (知能体) に移行しています。「論文が別のトレーニング方法を提案すると、OpenAI は社内でそれをすべて私たちがやり残したものだと考えて嘲笑するでしょう。しかし、新しい AI エージェントの論文が発表されたら、私たちはそれについて非常に真剣に、そして興奮して議論するでしょう。** 一般人、起業家そしてオタクは、AI エージェントの構築に関して OpenAI のような企業よりも有利です**」と OpenAI の共同創設者で TeslaAI の元ディレクターである Andrej Karpathy 氏は述べています。カルパシー氏の公開演説は、AI エージェントに大きな熱意を与えました。しかし彼の判断は排他的ではない。AutoGPT は 3 月の時点で GitHub で 74,000 個のスターを獲得し、すぐに史上最速でスターの数が増加するオープン ソース プロジェクトとなりました。その後リリースされた BabyAGI と AgentGPT はキノコのように成長し、ピザの注文、メールボックスの整理、ブログを書いたり、バレンタインデーのパーティーを開いたり...AIエージェントは人々の生活のさまざまな場面に登場し、そのブームはシリコンバレーから急速に広がっています。自律的に実行・運用するAIエージェントは、「社会を変える生産性ツール」として技術者から大きな期待を寄せられています。 「汎用人工知能（AGI）時代の始まり」と捉える人もいる。しかし、声は既存の問題を隠すことはできません。「大規模なモデルはAIエージェントの前提条件です。十分に優れたハードウェア基盤がなければ、AIエージェントを開発できません。」とZhenFundのマネージングパートナーであるDai Yusen氏は「Jiazi Guangnian」に語った。厳密に言うと、市場に「認定された」大規模なモデル ベースを持っているのは ChatGPT だけです。モデルの計算能力による制限により、中国では AI エージェントを開発する土壌がまだ不足しています。未来は明るいですが、現実は残酷です。テクノロジーの研究開発とベンチャーキャピタルはすべて活発です。大型モデルの波が押し寄せるAIエージェントの配当時期が本当にいつ来るのかは誰にもわかりません。しかし確かなことは、変化が静かに始まっているということだ。## **1.AI エージェント: 作業を支援する「デジタル アシスタント」**AI エージェントを ChatGPT のアップグレード バージョンとして扱うよりも、人間の「デジタル アシスタント」とみなす方が適切です。「やり方」を教えるだけでなく、「やり方」も教えてくれます。 AI エージェントは、人間に代わって GPT などの大規模言語モデル (LLM) と繰り返し対話する媒体として、目標が与えられる限り、インテリジェントな動作をシミュレートし、自律的にタスクを作成し、タスク リストの優先順位を再決定し、最初のタスクを実行し、目標が達成されるまでループします。**従来の人工知能とは異なり、AI** エージェントは人間の制御なしで独立して動作できます。 **API にアクセスすることで、AI エージェントは Web の閲覧、アプリケーションの使用、ファイルの読み書き、クレジット カードでの支払いなどを行うこともできます。**簡単に言うと、目標を与えるだけで済み、AI** **残りの部分はすべてエージェントが実行できます。たとえば、HyperWrite が開発した AI エージェントは、Chrome ブラウザの制御プログラムを通じて自動的にピザを注文できます。 **![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-0dde3def20-dd1a6f-7649e1) 出典: HyperWrite CEO Matt Shumer Twitter アカウントこの種の想像力を SF 映画に取り入れるのは難しいことではありませんが、人工知能の探求の過程では、それは半世紀近く続いてきました。1980 年代にはすでに、コンピューター科学者は人間のように対話できるインテリジェントなソフトウェアを開発する方法を模索し始めました。ただし、データとコンピューティング能力の制限により、AI エージェントには必要な現実的な条件が不足しています。スタンフォード大学のコンピューターサイエンス博士であるジュン・パーク氏はかつてインタビューで次のように語った。 「LLM と... だからこそ、私たちはそのビジョンを忘れていました。しかし、LLM が登場したとき、チャンスがあることに気づきました。」大きな言語モデルは、AI エージェントの中核となる頭脳です。複雑なタスクを分解することで、複雑なユーザー要件を達成可能なタスク方法に分解できます。一方で、大規模モデルのトレーニングはインターネットに基づいて構築され、信頼できる AI エージェントを構築するための重要な要素を構成する大量の人間の行動データが含まれています。一方で、大きな知識能力を備えた大規模モデルは、優れた文脈学習能力と推論能力を備えて出現します。モデルの継続的な思考と意思決定を実現するための思考チェーンを確立することで、AI エージェントは複雑な問題を分析し、それらをシンプルで詳細なサブタスクに分解できます。同時に、LLM が言語を媒体として使用することで、フロントエンドの対話形式も変化しました。 BV Baidu Ventures の AI アプリケーショントラック責任者で投資担当副社長の Wen Yongteng 氏は、「Jiazi Guangnian」に次のように語りました。「BV Baidu Ventures は、非常に早くから AI エージェントの開発に注目し始めました。調査と判断を通じて、私たちはオリジナルのグラフィカル ユーザー インターフェイス (GUI) は言語ユーザー インターフェイス (LanguageUI) に変換することが可能であり、AI エージェントのフロントエンド アプリケーションは人間と対話する可能性のあるすべてのフロントエンド フォームに存在すると考えられます。」それは単なる解体作業であり、決してスマートとは言えません。 **LLM によって駆動される AI** **エージェントは 3 つの主要なコンポーネントなしでは機能しません。*** **計画: **大規模なタスクを、より小さく管理可能なサブ目標に分解します。反省と改良を実施し、過去の行動を分析、要約、改良して、知性と適応性を向上させ、最終結果の品質を向上させます。* **記憶 (記憶): **短期記憶、文脈学習、長期記憶、無制限の情報を長期間保存および呼び出す能力で、通常は外部キャリア ストレージと高速検索によって実現されます。* **ツールの使用:** 外部 API を呼び出して、モデルの重みに欠けている追加情報を取得する方法を学習できます。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c089219548-dd1a6f-7649e1) LLM による AI エージェントの概要、画像出典: Lilian Weng 個人ブログ3 つのコンポーネントが連携することで、AI エージェントは人間のように考えるだけでなく、人間のように行動することもできます。人間と同じように、複雑なタスクに取り組むときは、各ステップの間に推論のプロセスが存在することがよくあります。 AI エージェントはまた、ReAct コンポーネント (ユーザー インターフェイスを構築するための Java ライブラリ) を使用して、大規模なモデルの推論機能と行動の決定を密接に組み合わせることで、知識に基づいて言語モデルを論理的に計画および配置できるようになります。Reflexition フレームワークは、AI エージェントに動的なメモリと自己反映機能を提供します。重みを更新するのではなく言語フィードバックを通じて言語エージェントを強化することで、過去のアクションの決定を改善し、過去の間違いを修正してパフォーマンスを継続的に向上させることができます。AI エージェントは、情報の取得、保存、保存、検索のプロセスにおいて、人間の記憶の構成を模倣し、効率的な記憶システムを構築しようとします。人間の記憶の仕組みをシミュレートする AI エージェントは、感覚記憶、短期記憶、長期記憶を、元の入力 (テキスト、画像など) の学習埋め込み、コンテキスト学習、および外部ベクトル ストレージとして表現します。 。タスクと結果はメモリ モジュールに保存され、情報を呼び出すと、メモリに保存された情報がユーザーとの対話に返されるため、より緊密なコンテキストが作成されます。人間の最も特徴的な特性の 1 つは、ツールの使用と作成です。外部ツールを装備し、API を使用してさまざまなインターフェイスを呼び出すことにより、AI エージェントは人間によるツールの使用をシミュレートして、より複雑なタスクを完了できます。技術レベルは完全に成熟していませんが、データ管理や長期記憶などの課題はまだ解決されています。ただし、AI エージェントが自律的に実行し、反復的に最適化し、「フリーハンド」で実行できるため、人気が高まるのは避けられません。## **2. LLM に代わって、AI エージェントが次の AI ホットスポットになります**ChatGPTの誕生により、AIが人間と対話を重ね、情報や提案を提供する機能が実現しました。 Copilot の導入により、Github Copilot、Microsoft 365 Copilot、Midjourney など、AI が人間に代わって仕事の最初の草案を完成させる能力を引き受けるようになりました。これらは、プログラミング、オフィスワーク、そして画像生成。AI にタスクを実行するように指示すると、AI はタスクを実行します。つまり、コピーを書く、質問に答える、人間の目では本物か偽物か区別しにくい写真を生成するなどです。同時に、多くの場合、AI の各ステップに対して具体的かつ明確なプロンプトを提供する必要があります。現時点では、AI は到着したばかりで経験がなく、手作業で教える必要があるインターンのようなものです。しかし、命令に従い、実行上の困難を自分で解決し、他人に迷惑をかけないように努める優秀な従業員を望んでいる場合はどうでしょうか。3 月から 4 月にかけて、Camel、AutoGPT、BabyAGI、Westworld Township などの AI エージェントが一斉に爆発的に爆発し、人々はそのような可能性を感じたようです。Significant Gravitas が 3 月に AutoGPT をオープンソース化して以来、リリースから 2 か月以内に、AutoGPT は GitHub で 130,000 個のスターを獲得し、史上最も急成長しているオープンソース プロジェクトとなっています。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-3abb85fe26-dd1a6f-7649e1) スタンフォード大学が作ったウエストワールドタウン画像出典: 論文「Generative Agents: Interactive Simulacra of Human Behavior」Andrej Karpathy 氏はかつて Twitter で、「プロンプト エンジニアリング (エンジニアリング) の次のフロンティアは AutoGPT です」と述べました。 AutoGPT はこれまでに、コード ホスティング プラットフォーム Github で 140,000 個以上のスターを獲得しており、史上 25 位にランクされています。OpenAIの共同創設者兼最高経営責任者（CEO）のサム・アルトマン氏は、巨大なAIモデルを構築する時代は終わり、インテリジェントボディが課題であると何度か述べてきた。Octane AI (データ マーケティング プラットフォーム プロバイダー) の共同創設者兼 CEO である著者の Matt Schlicht 氏は、自律エージェントを紹介する記事の中で、産業界、学界、投資界から 100 名を超える人々の見解や意見を収集しました。 Meta、Nvidia、Stability AI、AI スタートアップなどの大企業の専門家、スタンフォード CS の教員や Hugging Face を含む AI 投資家らのほとんどが、AI エージェントの可能性に対する期待と見通しを表明しました。 「生のAGI」。大きなモデルに代わって、AI エージェントが AI の次の目玉になりつつあるようです。しかし同時に反対の声も後を絶たない。チューリング賞受賞者のヨシュア・ベンジオ氏は、今年5月に公開したブログ投稿「人間に害を及ぼすAIがどのように現れるか」の中で、人間はAIエージェントの一般的なタスクと目標を制御できるが、人間がAIエージェントを制御できるわけではないと述べた自分自身の知性によって分解されたサブタスクやサブ目標については、AI連携の研究がブレークスルーしない限り、人類は強力な安全性を保証できないことになる。インテリジェントなエージェントの集合的な出現、ビッグボスの追跡と疑惑、AI エージェントの波は急速かつ熱くなっています。ただし、AI エージェントは人工知能の分野では新しい用語ではありません。2014年にDeepMind社が発売した囲碁AI「AlphaGo」は、実はAIエージェントの一種だ。これと同様に、2017年に「Dota2」をプレイするためにOpenAIによって発売されたOpenAI Fiveがあり、2019年にDeepMindは「StarCraft 2」をプレイするためにAlphaStarを発表しました。当時の業界のトレンドは、強化学習を通じて AI エージェントをトレーニングし、改善することでした。強化学習は主にゲーム シナリオ、特に勝者と敗者が明らかな一部の対決ゲームで使用されました。しかし、現実世界で一般性を達成したいかどうかは未解決の問題です。その後数年でOpenAIは大規模言語モデルに舵を切り、GPTシリーズが次々と登場し、大規模モデルはさまざまな技術メーカーが突っ走る軌道となった。これにより、AI エージェントがボトルネックを突破し、機会を再開発できるようになります。数年前はゲーム シナリオに限定されていたのに比べ、AI エージェントは大規模モデルに基づいて何を達成できるのでしょうか? BV Baidu Ventures AI アプリケーション トラックの責任者で投資担当副社長の Wen Yongteng 氏は、「Jiazi Guangnian」に対し、次のように述べています。さらに重要なのは、AI エージェントは将来のアプリケーション エコシステムを再構築する能力を十分に備えていることです。」AutoGPT の発売直後から、多くのネチズンが AutoGPT を使用して自動パーソナル アシスタントを構築しました。たとえば、FirstSales.io の創設者兼 CEO である Udit Goenka 氏は、AutoGPT を使用して、昨年シードラウンド投資を受けた企業を検索し、リスト作成の詳細を説明できる見込みエンジンを構築したと投稿しました。Google のソフトウェア エンジニアである Yew Jin Lim 氏は、AutoGPT を使用してタスクの詳細を AI エージェントに電子メールで送信する電子メール アシスタントを作成したと述べました。ZhenFundのマネージングパートナーであるDai Yusen氏は、「Jiazi Guangnian」に次のように語った。「エージェントは生産性を大幅に向上させることができる方向性だ。なぜなら、人が依然として何かをするとしても、人は常に限られているからである。」「AI エージェントは、日常生活や仕事における生産性ツールになるでしょう。」マット シュリヒト氏は、「ソーシャル メディア アカウントの管理から、市場への投資、最高の児童書の出版に至るまで、AI エージェントはあらゆる業界、あらゆる業界に存在するでしょう。」と書いています。たとえば、aomni は、インターネット上のあらゆるトピックに関する情報を検索し、リストを作成することでユーザーの目標を 1 つずつ達成する AI エージェントです。生産性のニーズに加えて、Inflection AI のパーソナル AI Agent Pi は、別の可能なアプリケーションの方向性を提供します。ChatGPT やクロードの一般的な人工知能の位置づけとは異なり、Pi は高い EQ、感情的な仲間関係、感情的な価値の提供に焦点を当てています。また、Pi はユーザーとの過去の会話を記憶し、人々の仕事や生活に参加して支援するだけでなく、ユーザーとのつながりを確立するために友人や家族に連絡する方法も学習します。現在、Inflection AI は 15 億米ドルを超える投資を受けており、Anthropic を上回り、OpenAI に次ぐ 2 位となっています。## **3. AI エージェントは次のトレンドになるでしょうか? **「Building a kind of JARVIS（JARVISに似た建物）」、これはアンドレイ・カルパシーのTwitterでの最新のプロフィールです。JARVISはマーベルのスーパーヒーロー、アイアンマンの人工知能アシスタントであり、独立して考える能力があり、オーナーのハンドルを助けることができますさまざまな事柄やさまざまな情報を計算します。Karpathy の導入は、AI エージェント トラックの開始号砲が鳴ったことも意味します。海外メディア「The Information」は、サム・アルトマン氏が5月に一部の開発者に対し、OpenAIはChatGPTを個人作業アシスタントにしたいと非公開で語っていたと指摘し、事情に詳しい関係者は「OpenAIはChatGPTの使い方に注目している」と指摘した。自律型 AI を作成するためのチャットボット** **エージェント、関連機能は ChatGPT アシスタントに導入される可能性があります。 **偶然にも、Meta は AI エージェントにもチャンスがあると考えています。ザッカーバーグ氏は4月に投資家に対し、メタ社は「有用かつ有意義な方法で何十億人もの人々にAIエージェントを導入する機会」を見ていると語ったが、現時点では具体的な用途については言及しなかった。そして6月の従業員との全員会議で、ザッカーバーグ氏は開発のさまざまな段階にある一連のテクノロジーを発表した。そのうちの1つは、当初は主にメッセンジャーとWhatsApp向けに、さまざまな性格や能力を持つAIエージェントを支援したり楽しませたりするものだった。**中国ではAI** **エージェント関連の製品も次々と誕生しています。 **Alibaba Cloud は、7 月初旬の WAIC サイトで、開発者コミュニティ向けに最初のインテリジェント ボディ ModelScopeGPT をリリースしました。今後、さまざまなアプリケーション シナリオに対応する一連のインテリジェント ボディを発売する予定です。 ****ファーウェイもこの分野に取り組んでいますが、エンボディドAI（Embodied AI）、つまり大型モデルとロボットの組み合わせに重点を置いています。 **大手メーカーに加えて、AI エージェントは起業家にとってもチャンスです。 OpenAI の共同創設者である Karpathy 氏は、前回の講演で特に「AI エージェントの構築においては、OpenAI のような企業よりも一般人、起業家、オタクのほうが有利だ」と述べています。BV Baidu Venture Capital の AI アプリケーショントラック責任者兼投資担当副社長の Wen Yongteng 氏は、BV チームは現在、AI エージェント分野における新興企業の機会についても楽観的であると述べました。「将来のアプリケーション エコシステムは、単一の巨人によって支配されるのではなく、多様化するでしょう。AI エージェントの出現はパラダイム シフトの機会をもたらし、多くの従来型アプリケーションは破壊される可能性に直面しています。この過程で、スタートアップが存在します。」 「新しい分野を開拓するチャンスがたくさんあります。特定のタスクごとに、AI エージェントには、特定のアルゴリズムやサービスの構築、ユーザー データ、製品設計など、最適化の余地がたくさんあります。スタートアップは差別化の優位性を確立できます。」「さらに、AIエージェントの現在の生態は十分に明確ではありませんが、確立されたルールの下で競争する必要がないため、新興企業にとっては有利な発展の機会を提供しています。この観点から、新興企業と大企業は有利な立場にあります」同じスタートラインであれば、新興企業はより柔軟になり、製品を迅速に調整できます。」BV Baidu Ventures は、人工知能の分野で長年にわたって蓄積された知識に基づいて、モデル企業がアプリケーション層での機会を独占するとは考えていません。なぜなら、基盤となるモデル企業にとって、エコロジーを構築することの意義は、アプリケーションを独占することよりもはるかに大きく、基盤となるモデル企業がアプリケーション層での競争優位性を獲得するために独占的な戦略を採用すると、自らのエコロジーを損なう可能性があるからです。基礎となるモデル企業は、注力している 1 つまたは 2 つの分野で強力な AI エージェントを構築する可能性がありますが、必ずしもすべての分野でスタートアップと競合する必要はありません。**まだ決まっていない生態、まだ定式化されていないアリーナ、そして誰もが同じスタートラインに戻りました。 **しかし、これまでのところ、多くのデモンストレーションを除いて、AI エージェントが実際の製品として登場していないことは否定できません。ZhenFundのマネージングパートナーであるDai Yusen氏は、AIと人間の協力の度合いを自動運転のさまざまな段階に例えたが、AIエージェントは自動運転のL4段階に相当するという。しかし、L4 と同様に、AI エージェントも想像や実証は容易ですが実現は難しく、実際の適用はまだ不確実な将来です。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-cf43693e76-dd1a6f-7649e1) AIと人間の協調度を自動運転の各段階で比較 画像出典: 大郵船インスタントアカウント @yusen大郵船氏は、使えるAIエージェントを実現するには大規模モデルの能力を大幅に向上させる必要があり、最上位のOpenAIであっても遅延や性能の点で改善の余地はまだ大きいと強調した。「蒸気機関に例えると、水は100度まで加熱しないと蒸気は発生しません。AIエージェントの知能が一定のレベルに達していないと、水は50度までしか加熱されません。たとえ大量であっても、エネルギーが消費されても、蒸気はまだ生成できません。0です。」AI エージェント トラックのスタート号砲はすでに始まっていますが、これは決して数か月の短距離走ではなく、数年、場合によっては 10 年に及ぶ長距離マラソンです。

シリコンバレーの大物たちが話題にしているAIエージェントは本当に話題になっているのでしょうか？

1.AI エージェント: 作業を支援する「デジタル アシスタント」

2. LLM に代わって、AI エージェントが次の AI ホットスポットになります

**3. AI エージェントは次のトレンドになるでしょうか? **

1.AI エージェント: 作業を支援する「デジタルアシスタント」

3. AI エージェントは次のトレンドになるでしょうか?