大規模言語モデルビジネスを始めるときに参照すべき60のAIエージェント

出典: TMTポストメディア

百度がWen Xin Yi Yanをリリースしてから間もない4月、Wen Xin Yi Yanが生成した写真がどれほど幸せだったかを多くの人がまだ嘆いていたが、さらに多くの人がChatGPTやMidjourneyなどのさまざまなトレーニングに夢中になっていた。は、「有用かつ有意義な方法で」世界中の何十億人もの人々に AI エージェントを紹介する機会について考えています。

5月にOpenAIが3億ドルの新たな資金調達ラウンドを完了したとき、創設者のサム・アルトマン氏は一部の開発者に対し、ChatGPTを個人用作業アシスタントに組み込むことを望んでいると非公式に語った。チャットボットを使用して自律型 AI エージェントを作成すると、関連機能が ChatGPT アシスタントに導入される可能性があります。

6月の全スタッフ会議で、ザッカーバーグ氏は開発のさまざまな段階にある一連のテクノロジーを発表したが、そのうちの1つは、さまざまな個性や能力を備えたAIエージェントを導入して、ユーザーに支援やエンターテイメントを提供するものだった。

ちょうど 7 月に、Meta は AI エージェント プロジェクト MetaGPT をリリースしました。これは、ソフトウェア開発に焦点を当てた GPT-4 に基づく自動エージェント フレームワークです。

中国では、AutoGPT は早くも 4 月に諸外国で普及しましたが、その背後にある AI エージェントについてほとんどの人が理解していなかったために、初期の反応はあまり熱心ではありませんでした。

OpenAI の応用人工知能研究責任者、リリアン・ウェンによる AI エージェントに関するブログ投稿が 7 月初旬に発表されて初めて、AI サークルが爆発的に広がり、メディア、学術界、研究界、投資分野が本格的に議論し始めました。 AIエージェントは熱心です。

その結果、この国ではAIエージェントの探索と研究が本格的に始まり、一部のメーカーはAIエージェントモデルに基づいて製品アーキテクチャとビジネスモデルを再構築し始めています。

AI エージェントの原理、モデル、構築方法がますます明確になるにつれて、テクノロジー、モデル、エコロジー、さらにはポリシーに囚われている多くの起業家に明るい未来が見えてきています。

AI エージェントを使用すると、誰もが大規模言語モデル (LLM、ラージ言語モデル) の方向性を確認できるだけでなく、より多くの起業家が LLM 起業家精神の希望にさらに火をつけることができ、また、大多数の企業が効率的な言語モデルの将来の傾向を確認できるようになります。 LLM のアプリケーション。

AI エージェントの起業家精神について、OpenAI の共同創設者である Andrej Karpathy 氏は、一般の人、起業家、オタクの方がエージェントを構築する上で OpenAI よりも有利であり、誰もが平等な競争状態にあると考えています。

大企業側としては、大規模テクノロジー企業や新興企業がエージェントの機会を掴む可能性に直面しており、ビル・ゲイツ氏はまた、マイクロソフトが介入してくれなかったら失望するだろうとも述べた。

テクノロジー大手の強力なプロモーション、起業家の急速な受け入れ、大企業の積極的な導入により、AI エージェントは完全に人気になりました。また、LLM が実装されていなかった以前の状況とは異なり、今回の AI エージェントは単なる紙上のアイデアではなく、多くの企業がすでにエージェント プロジェクトと関連製品を立ち上げています。

業界関係者らは、少なくとも100以上のプロジェクトがAIエージェントの商用化に取り組んでおり、10万人近くの開発者が自律型エージェントを構築していることを明らかにした。これらのAIエージェントの中には、主にGPTとオープンソースのAgentフレームワークをベースとした海外Agentプロジェクトと、国産の大型モデル(自主研究分野の大型モデル)+オープンソースアーキテクチャをベースとした国産Agent製品が存在します。

そうは言っても、どの企業がエージェント製品を発売したのでしょうか? AIエージェント製品の現在の形態は何ですか?この記事では、AI エージェントについての理解を深めるために、世界中の 60 人の AI エージェントを取り上げます。

**追記: **この記事では多くのエージェント プロジェクトをレビューしているため、文字数が 1W 以上に達しています。まず収集してから読むことをお勧めします。

AI エージェントから開始

LLM は十分な知能を持っていますが、正確な答えを与えるには、十分に正確に入力する必要があります。達人と一般人が同じ大きなモデルを使って質問すると、得られる答えは大きく異なります。前者はさまざまなテクニックを使用して望ましい結果を得ることができますが、後者は LLM を見てため息をつくことしかできません。

LLM を使いこなすには、まずその使い方を学ぶ必要があるため、この需要が大規模なトレーニング市場を生み出しています。プロンプト プロジェクトは、LLM の使用を難しくする一方で、ユーザー エクスペリエンスも低下させます。自然言語の利点を最大限に発揮するはずの LLM は、その複雑さのせいで、一般のユーザーにとってはそれほどフレンドリーではありませんでした。

このようにプロンプトプロジェクトは一般人と大型模型の間に大きな山となっている。

この問題をより良く解決するにはどうすればよいでしょうか?答えはAIエージェント(中国ではAIエージェントと呼ばれています)です。

AI エージェントは、環境を認識し、意思決定を行い、アクションを実行できるインテリジェントなエンティティです。従来の AI とは異なり、AI エージェントは独自に考え、ツールを呼び出すことで、与えられた目標を徐々に達成する能力を備えています。

LLM の登場後、AI エージェントは一般的な問題の自動処理を実現する LLM によって駆動されるエージェントとして定義されました。

LLM は主にテキストの処理と生成に優れていることがわかっています。質問に答えたり、記事を書いたり、クリエイティブなコンテンツを生成したり、プログラミングを手伝ったりすることができます。しかし、LLM は依然として受動的なツールであり、入力が与えられた場合にのみ出力を生成します。

AI エージェントは、特に環境との対話、積極的な意思決定、さまざまなタスクの実行に関して、より幅広い機能を提供します。 AI エージェントは、LLM の可能性を真に引き出すための鍵であると言え、LLM のコアに強力なアクション機能を提供できます。

AI エージェントと大規模モデルの主な違いは、大規模モデルと人間の間の対話が実装に基づいていることです。ユーザーが明確かつ明確であるかどうかは、大規模モデルの回答の効果に影響を及ぼします。最も有能な ChatGPT であっても、正確で効果的な回答はありません。

AI エージェントの仕事は、目標を与えるだけで、自ら考えて行動することができ、与えられたタスクに応じて計画の各ステップを詳細に分解し、外界からのフィードバックと独自の思考を頼りに、目標を達成するために作成します。それ自体が目標を達成することです。

たとえば、ChatGPT にコーヒーを買ってほしいと頼んだ場合、ChatGPT によって与えられるフィードバックは一般的に「コーヒーを買うことはできません。これは単なるテキスト AI アシスタントです。」と似ています。

ただし、ChatGPT ベースの AI Agent ツールにコーヒーを購入するように指示する必要があります。まず、コーヒーを購入する方法を詳細に説明し、注文や支払いなどのいくつかの手順を計画します。アプリを介して、次の手順に従ってアプリを呼び出してテイクアウトを選択し、支払いプログラムを呼び出して注文と支払いを行います。このプロセスでは、人間が操作の各ステップを指定する必要はありません。

AI ツールとエージェントはどちらもタスクを自動化するように設計されたソフトウェア プログラムですが、特定の主要な特徴により、AI エージェントとより複雑な AI ソフトウェアとが区別されます。

AI ツールが次の特性を持つ場合、それは AI エージェントと見なされます。

**自律性: **AI 仮想エージェントは、人間の介入や入力なしで独立してタスクを実行できます。

**知覚: **エージェント機能は、さまざまなセンサー (カメラやマイクなど) を通じて環境を認識し、解釈します。

**反応性: **AI エージェントは環境を評価し、目標を達成するためにそれに応じて対応できます。

**推論と意思決定: **AI エージェントは、データを分析し、目標を達成するための意思決定を行うことができるインテリジェントなツールです。彼らは推論技術とアルゴリズムを使用して情報を処理し、適切な行動をとります。

学習: 機械学習、深層学習、強化学習の要素と技術を通じて学習し、パフォーマンスを向上させることができます。

**コミュニケーション: **AI エージェントは、自然言語の理解と応答、音声認識、テキストによるメッセージ交換など、さまざまな方法を使用して他のエージェントや人間とコミュニケーションできます。

目標指向: 特定の目標を達成することを目指しており、その目標は事前に定義することも、環境との対話を通じて学習することもできます。

**カテゴリに関して言えば、AI エージェントは現在、自律型エージェント (Autonomous Agent) と生成型エージェント (Generative Agent) に分類できます。 **

Auto-GPT などの自律エージェントは、自然言語を通じて人々のニーズに基づいてタスクを自動的に実行し、期待される結果を達成できます。この協力モデルでは、自律エージェントは主に人間にサービスを提供し、効率的なツールのようなものです。

スタンフォード大学とグーグルの研究者が共同で作ったウエストワールドの街や「ウエストワールド」の人型ロボットなどの生成エージェントは、同じ環境に住み、独自の記憶や目的を持ち、人間と対話するだけでなく、それぞれの人間とも対話します。その他. その他のロボットのインタラクション。

AI エージェントに関しては、復旦大学自然言語処理チーム (FudanNLP) が最近発表した 86 ページの LLM ベースのエージェントのレビュー ペーパーで、背景、構成、背景などを含む大規模な言語モデルに基づいたインテリジェント エージェントの現状が包括的にまとめられています。 LLM ベースのエージェント シーンの応用、そしてよく議論されているエージェンシー社会。

ここまで言っても、多くの友人はまだ AI エージェントについて直感的に感じていないかもしれません。ご心配なく、以下では比較例を用いて理解を深めていきます。

AI知能エージェントが様々な分野に浸透

AiAgent.app は、ユーザーが特定のタスクを実行して目標を達成するためのカスタム AI エージェントを作成できる Web アプリケーションです。

以下では、Wang Jiwei チャンネルで、AI エージェントを使用した場合と LLM を直接使用した場合の比較体験を通じて、AI エージェントの利点を見ていきます。

たとえば、先月の AI 業界のニュースとトレンドを知りたい場合は、「Claude: 先月の AI 業界の最新ニュースとトレンドの概要」と入力します。

得られた結果は以下のとおりです。

ご覧のとおり、クロードは AI に関連するニュース情報の要約をいくつか列挙しただけです。

AiAgent.app にこの段落を入力すると、まずニーズを 10 個のタスクに分割し、次にプロンプトを通じてユーザーと対話して各タスクを完了し、各タスクの結果を出力します。明らかに、AiAgent.app で取得される最近の AI 業界に関するコンテンツは、他の LLM を直接使用して取得されるコンテンツよりも包括的です。

大きなモデルを使用してこのコンテンツを直接取得することはできますか?理論的にはもっと入力すれば完了しますが、少なくとも10回は入力する必要があり、入力の正確性も保証できず、どのような情報を得たいのかさえ分からないこともあります。

AiAgent.app では、一文を入力するだけで、考えられるニーズを分析し、比較的包括的なコンテンツの目標をリストアップして、希望を達成するようにガイドし、効率が数倍向上します。

両者を比較すると、コンテンツの豊富さと取得効率の点で AI Agent が優れていることは明らかです。この種の情報コンテンツ エージェントは、メディア関係者、業界アナリスト、その他の専門家にとって非常に価値があり、調査データを取得する時間を大幅に短縮できます。

現在では、より正確なユーザーグループやアプリケーションシナリオを対象としたエージェントがいくつか登場しており、例えばコロンビア大学が立ち上げた GPT Researcher は、ChatGPT をベースとした研究者向けエージェントで、ユーザーが研究を推進するためのさまざまな研究レポートを作成することができます。

このケースはコンテンツ取得のみに関するものですが、実際には、より多くのソフトウェア アプリケーションやハードウェア デバイスを動員してさまざまなタスクを完了するのに十分な、複数のアプリケーション シナリオ用のエージェントが登場しています。

たとえば、AutoGPT を使って食事を注文したり、チケットを予約したり、タクシーに乗ったり、買い物をしたりする人もいます。スタンフォードのウエストワールドの町に住む 25 人の AI エージェントは、毎日歩いたり、デートしたり、チャットしたり、コーヒーを飲んだり、その日のニュースを共有したりしています。Google Deepmind は、はさまざまなタスクを自動的に実行するロボットアーム用のロボットエージェントの使用を開始し、Amazon はエンタープライズ AI アプリケーション開発タスクを自動的に分解する Amazon Bedrock Agents も開始し、IBM Watson Health は多くの病院で医師の診断、治療、患者の監視を支援してきました。

Aiエージェントはあまり普及してから長くはありませんでしたが、登場してすぐにさまざまな分野の多くの企業から支持されています。大規模な言語モデルのマルチモデル機能と今日の優れたコンピューティング能力により、何年も前に提案されたエージェントがすぐに価値を獲得し、超普及率でより多くの分野に実装されるようになりました。

MetaGPT などのオープンソース AI エージェントの出現により、より多くのテクノロジー プロバイダーや起業家チームがエージェントを導入し、より多くの組織がエージェントを認識して受け入れるようになりました。必然的に、さまざまな分野で LLM 実装の主要なモデルとなり、数千人を支援することになるでしょう。優れたアプリケーション LLM。

世界中の 60 人の AI エージェントの一覧

上記の事例で挙げた AiAgent.app は、ここ数カ月で勢いを増している代表的な AI Agent 製品の 1 つです。この AI エージェントを含む国内外の複数のエージェントは、以下のプロジェクト インベントリ リストで確認できます。

Wang Jiwei Channel (id:jiwei1122) では、これまでにローンチされた AI エージェントをより深く皆様に理解していただくために、これらの AI エージェントをメディアレポート、国内ローンチ、業界ベース、海外その他、GitHub プロジェクトに分けて紹介していきます。プロジェクト ライブラリは、これらのエージェントをさまざまなカテゴリに分類します。

この記事でレビューする AI エージェントには、AI エージェントのフレームワークとツール、およびいくつかのオープンソース フレームワークに基づく AGENT 製品の両方が含まれていますが、同時に、ほとんどのプロジェクトと製品は自律型エージェントです。

一部のメーカーは比較的目立たず、外部に公開していないため、この記事にリストされている AI エージェントは完全ではないため、AI AGENT の不完全なリストとも呼ばれます。この記事を読んだ後、より多くのメーカーや起業家が Wang Jiwei のチャンネルに連絡していただければ、私たち全員が AI AGENT エコシステムの繁栄と発展に貢献することができます。

AIエージェントがメディアで報道

1、自動 GPT

Auto GPT は、GPT-4 と GPT-3.5 テクノロジーを組み合わせて API を通じて完全なプロジェクトを作成する、Github 上の無料のオープンソース プロジェクトです。

ChatGPT とは異なり、ユーザーは対応する回答を得るために AI に絶えず質問する必要はなく、AutoGPT では AI の名前、説明、5 つの目標を提供するだけで、AutoGPT 自体がプロジェクトを完了できます。 。ファイルの読み取りと書き込み、Web の閲覧、独自のプロンプトの結果の確認、およびそれらのプロンプト履歴との組み合わせが可能です。

Auto-GPT は、完全に自律的に動作する GPT-4 の最初の例の 1 つであり、人工知能ができることの限界を押し広げます。

2、エージェントGPT

AgentGPT を使用すると、自律型 AI エージェントを構成および展開できます。カスタム AI に名前を付けて、想像できるあらゆる目標を開始するように指示するだけで、達成すべきタスクを考え、タスクを実行し、結果から学習することで目標を達成しようとします。

3、ベビーAGI

AIを活用したタスク管理システムです。このシステムは、OpenAI と Pinecone API を使用してタスクを作成、優先順位付け、実行します。以前のタスクの結果と事前定義された目標を分析してタスクを作成し、OpenAI の自然言語処理 (NLP) と Chroma を使用してタスクの結果をコンテキスト内で保存および取得します。

Baby AGI の魅力は、自律的にタスクを解決し、以前のタスクの結果に基づいて事前定義された目標を維持し、タスクに効果的に優先順位を付ける能力にあります。

4、ジャービス(HuggingGPT)

Microsoft によって開発された独自のコラボレーション システム。複数の AI モデルを使用して特定のタスクを完了でき、ChatGPT がタスク コントローラーとして機能します。 GitHub 上で JARVIS として知られるこのプロジェクトは、Huggingface (したがって HuggingGPT) で試用できるようになりました。このエージェントは、テキスト、画像、オーディオ、さらにはビデオでも非常にうまく機能します。

その仕組みは、OpenAI がテキストと画像を通じて GPT 4 のマルチモーダル機能を実証する方法と似ていますが、JARVIS はさらに一歩進んで、画像、ビデオ、オーディオなどのさまざまなオープンソース LLM を統合し、インターネットとアクセスファイル。たとえば、Web サイトから URL を入力して、それについて質問することができます。

5、Aiagent.app

Ai Agent は、ユーザーが特定のタスクを実行して目標を達成するためのカスタム AI エージェントを作成できる Web アプリケーションです。 AI エージェントは、目標を小さなタスクに分割し、それらを 1 つずつ完了することによって機能します。利点としては、複数の AI エージェントを同時に実行できること、最先端のテクノロジーへのアクセスが民主化されることが挙げられます。

AI Agent は、構文強調表示を備えたインライン コード ブロックや、サードパーティ プラットフォームとのシームレスなコラボレーションなどの機能も備えています。このツールは無料で使用でき、技術的な知識を必要とせずに AI エージェントを構築するための簡略化された方法を提供します。

6、キャメルAGI

Camel AGI は、ユーザーが自律 AI エージェントのロールプレイングによって指定されたタスクを解決できるようにする生成 AI ツールです。もちろん、ユーザーがこのツールを使用するには Java を有効にする必要があります。 Camel AGI を使用すると、ユーザーは AI エージェントを使用してタスクを完了でき、Google でログインするか、Github でツールにスターを付けるオプションが提供されます。

7. 「ウエストワールド」シミュレーション ウエストワールドの街

このプロジェクトのために、スタンフォード大学と Google の研究者は、人間の行動をシミュレートできる 25 個の生成 AI エージェントを含むインタラクティブなサンドボックス環境を作成しました。彼らは公園を散歩したり、カフェでコーヒーを飲んだり、同僚とニュースを共有したりするなど、驚くほど良好な社会的行動を示しました。

たとえば、エージェントがバレンタインデーのパーティーを開催したいというユーザー指定のコンセプトから始まり、エージェントは自動的に次の 2 日間にパーティーの招待状を広め、新しい友達を作り、お互いにデートやパーティーに誘ったり、イベントをコーディネートしたりします。適切なタイミングで、一緒にパーティーに参加する時間です。

8、GPTエンジニア

GPT-Engineer は、ユーザーが構築したいものを指定し、AI と明確な対話を行って必要なコード ベースを生成できるオープンソース AI ツールです。このツールは、シンプルで柔軟なユーザー エクスペリエンスを提供するように設計されており、ユーザーはニーズに応じてその機能を適応および拡張できます。

このツールには、AIエージェントのIDの指定、GPT4との通信履歴の保存、メッセージログの再実行などの機能が含まれています。プロジェクトへの貢献は歓迎されており、興味のある人は GitHub リポジトリで入手可能なロードマップ、プロジェクト、問題を参照できます。 GPT-Engineer は、開発者がコード生成ツールボックスを探索および構築するためのオープン プラットフォームになることを目指しています。

9、メタGPT

Meta Corporation によって開始された MetaGPT は、単一行入力を使用して API、ユーザー ストーリー、データ構造、競合分析などを生成するマルチエージェント フレームワークです。このフレームワークは、プロダクト マネージャー、ソフトウェア エンジニア、アーキテクトとして機能します。このフレームワークはソフトウェア会社全体として機能し、たった 1 行のコードで SOP を調整します。

MetaGPT は人間の SOP プロセス設計と統合されています。したがって、LLM ベースのエージェントは、高品質で多様な構造化されたドキュメントとデザインを生成します。 MetaGPT は、複雑なタスクのソリューションを簡単に設計し、人間の知能にほぼ匹敵する問題解決能力を提供できるように設計されています。

10、Amazon Bedrock エージェント

Amazon によってリリースされた Amazon Bedrock Agent を使用すると、開発者はフルマネージド エージェントを迅速に作成できます。 Amazon Bedrock エージェントは、エンタープライズ システムへの API 呼び出しを実行することで、アクティビティを管理および実行する生成 AI アプリケーションのリリースを加速します。

Amazon Bedrock Agents は、ユーザーリクエストタスクの迅速なエンジニアリングとオーケストレーションを簡素化します。セットアップが完了すると、これらのエージェントは自律的にプロンプトを作成し、企業固有のデータを使用してプロンプトを安全に強化して、自然言語による応答をユーザーに提供できます。これらの高度なエージェントは、ユーザー要求を自動的に処理するために必要なアクションを推測する機能を備えています。

11、nvidia Voyager

NVIDIA とカリフォルニア工科大学などが共同で立ち上げた Voyager は、GPT-4 を使用してピクセル世界を通じて Minecraft エージェントの学習をガイドしますが、Voyager は強化学習ではなくコード生成に依存していることに注意してください。

Voyager は、Minecraft をプレイする最初の生涯学習エージェントです。従来の強化学習手法を使用する他の Minecraft エージェントとは異なり、Voyager は GPT-4 を使用して継続的に自身を改善し、外部スキル ライブラリに保存されたコードを作成、改善、転送することでこれを行います。

これにより、ナビゲーション、ドアの開閉、資源の採掘、つるはしの作成、またはゾンビとの戦闘を支援する小さなプログラムが作成されます。 GPT-4 は、「トレーニング」がコードの実行であり、「トレーニング モデル」が Voyager が繰り返し組み立てるスキル コード ベースであるという新しいパラダイムを解き放ちます。

12、ロボエージェント

Meta と CMU の共同研究チームは、2 年をかけてユニバーサル ロボット エージェント RoboAgent の開発に成功しました。 RoboAgent は、わずか 7,500 の軌跡によるトレーニングを通じて、パンを焼く、アイテムを拾う、お茶を出す、キッチンの掃除などの作業を含む 12 の異なる複雑なスキルを習得しており、一般化して 100 の未知のシナリオに適用できます。

RoboAgent は、どれほどの干渉に遭遇してもタスクを続行します。この研究の目標は、データセットとシーンの多様性の課題に対処する効率的なロボット学習パラダイムを確立することです。研究者らは、セマンティック強化と効率的なポリシー表現を通じてマルチモーダル マルチタスク ロボット データセットを処理するためのマルチタスク アクション ブロッキング トランスフォーマー (MT-ACT) アーキテクチャを提案しました。

13、語形変化AI Pi

Inflection AIが発売するパーソナルAIエージェント製品Piのコアブレインは、同社が開発した大型モデルInflection-1であり、その性能はGPT-3.5に匹敵する。一般的な汎用チャットボットとは異なり、Pi はフレンドリーな会話をしたり、簡潔なアドバイスを提供したり、単に話を聞いたりすることしかできません。

その主な特徴は、思いやり、謙虚さ、好奇心、ユーモアと革新性、優れた心の知能指数であり、ユーザーの独自の興味やニーズに応じて無限の知識と交友関係を提供します。 Inflection が Pi を開発して以来、Pi は単に人々の仕事を支援するツールではなく、個人の知能 (Personal Intelligence) として機能することが決定されました。

14、ハイパーライト

Hyperwrite は、あらゆるレベルのクリエイティブ ライターがより速く、より自信を持って執筆できるようにする AI ライティング エージェント ツールです。オリジナルの段落を生成し、書き手の障害を克服するためのアイデアを思いつくための自動書き込みや先行入力などの機能が含まれています。

このツールは無料の Chrome 拡張機能として利用でき、ワークフローを中断することなくどの Web サイトでも使用できます。生産性を向上させるために、世界中の専門家、学生、クリエイターによって使用され、信頼されています。

15、GPT研究員

GPT Researcher は、さまざまなタスクに関する包括的なオンライン調査を行うために使用される AI ベースの自律エージェントです。 AutoGPT と「計画と解決」プロンプトからインスピレーションを得たこのツールは、現在の言語モデルに見られる速度と決定論の問題を改善することを目的としており、「同期的に動作するのではなく並列エージェントで動作することにより、より安定したパフォーマンスと高速性を実現します。」

同チームによると、GPTの研究者は、関連する研究質問を生成し、20以上のWebソースからデータを集約し、GPT3.5-turbo-16とGPT-4を活用して包括的な研究レポートを作成することで研究を促進しているという。

中国で AI エージェントを開始

継続的な探索と実験を経て、国産の AI エージェント関連製品も登場し始めています。

1. Alibaba Cloud ModelScopeGPT

Alibaba Cloud Mota コミュニティは、中国初の大規模モデル呼び出しツール ModelScopeGPT をリリースしました。このツールを通じて、ユーザーはワンクリックで指示を送信することで Mota コミュニティ内の他の人工知能モデルを呼び出すことができ、それによって大小のアプリケーションを実現できます。モデルは連携して動作します複雑なタスクを完了するために。

ModelScopeGPT は、オープンソースの大規模言語モデル (LLM) AI Agent (エージェント) 開発フレームワーク ModelScope-Agent に基づいています。これは、実用的なアプリケーション向けのカスタマイズ可能な一般的なエージェント フレームワークであり、オープン ソースの大規模言語モデル (LLM) をコアとしてベースにしており、メモリ制御やツールの使用などのモジュールが含まれています。

オープンソース LLM は主にタスクの計画、スケジューリング、および応答の生成を担当します。メモリ制御モジュールには主にナレッジ検索と (プロンプト ワード) 管理が含まれ、ツール使用モジュールにはツール ライブラリ、ツール検索、およびツールのカスタマイズが含まれます。

2. 本当にインテリジェントな TARS-RPA-Agent

TARS-RPA-Agentは、リアルインテリジェンスがハイパーオートメーション分野で立ち上げた、「TARS+ISSUT(Intelligent Screen Semantic Understanding)」デュアルモードエンジンをベースとした、「頭脳」と「」を備えた超自動エージェントです。自律的にタスクを分解し、現在の環境を認識し、実行してフィードバックを提供し、過去の経験を記憶することができる新しい RPA モデル製品です。

TARS-RPA-Agent は、TARS ラージ モデルと ISSUT スマート スクリーンのセマンティック理解をベースにした技術フレームワークを採用しています。技術フレームワークは2層に分かれており、下層は一般的な基本モデルや各種垂直産業の基本モデルを含む大規模モデルのTARSシリーズとスマートスクリーン意味理解技術、上層はそれに依存する超大規模モデルとなっている。これら 2 つの主要なテクノロジーを使用して、包括的なアップグレードと変革を完了します。

TARS-RPA-Agent の中核となる LLM は、一般的な大規模モデル ベースに基づいてリアル インテリジェンスが自社開発した垂直型「TARS」大規模モデルであり、テキスト生成、言語理解、知識の質問と回答などの優れた主流機能を備えています。そして論理的思考力。

3. OmBot オーム インテリジェント エージェント

2023 年の世界人工知能会議で、Lianhui Technology は、大規模モデル機能である OmBot Ohm Agent に基づいた自律エージェント (Auto AI Agent) をリリースし、典型的なシーン要件に基づいたアプリケーションの最初のバッチを開始しました。

Lianhui 自律エージェントには、認知、記憶、思考、およびアクションの 4 つのコア機能が含まれています。自動および自律エージェントとして、最も単純な形式でループ内で実行されます。各反復で、自律的な指示と操作を生成します。したがって、人間によるコマンドの指示に依存せず、拡張性が高くなります。

4. Lanma テクノロジー XBot に質問してください

Lanma Technology が構築した Agent プラットフォーム「Ask XBot」は 2 つの層に分かれており、第 1 層は専門家による権限付与であり、専門家がワークフローを定義し、ドラッグ、ドロップ、ドラッグ、対話による対話を通じてマシンにワークフローを教えることで、最前線の従業員がワークフローを構築するのを支援します。より効率的な作業のための方法論。第 2 レベルは、従業員がエージェントを使用するためのものです。最前線の従業員は自然言語を通じてエージェントとコミュニケーションし、指示を発行することができ、エージェントがデータ分析、情報検索、その他のタスクを支援できるようになります。

同社は、プラットフォーム上でより効率的かつインテリジェントにサービスを提供できる「Ask Customers」を構築する予定です。

5、チャット開発

ChatDev は、清華大学、北京郵電大学、ブラウン大学の共同研究チームによって立ち上げられた生成エージェントです。これは、大規模言語モデル (LLM) を活用して、ソフトウェア開発プロセスにおける複数のアクター (ChatGPT の「gpt3.5-turbo-16k」バージョン) 間の効果的なコミュニケーションとコラボレーションを促進する、チャットベースのエンドツーエンドのソフトウェア開発フレームワークです。 。

ChatDev の主な目的はチャットによるゲーム開発です。ユーザーはアイデアを提案するだけで、設計からテストまでAIが完結し、所要時間はわずか7分。

さまざまな分野の AI エージェント製品

LLM が登場する前から、一部の企業はすでに従来の AI とエージェントの組み合わせを研究していました。そのため、AI Agentmt のさまざまな分野への導入は、誰もが予想していたよりもはるかに速いペースで進んでいます。

以下は、いくつかの業界分野における代表的なエージェント アプリケーションです。

医療分野では、エージェントは患者の診断、治療、監視を支援します。 IBM Watson Health は、医療データを分析して潜在的な健康上の問題を特定し、治療オプションを推奨する AI エージェントです。

金融分野では、エージェントは財務データを分析し、不正行為を検出し、投資の推奨を行うことができます。 Charles Schwab は、Intelligent Portfolio と呼ばれる人工知能エージェントを使用して、顧客の投資目標に基づいて投資ポートフォリオを作成および管理します。

小売ビジネス シナリオでは、エージェントはパーソナライズされた推奨事項を提供し、サプライ チェーン管理を改善し、顧客エクスペリエンスを向上させることができます。 Amazon の Alexa は、商品の推奨、注文、出荷の追跡を行うことができる AI エージェントです。

製造において、エージェントは生産プロセスを最適化し、メンテナンスの必要性を予測し、製品の品質を向上させることができます。 General Electric は、Predix と呼ばれる AI エージェントを使用してリアルタイムでマシンを監視し、機器の故障を予測して防止します。

交通分野では、自律型 AI エージェントがルート計画、交通管理、車両の安全を支援できます。 Tesla の オートパイロット は自動運転車を支援し、ドライバーの駐車、車線変更、安全運転を支援します。

教育業界では、Agnet はパーソナライズされた学習体験を提供し、管理タスクを自動化し、生徒の成績を分析できます。ピアソンの AI エージェント Aida は、生徒にフィードバックを提供し、パーソナライズされた学習経路を提案できます。

農業では、AI エージェントは作物の生産を最適化し、土壌の品質を監視し、気象パターンを予測できます。 John Deere は、See&Spray と呼ばれる AI エージェントを使用して、作物に影響を与えることなく雑草を検出して位置を特定しています。

他のAGENT製品も海外で発売されています

1、コグノシス

Cognosys は、生産性を革新し、複雑なタスクを簡素化するように設計された Web ベースの AI エージェントで、最先端の AI テクノロジーを使用して日常生活を向上させます。

2、何でもできるマシン

ユーザーのパーソナル AI エージェントがあなたのタスクに優先順位を付けて完了する「何でもできる」マシンでタスクを簡単に管理します

3、アルファキット

目標主導型の自律 AI エージェントのチームをすべて携帯電話から作成および管理するための直感的なプラットフォーム autoGPT AI エージェント チームを作成および管理します。目標を定義するだけで、残りは Alphakit が処理します。

4、GPTコンソール

GPTConsole は、開発者に人工知能の利点を提供するように設計された革新的なコマンド ライン インターフェイス (CLI) です。従来の端末機能を超えて、ユーザーがプロンプトを使用して複雑なタスクを実行できるようにします。

5、仕上げ

ナレッジ ベースへのリンクを提供することで、2 分でナレッジ ベースを AI チャットに変換します。 Fini は、顧客の質問に 24 時間 365 日すぐに回答できる、疲れ知らずの AI エージェントをユーザーに提供します。

6、呪文

Spell は、日常の効率的な作業に適用できる GPT4 ベースの自律型 AI エージェントです。 Spell には、よりスマートに作業し、生成 AI の力を活用して問題を解決するために機能する 1 つ以上の革新的な自律エージェントを生成する方法を学ぶのに役立つ、切望されている機能も備えています。

7、アオムニ

Aomni は、インターネット上のあらゆるデータを検索、抽出、処理して、研究作業を強化できる情報検索 AI エージェントです。 Aomni は、API を必要とせずにインターネット上のあらゆる情報にアクセスできるフル Web ブラウザーなど、さまざまなツールを使用してクエリをインテリジェントに計画し、最終結果を取得できます。

Aomni のクエリ プランナーは、現在の最先端の AutoGPT アーキテクチャに基づいており、各リクエストをインテリジェントに計画および更新して、ソースの正確性と多様性を確保します。

8、ファインチューナー.ai

Fine-Tuner.ai を使用すると、ユーザーは技術的なスキルやコーディングを必要とせず、データとアイデアを入力するだけで、複雑なオーダーメイドの AI エージェントを構築できます。十数人のプロの AI エージェントは、PDF、CV、PPT、URL などのアップロードされたリアルタイム データを通じて、ユーザー向けに正確な Q&A、ドキュメント検索、プロセス自動化などを作成できます。

9、SuperAGI

有用な自律エージェントを迅速かつ確実に開発および展開できるオープンソースの自律 AI フレームワークと、自律エージェントを構築、管理、実行するためのインフラストラクチャ。

10、イエロー.ai

Yellow.ai は、企業内の動的な AI エージェントを強化する主要なエンタープライズ グレードの会話型 AI プラットフォームであり、ノーコード/ローコード プラットフォームを通じて人間のような対話を実現し、顧客満足度を高め、従業員のエンゲージメントを高めるように設計されています。

11、ゴッドモード

ユーザーがブラウザで AutoGPT を実行できるようにします。 Godmode を使用すると、ユーザーは複数の AI エージェントを同時にデプロイして AI を使用してタスクを完了でき、ユーザーは独自の OpenAI API キーを使用することもできます。

12、E42

E42 は、企業が多機能コグニティブ エージェントを作成して、機能全体にわたるさまざまなプロセスを自動化できるコグニティブ プロセス オートメーション プラットフォームです。コグニティブ主導のノーコード プラットフォームは、ユーザーの既存のテクノロジーおよびプロセスとシームレスに統合し、部門全体で最高の価値を引き出します。ユーザーは E42 を使用して、さまざまな業種にわたる AI アナリストや AI リクルーターなどの独自の AI エージェントを構築できます。

13、ありがとう

Thanksful の AI エージェントは、既存のヘルプ デスク内で機能するようにトレーニングおよびカスタマイズされており、電子メール、チャット、SMS、アプリ内チャネルを介して大量の顧客の問い合わせを簡単に解決します。理解し、接続し、解決し、パーソナライズし、情報を提供する能力を持つ、ThankfulAI エージェントは、機械のような速度と本質的に拡張可能な専門知識を備えた人間のようなサービス エクスペリエンスを提供します。

14、アクティファイ

Aktify の仮想 AI エージェントを使用して、人員を増やさずに営業チームのクローンを作成します。 Aktify は、応答しない見込み客を無制限に大規模に処理し、常に顧客を営業チームの玄関先まで話しかける準備を整えます。これは単なる SMS チャットボットではありません。

15、チームスマートAI

ワンクリックで TeamSmart AI にアクセスできるので、生産性が向上します。コンテンツの集約、コードの生成、ツイートの下書きなどをブラウザーで直接実行できます。 ChatGPT は、アイコンまたはキーボード ショートカットをクリックするとすぐに開き、ログインせずに高品質のヒントのライブラリに即座にアクセスできます。

16、ブレインストーミングGPT

BrainstormGPT は、複数のエージェント、LLM、自動検索を統合して、トピックから会議レポートへの変換を簡素化します。カスタム トピック、ユーザー定義のロール、エージェントによる自律的なディスカッション、20 分以内に出力されるレポートは、300 件の検索、10 時間のディスカッション、および 100,000 件のテキスト分析にほぼ相当します。

17、AgentRunner.Ai

AgentRunner.ai は、GPT-4 の機能を利用して完全自律型エージェントを作成およびトレーニングする自律型 AI エージェント作成ツールです。ユーザーがエージェントの目標を設定し、技術的な知識やプログラミング スキルがなくてもその目標を達成する方法をエージェントに決定させることができます。

このツールは、独自の個性を持つ自律エージェントの作成、タスクの実行または新しいスキルの学習のためのエージェントの実行、エージェントが実行できる内容の決定、OpenAI または Google Cloud アカウントとの統合などの機能を提供します。

18、宿泊

Gista は、企業が Web サイト訪問者と関わり、リードに変換することを年中無休で支援します。その主な機能には、AI 変換エージェントと AI 販売エージェントの構築が含まれます。 Gista を使用すると、企業は Web サイト訪問者を見込み顧客に変換し、電子メール リストを簡単に構築できます。

19、エージェント4

Agent4 の主要な機能の 1 つは、質問に答えたり、会議の予約を支援したり、ボイスメールを聞いたり、概要を提供したりできる AI を活用した仮想エージェントを作成する機能です。

エージェント向けのカスタム インタラクションを簡単に作成でき、エージェントがブランドの声で質問に答えたり、さまざまなタスクを処理したりできるようになります。また、エージェントが通話にリアルタイムで応答する方法を選択し、誰かと話す必要があるかどうか、いつ話す必要があるかを決定することもできます。

20、Cometcore AI

Cometcore AI は、生産性とコミュニケーションを向上させるための AI 駆動型ツールの多用途セットを提供する革新的なプラットフォームです。 Cometcore を使用すると、かわいいエージェントを作成、コーディング、自動化できます。

21、パーソナルアシスタント

フライトの予約から詳細な調査の実施、およびその間のすべてを処理するように設計された AI エージェント。

Github 上の AI エージェント プロジェクト

1、OpenAGI

OpenAGI は、タスク固有のデータセット、評価指標、およびさまざまなスケーラブルなモデルを伴う、複雑な複数ステップのタスクを提供するために特別に設計されたオープンソースの AGI 研究プラットフォームです。 OpenAGI は、LLM への入力として、複雑なタスクを自然言語クエリとして定式化します。次に、LLM は、タスクを解決するために OpenAGI によって提供されるモデルを選択、合成、実行します。

このプロジェクトでは、タスク解決結果をフィードバックとして使用して LLM のタスク解決能力を向上させる、タスク フィードバック強化学習 (RLTF) メカニズムも提案されました。 LLM は複雑なタスクを解決するためにさまざまな外部モデルを合成する責任を負い、RLTF はタスク解決能力を向上させるためのフィードバックを提供し、自己改善 AI のためのフィードバック ループを提供します。複雑なタスクを解決するためにさまざまなエキスパート モデルを操作する LLM のパラダイムは、AGI への有望なアプローチです。

2、エージェント-LLM

Agent-LLM は、複数のプロバイダーにわたる効率的な AI 命令管理を強化するために設計された AI 自動化プラットフォームです。

エージェントにはアダプティブ メモリが装備されており、この多用途ソリューションは、Web ブラウジングを含むさまざまなコマンドをサポートする強力なプラグイン システムを提供します。多数の AI プロバイダーとモデルのサポートが拡大するにつれて、Agent-LLM はさまざまなアプリケーションを強化するために進化し続けています。

3、AutoGPT-Next-Web

このエージェントは、優れた設計の AutoGPT-Next-Web Web UI をワンクリックで Vercel にデプロイし、プライベート AutoGPT-Next-Web Web アプリケーションをワンクリックで無料でデプロイできます。 AutoGPT-Next-Web に基づいて、ユーザーは Vercel を使用してワンクリックで無料で展開し、個人用 AutoGPT Web サイトを 1 分で構築できます。

4、MiniGPT-4

このエージェントは、高度な大規模言語モデルを使用して、視覚的な言語の理解を強化できます。

5、ミニAGI

Mini-AGI は、GPT3.5/4 に基づく最小の汎用自律エージェントです。これは、強力なプロンプト、最小限のツール セット、短期記憶 (思考連鎖) を、間もなく追加されるベクター ストレージを介したデータ拡張と組み合わせて、株価の分析、サイバーセキュリティ テストの実行、アートの作成、ピザの注文を行います。

6、10代のAGI

いくつかの Auto-GPT 関連プロジェクト (主に BabyAGI) と論文「Generative Agents: Interactive Simulation of Human Behaviour」からインスピレーションを得たこの Python プロジェクトは、OpenAI と Pinecone を使用して AI エージェントにメモリを提供し、AI エージェントが行動を起こす前に「考える」ことができるようにします。 (テキストを出力します)。

7、高速GPT

FastGPT は、LLM ラージ言語モデルに基づくナレッジ ベースの質問と回答システムであり、すぐに使用できるデータ処理、モデル呼び出し、その他の機能を提供します。同時に、フローの視覚化を通じてワークフローを調整し、複雑な質疑応答のシナリオを実現できます。

8、デモGPT

DemoGPT を使用すると、簡単な文章だけですぐにデモを作成できます。

9、ローカルAGI

LLMDA、ChatGLM、その他のモデルに基づいて AGI プロジェクトをローカルで実行します。

10. ai-town(ゲーム部門)

有名な投資機関 a16z のオープンソース AI タウンは、独自のバージョンの AI タウンを構築およびカスタマイズするための、MIT ライセンスを取得した展開可能なスターター キットです。これは、AI キャラクターが住み、チャットし、交流する仮想の街です。

11、gptrpg(ゲームカテゴリ)

gptrpg このリポジトリには、LLM 対応 AI エージェント用の単純な RPG のような環境と、OpenAI API に接続してその環境に存在する単純な AI エージェントの 2 つが含まれています。

12. SFighterAI (ゲームカテゴリ)

このプロジェクトは、ゲーム「ストリートファイター II: スペシャル チャンピオン エディション」の最後のボスを倒すために深層強化学習を使用して訓練された AI エージェントです。 AI エージェントはゲーム画面の RGB ピクセル値のみに基づいて決定を行います。提供された保存状態では、エージェントは最終レベルの最初のラウンドで 100% の勝率を達成します。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • 共有
コメント
0/400
コメントなし
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)