論文によると、AI エージェントの 86.66% はプロセス全体で完全に実行されました、実行が失敗した部分では、50% のケースは API のトークン長制限が原因でしたこのような失敗 この制限により、コード生成時に指定された長さの範囲内で完全なソース コードを取得できなくなります。これらの課題は、複雑なソフトウェア システムや大規模なコード生成が必要な状況を扱う場合に特に顕著です。
残りの 50% の失敗は、主に外部の依存関係の問題によって影響されます。一部の依存関係がクラウド上で見つからないか、バージョンが間違っている場合に問題が発生します。しかし、全体として、この実験の結果は比較的成功しています。おそらく近い将来、私たちの仕事の多くが AI エージェントに頼れるようになるかもしれません。
7 人のエージェントで構成される会社が 7 分でゲームの開発を完了
AIエージェントに対する市場の期待は常に高く、スタンフォード大学とGoogleによる以前の実験では、一方通行のさまざまなタスクを担うエージェントに加え、それぞれが連携して動作する25台のAIエージェントから構成される仮想都市(バーチャルタウン)が実証されています。 . この仮想都市で毎日のスケジュール、約束を立て、イベントやパーティーを計画しましょう。
しかし、最近の研究実験では、**7 人の AI エージェントによって形成された仮想会社が、約 1 米ドルのコストで 7 分で完全な開発プロセスを完了したことが示されました。 **この実験は、清華大学、北京郵電大学、大連理工大学、ブラウン大学、および国内のAIスタートアップ企業Wall-Facing Intelligenceの研究者らによって発表された最新の論文に基づくものです。
彼らは、ChatDev と呼ばれる仮想会社を作成しました。これは、CEO、CTO、CPO、プログラマー、デザイナー、テスター、コード レビューアーの役割を担う 7 人の AI エージェントで構成されています。これらのエージェントは、ChatGPT 3.5 モデルでサポートされています。
ソフトウェア開発のシーケンスに基づくウォーターフォール モデルは、プロセス全体を設計、プログラミング、テスト、文書化の 4 つの段階に分割します。研究者は、各エージェントが従う必要のある役割、割り当てられたタスク、および通信プロトコルを定義しました。プロンプトワード、終了基準と制約。
その後、設計段階ではCEO、CPO、CTOが協力し、プログラミング段階ではCTO、プログラマー、プログラマーが中心となるなど、ChatDev社内の各エージェントが段階的に開発作業に参加していきます。デザイナーたち。
各段階における具体的な役割分担は、おおよそ下図のとおりであり、上記がソフトウェア開発プロセスに基づくタスク分担役割、以下のチャットチェーンが意思決定コミュニケーションとフィードバックプロセスです。
役割分担が完了した後、ChatDev社から「五目並べ」ゲームの開発を受注、早速全員が第一次設計段階に入り、CEO、CPO、CTOが製品の種類やプログラミング言語について簡単な会話をして決定しました。意思決定プロセスは実際のプロセスと非常によく似ています。
その後、CEO と CPO は、製品の具体的な詳細をさらに決定するために一緒にブレインストーミングを開始しました。
これが決まるとプログラミングの段階に入りますが、CTO、プログラマー、デザイナー、コードレビュー担当者の開発プロセスと対話が核となり、協働することでゲーム開発作業が完成します。
製品開発とテストのさまざまなプロセスが完了したら、CTO、プログラマー、CEO、CPO が協力して、顧客との対話のためのソフトウェアの対話に関する詳細な文書を作成します。
プロセス全体では、タスクが 70 以上のサブタスクに分割され、タスクの分割が完了すると、製品開発はほぼ 7 分で完了します (通常の開発サイクルには 2 ~ 4 週間かかる場合があります)。 self-reflection** 機能。いくつかの潜在的な脆弱性を特定し、修正します。
これらの研究者は、開発プロセス全体の各段階のコストについて統計を作成しました。プロセス全体にかかる時間は平均 7 分未満であることに加え、全体のコストは 1 ドル未満**であり、非常に高いソフトウェアであることが実証されています。開発効率です。このゲーム製品の簡単な実装プロセスは次のとおりです。
論文によると、AI エージェントの 86.66% はプロセス全体で完全に実行されました、実行が失敗した部分では、50% のケースは API のトークン長制限が原因でしたこのような失敗 この制限により、コード生成時に指定された長さの範囲内で完全なソース コードを取得できなくなります。これらの課題は、複雑なソフトウェア システムや大規模なコード生成が必要な状況を扱う場合に特に顕著です。
残りの 50% の失敗は、主に外部の依存関係の問題によって影響されます。一部の依存関係がクラウド上で見つからないか、バージョンが間違っている場合に問題が発生します。しかし、全体として、この実験の結果は比較的成功しています。おそらく近い将来、私たちの仕事の多くが AI エージェントに頼れるようになるかもしれません。
論文全文はここでご覧いただけます:
公開コードは GitHub で参照できます。