ケンブリッジ中国チームが PandaGPT をオープンソース化:「6 つのモード」を席巻した最初の大規模基本モデル

出典: 新志源

**聴覚と視覚があり、モデルに世界を理解するためのさまざまな感覚を与えます。 **

現在の大規模言語モデルであるChatGPTはテキスト入力のみであり、GPT-4のバージョンアップ版でも画像入力機能が追加されただけで、動画や音声など他のモーダルデータは扱えません。

最近、ケンブリッジ大学、奈良先端科学技術大学院大学、テンセントの研究者が共同で、モデル PandaGPT モデルに従う一般的な命令を提案し、オープンソース化しました。これは、クロス 6 モダリティ (画像/ビデオ、テキスト、オーディオ、深度、熱、IMU) は、データの基礎となるモデルに従って命令を実行します。

論文リンク:

コードリンク:

明示的なマルチモーダル監視なしで、PandaGPT は、詳細な画像説明の生成、ビデオからインスピレーションを得たストーリーの作成、オーディオに関する質問への回答、または複数ラウンドの対話など、複雑な理解/推論タスクを実行するための強力なマルチモーダル機能を実証します。

つまり、PandaGPT の核となるイノベーションは、複数のモーダル入力を同時に受け入れ、異なるモダリティのセマンティクスを自然に組み合わせて、従来の単一モーダル分析を超え、下流のアプリケーション シナリオを拡張し、実装に近づくことができることです。 AGIの。

##

画像ベースの Q&A:

画像ベースのマルチラウンド質問応答:

ビデオベースの Q&A:

画像/ビデオからインスピレーションを得たクリエイティブな文章:

視覚的推論能力:

音声推論機能:

映像+音声のマルチモーダル理解力:

映像+音声のマルチモーダル理解力:

マルチモーダル PandaGPT

コンピューターに閉じ込められたAIモデルと比較して、人間は世界を理解するために複数の感覚を持っており、自然界で絵を見たり、さまざまな音を聞いたりすることができますが、機械がマルチモーダルな情報を入力できれば、より包括的な世界を理解することができます。 . さまざまな問題を解決します。

現在のマルチモーダル研究のほとんどは、単一のモダリティ、またはテキストと他のモダリティの組み合わせに限定されており、マルチモーダル入力を認識して理解するという完全性と相補性に欠けています。

PandaGPT のマルチモーダル入力を可能にするために、研究者らは ImageBind のマルチモーダル エンコーダと大規模言語モデル Vicuna を組み合わせました。どちらも、視覚および音声ベースの命令に従うタスクで非常に優れたパフォーマンスを達成しました。

同時に、2 つのモデルの特徴空間を一貫させるために、研究者らは 160,000 のオープンソースの画像言語命令フォローアップ データを使用して PandaGPT をトレーニングしました。各トレーニング インスタンスには画像と複数の画像のセットが含まれています。ラウンドダイアログデータがあり、ダイアログには人間のコマンドとシステムの応答がそれぞれ含まれています。

トレーニング可能なパラメータの数を減らすために、研究者らは、Vicuna を接続するために使用される ImageBind 表現と、Vicuna のアテンション モジュール上の追加の LoRA 重みのみをトレーニングしました。

トレーニング プロセス中、8×A100 40G GPU の計算リソースに基づいて、Vicuna-13B の最大シーケンス長を 400 に設定した場合、トレーニングには約 7 時間かかります。

現在のバージョンの PandaGPT は、位置合わせされた画像とテキストのデータのみを使用してトレーニングされていますが、凍結された ImageBind エンコーダーで継承された 6 つのモダリティ (画像/ビデオ、テキスト、オーディオ、深度、熱、および IMU) を利用することにより、PandaGPT が新たな結果を示すことは注目に値します。 、ゼロショットクロスモーダル機能。

制限

PandaGPT は複数のモダリティやモダリティの組み合わせを処理する驚くべき能力を備えていますが、PandaGPT をさらに改善する方法がいくつかあります。

  1. PandaGPT のトレーニング プロセスは、他のモダリティ (音声テキスト) とテキストのマッチングなど、より多くのアライメント データを導入することで強化できます。

  2. 研究者は、テキスト以外のモーダル コンテンツを表現するために 1 つの埋め込みベクトルのみを使用しており、きめ細かい特徴抽出の変形についてはさらなる研究が必要です。たとえば、クロスモーダル アテンション メカニズムはパフォーマンスの向上に有益である可能性があります。

  3. PandaGPT は現在、入力としてマルチモーダル情報のみを使用しますが、将来的には、画像や音声でのテキスト応答の生成など、生成側でより豊富なマルチメディア コンテンツを導入する可能性があります。

  4. マルチモーダル入力を組み合わせる能力を評価するには、新しいベンチマークも必要です

  5. PandaGPT は、幻覚、毒性、固定観念など、既存の言語モデルによくある落とし穴をいくつか示す可能性もあります。

研究者らはまた、PandaGPTは現時点では研究プロトタイプにすぎず、現実世界のアプリケーションに直接使用することはできないとも指摘した。

参考資料:

原文表示
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • 報酬
  • コメント
  • 共有
コメント
0/400
コメントなし
  • ピン
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)