This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
ケンブリッジ中国チームが PandaGPT をオープンソース化:「6 つのモード」を席巻した最初の大規模基本モデル
出典: 新志源
現在の大規模言語モデルであるChatGPTはテキスト入力のみであり、GPT-4のバージョンアップ版でも画像入力機能が追加されただけで、動画や音声など他のモーダルデータは扱えません。
最近、ケンブリッジ大学、奈良先端科学技術大学院大学、テンセントの研究者が共同で、モデル PandaGPT モデルに従う一般的な命令を提案し、オープンソース化しました。これは、クロス 6 モダリティ (画像/ビデオ、テキスト、オーディオ、深度、熱、IMU) は、データの基礎となるモデルに従って命令を実行します。
コードリンク:
明示的なマルチモーダル監視なしで、PandaGPT は、詳細な画像説明の生成、ビデオからインスピレーションを得たストーリーの作成、オーディオに関する質問への回答、または複数ラウンドの対話など、複雑な理解/推論タスクを実行するための強力なマルチモーダル機能を実証します。
## 例
画像ベースの Q&A:
マルチモーダル PandaGPT
コンピューターに閉じ込められたAIモデルと比較して、人間は世界を理解するために複数の感覚を持っており、自然界で絵を見たり、さまざまな音を聞いたりすることができますが、機械がマルチモーダルな情報を入力できれば、より包括的な世界を理解することができます。 . さまざまな問題を解決します。
現在のマルチモーダル研究のほとんどは、単一のモダリティ、またはテキストと他のモダリティの組み合わせに限定されており、マルチモーダル入力を認識して理解するという完全性と相補性に欠けています。
PandaGPT のマルチモーダル入力を可能にするために、研究者らは ImageBind のマルチモーダル エンコーダと大規模言語モデル Vicuna を組み合わせました。どちらも、視覚および音声ベースの命令に従うタスクで非常に優れたパフォーマンスを達成しました。
同時に、2 つのモデルの特徴空間を一貫させるために、研究者らは 160,000 のオープンソースの画像言語命令フォローアップ データを使用して PandaGPT をトレーニングしました。各トレーニング インスタンスには画像と複数の画像のセットが含まれています。ラウンドダイアログデータがあり、ダイアログには人間のコマンドとシステムの応答がそれぞれ含まれています。
トレーニング可能なパラメータの数を減らすために、研究者らは、Vicuna を接続するために使用される ImageBind 表現と、Vicuna のアテンション モジュール上の追加の LoRA 重みのみをトレーニングしました。
現在のバージョンの PandaGPT は、位置合わせされた画像とテキストのデータのみを使用してトレーニングされていますが、凍結された ImageBind エンコーダーで継承された 6 つのモダリティ (画像/ビデオ、テキスト、オーディオ、深度、熱、および IMU) を利用することにより、PandaGPT が新たな結果を示すことは注目に値します。 、ゼロショットクロスモーダル機能。
制限
PandaGPT は複数のモダリティやモダリティの組み合わせを処理する驚くべき能力を備えていますが、PandaGPT をさらに改善する方法がいくつかあります。
PandaGPT のトレーニング プロセスは、他のモダリティ (音声テキスト) とテキストのマッチングなど、より多くのアライメント データを導入することで強化できます。
研究者は、テキスト以外のモーダル コンテンツを表現するために 1 つの埋め込みベクトルのみを使用しており、きめ細かい特徴抽出の変形についてはさらなる研究が必要です。たとえば、クロスモーダル アテンション メカニズムはパフォーマンスの向上に有益である可能性があります。
PandaGPT は現在、入力としてマルチモーダル情報のみを使用しますが、将来的には、画像や音声でのテキスト応答の生成など、生成側でより豊富なマルチメディア コンテンツを導入する可能性があります。
マルチモーダル入力を組み合わせる能力を評価するには、新しいベンチマークも必要です
PandaGPT は、幻覚、毒性、固定観念など、既存の言語モデルによくある落とし穴をいくつか示す可能性もあります。
研究者らはまた、PandaGPTは現時点では研究プロトタイプにすぎず、現実世界のアプリケーションに直接使用することはできないとも指摘した。
参考資料: