ケンブリッジ中国チームが PandaGPT をオープンソース化：「6 つのモード」を席巻した最初の大規模基本モデル

2023-06-24 01:39:55

出典: 新志源

**聴覚と視覚があり、モデルに世界を理解するためのさまざまな感覚を与えます。 **

現在の大規模言語モデルであるChatGPTはテキスト入力のみであり、GPT-4のバージョンアップ版でも画像入力機能が追加されただけで、動画や音声など他のモーダルデータは扱えません。

最近、ケンブリッジ大学、奈良先端科学技術大学院大学、テンセントの研究者が共同で、モデル PandaGPT モデルに従う一般的な命令を提案し、オープンソース化しました。これは、クロス 6 モダリティ (画像/ビデオ、テキスト、オーディオ、深度、熱、IMU) は、データの基礎となるモデルに従って命令を実行します。

論文リンク:

コードリンク:

明示的なマルチモーダル監視なしで、PandaGPT は、詳細な画像説明の生成、ビデオからインスピレーションを得たストーリーの作成、オーディオに関する質問への回答、または複数ラウンドの対話など、複雑な理解/推論タスクを実行するための強力なマルチモーダル機能を実証します。

つまり、PandaGPT の核となるイノベーションは、複数のモーダル入力を同時に受け入れ、異なるモダリティのセマンティクスを自然に組み合わせて、従来の単一モーダル分析を超え、下流のアプリケーションシナリオを拡張し、実装に近づくことができることです。 AGIの。

＃＃例

画像ベースの Q&A:

画像ベースのマルチラウンド質問応答:

ビデオベースの Q&A:

画像/ビデオからインスピレーションを得たクリエイティブな文章:

視覚的推論能力:

音声推論機能:

映像＋音声のマルチモーダル理解力：

映像+音声のマルチモーダル理解力：

マルチモーダル PandaGPT

コンピューターに閉じ込められたAIモデルと比較して、人間は世界を理解するために複数の感覚を持っており、自然界で絵を見たり、さまざまな音を聞いたりすることができますが、機械がマルチモーダルな情報を入力できれば、より包括的な世界を理解することができます。 . さまざまな問題を解決します。

現在のマルチモーダル研究のほとんどは、単一のモダリティ、またはテキストと他のモダリティの組み合わせに限定されており、マルチモーダル入力を認識して理解するという完全性と相補性に欠けています。

PandaGPT のマルチモーダル入力を可能にするために、研究者らは ImageBind のマルチモーダルエンコーダと大規模言語モデル Vicuna を組み合わせました。どちらも、視覚および音声ベースの命令に従うタスクで非常に優れたパフォーマンスを達成しました。

同時に、2 つのモデルの特徴空間を一貫させるために、研究者らは 160,000 のオープンソースの画像言語命令フォローアップデータを使用して PandaGPT をトレーニングしました。各トレーニングインスタンスには画像と複数の画像のセットが含まれています。ラウンドダイアログデータがあり、ダイアログには人間のコマンドとシステムの応答がそれぞれ含まれています。

トレーニング可能なパラメータの数を減らすために、研究者らは、Vicuna を接続するために使用される ImageBind 表現と、Vicuna のアテンションモジュール上の追加の LoRA 重みのみをトレーニングしました。

トレーニングプロセス中、8×A100 40G GPU の計算リソースに基づいて、Vicuna-13B の最大シーケンス長を 400 に設定した場合、トレーニングには約 7 時間かかります。

現在のバージョンの PandaGPT は、位置合わせされた画像とテキストのデータのみを使用してトレーニングされていますが、凍結された ImageBind エンコーダーで継承された 6 つのモダリティ (画像/ビデオ、テキスト、オーディオ、深度、熱、および IMU) を利用することにより、PandaGPT が新たな結果を示すことは注目に値します。、ゼロショットクロスモーダル機能。

制限

PandaGPT は複数のモダリティやモダリティの組み合わせを処理する驚くべき能力を備えていますが、PandaGPT をさらに改善する方法がいくつかあります。

PandaGPT のトレーニングプロセスは、他のモダリティ (音声テキスト) とテキストのマッチングなど、より多くのアライメントデータを導入することで強化できます。
研究者は、テキスト以外のモーダルコンテンツを表現するために 1 つの埋め込みベクトルのみを使用しており、きめ細かい特徴抽出の変形についてはさらなる研究が必要です。たとえば、クロスモーダルアテンションメカニズムはパフォーマンスの向上に有益である可能性があります。
PandaGPT は現在、入力としてマルチモーダル情報のみを使用しますが、将来的には、画像や音声でのテキスト応答の生成など、生成側でより豊富なマルチメディアコンテンツを導入する可能性があります。
マルチモーダル入力を組み合わせる能力を評価するには、新しいベンチマークも必要です
PandaGPT は、幻覚、毒性、固定観念など、既存の言語モデルによくある落とし穴をいくつか示す可能性もあります。

研究者らはまた、PandaGPTは現時点では研究プロトタイプにすぎず、現実世界のアプリケーションに直接使用することはできないとも指摘した。

参考資料：

原文表示

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

報酬
いいね
コメント
共有

0/400

コメントなし

トピック
Gate Hits 30 Million Users
51k 人気度
Trump–Musk Rift
28k 人気度
BTC
30134k 人気度
4contentstar
10719k 人気度
5NADA
11186k 人気度
6BOME
11564k 人気度
7BTC
30134k 人気度
8SMILE
9062k 人気度
9比特币
13287k 人気度

ピン

サイトマップ