この分野では、Google Researchが昨年PaLI(Pathways Language and Image)と呼ばれるモデルを立ち上げた。 マルチモーダル大規模モデルとして、PaLIの重要な構造の1つは、言語とビジュアルモデリングに大規模なシングルモーダルバックボーンを再利用し、言語の観点から13Bパラメータを持つmT5-XXL、ビジョンの観点から2Bパラメータを持つViT-Gと4Bパラメータを持つViT-eを再利用することです。 当時、PaLIはほとんどの新旧モデルよりも優れたパフォーマンスを達成しました。
この研究では、4つのビデオキャプションベンチマーク(MSR-VTT、VATEX、ActivityNetキャプション、およびSpoken Moments in Time)でPaLI-3モデルを微調整および評価しました。 さらに、この調査では、NExT-QA、MSR-VTT-QA、およびActivityNet-QAの3つのビデオ質問応答ベンチマークで同じことを行いました。
Googleの視覚言語モデルPaLI-3は、わずか5Bのパラメータで、より小さく、より速く、より強力になりました
大規模モデルの時代には、視覚言語モデル(VLM)のパラメータが数百億、さらには数千億に拡大し、パフォーマンスが向上し続けています。 同時に、より小さなモデルは依然として重要であり、トレーニングとサービスが容易で、環境に優しく、モデル設計の研究サイクルを短縮します。
この分野では、Google Researchが昨年PaLI(Pathways Language and Image)と呼ばれるモデルを立ち上げた。 マルチモーダル大規模モデルとして、PaLIの重要な構造の1つは、言語とビジュアルモデリングに大規模なシングルモーダルバックボーンを再利用し、言語の観点から13Bパラメータを持つmT5-XXL、ビジョンの観点から2Bパラメータを持つViT-Gと4Bパラメータを持つViT-eを再利用することです。 当時、PaLIはほとんどの新旧モデルよりも優れたパフォーマンスを達成しました。
それ以来、Googleは引き続き小規模なモデリングに注力しており、最近、PaLIシリーズの第3世代モデルであるPaLI-3を提案しました。 5Bパラメータのみの事前トレーニング済みベースラインモデルを使用して、トレーニング方法を最適化し、複数のVLMベンチマークで競争力のある新しいSOTA結果を達成しました。
この方法は、Webスケールの画像テキストデータに対する画像エンコーダの比較事前学習、PaLIマルチモーダル学習のための改良されたハイブリッドデータセット、および高解像度の学習の3つの主要部分で構成されています。
論文住所:
下の図は、5B PaLI-3モデルの概要を示しており、事前トレーニング済みの2B SigLIPビジョンモデルを比較することにより、画像が個別にビジュアルトークンにエンコードされます。 次に、クエリとともに、これらのビジュアルトークンが3Bエンコーダー/デコーダー構造のUL2トランスフォーマーに渡され、期待される回答が生成されます。 この設定では、単一の分類事前トレーニング済みモデルの以前のPaLIモデルと比較して、事前トレーニング済みモデルははるかに有用なトークンを提供します。
さらに、研究者らは、分類事前トレーニング済みViTベースラインモデルと比較するためにアブレーション実験も実施し、ノイズの多いWebスケールの画像テキストデータで事前トレーニング済みのビジュアルエンコーダーの実現可能性をさらに確認し、分類されたデータのトレーニングの好ましい代替手段になりました。
5B PaLI-3モデルに加えて、研究者らは最近提案されたSigLIP法を使用して、パラメータを2Bに拡張したSOTA多言語コントラストビジョンモデルを構築しました。
モデル紹介
建築
より高いレベルでは、PaLI-3のアーキテクチャはChenらのアーキテクチャに従います(2023b; a):ViTモデルは画像をトークンとしてエンコードし、質問、プロンプト、指示などのテキスト入力とともにエンコーダー/デコーダー構造のトランスフォーマーに渡され、テキスト出力になります。
ビジュアルコンポーネントから始めましょう。 研究者らは、SigLIPトレーニング法を使用して、比較事前トレーニングされたViT-G/14モデル(パラメータは約2B)からPaLI-3の視覚的バックボーンを初期化しました。 要するに、画像埋め込み用のViT-G/14モデルとテキスト埋め込みトランスモデルで画像とテキストをそれぞれ埋め込むように訓練し、画像とテキスト埋め込みドット積を使用するシグモイド交差エントロピーを持つバイナリ分類器が、それぞれの画像とテキストが互いに一致するかどうかを正確に分類できるようにしました。
これはクリップアンドアライメントに似ていますが、より効率的でスケーラブルで堅牢です。 同時に、この方法はViT画像埋め込みコンポーネントを事前に学習させるため、ViTをPaLIに挿入するとテキスト埋め込みトランスフォーマーは破棄されます。
完全なPaLIモデルを見てみましょう。 ViT画像エンコーダーの出力は、プーリング前にビジュアルトークンを形成し、線形にマッピングされて埋め込み入力テキストトークンに追加されます。 これらのトークンは、事前にトレーニングされた3B UL2エンコーダー/デコーダーモデルに渡され、テキスト出力が生成されます。 モデルのテキスト入力には、通常、タスクのタイプを説明し、タスクに必要なテキスト入力をエンコードするプロンプトが含まれています。
訓練
トレーニングプロセスは複数の段階で構成されています。
フェーズ 0: ユニモーダル事前トレーニング。 SigLIPトレーニングプロトコルによると、画像エンコーダのトレーニング解像度は224×224です。 テキストエンコーダーデコーダは、Tayらによって記述されたハイブリッドノイズリダクション手順に従って訓練された3B UL2モデルである。
フェーズ1:マルチモーダルトレーニング。 結合されたPaLIモデルは、画像エンコーダーとテキストエンコーダー/デコーダーを組み合わせることによってマルチモーダルタスクとデータでトレーニングされ、その時点で画像エンコーダーは224×224の解像度でフリーズしたままになります。 テキスト品質のヒューリスティックフィルタリングとSplitCapトレーニングターゲットの使用により、主要なブレンドコンポーネントが再びWebLIデータセットから派生します。
フェーズ2:高級。 高解像度入力は、画像の詳細をより深く認識できることと、シーケンス長を増やすことでモデルが改善されるための両方で、パフォーマンスを向上させるための広く受け入れられている方法です。 この記事では、画像エンコーダーを解凍し、チェックポイントを812×812および1064×1064の解像度に保つことで、PaLI-3の解像度を向上させます。
タスクの移行。 最後に、個々のタスク(ベンチマーク)ごとに、この論文では、フリーズしたViT画像エンコーダーを使用して、タスクのトレーニングデータでPaLI-3モデルを微調整します。 この記事では、ほとんどのタスクで 812×812 の解像度のチェックポイントを微調整しますが、両方のドキュメント理解タスクでは、解像度を 1064×1064 に上げます。
実験と結果
この実験では、まずPaLIフレームワークの下でさまざまなViTモデルの結果を比較し、研究者は2つのViTモデル、ClassifとSigLIPを検討しました。
表1に示す結果は、SigLIPモデルが小サンプル線形分類で遅れをとっているのに対し、PaLI-3を使用することで、キャプションや質問応答などの単純なタスクではわずかな利益が得られ、より複雑なシナリオ、つまりテキストと空間理解タスクでは大きな利益が得られることを示しています。
研究者らは、PaLI-3を拡張して、言語のような出力を持つセグメンテーションマスクを予測しました。 これを行うために、彼らはNingら(2023)ベクトル化変分オートエンコーダー(VQ-VAE)を利用しました。 VQ-VAEは128個のマスクトークンを学習するようにトレーニングされており、そのエンコーダーは64×64ピクセルのセグメンテーションマスクを16個のマスクトークンとしてマークし、デコーダーが変換して戻すことができます。
研究者は、PaLI-3を訓練して単一のセグメンテーションマスクを予測し、最初に4つの座標をテキストとして出力し、それらを境界ボックスとして表現しました。 その後に、境界ボックス内のマスクを表す 16 個のマスク トークンが続きます。
表1は、このようなターゲティングタスクに対して、コントラスト事前トレーニングが分類事前トレーニングよりも効果的であることを示しています。 以下の表3は、完全なPaLI−3モデルが、参照発現セグメンテーションの点で先行技術よりわずかに優れていることを示す。
次に、研究者らは一般的な視覚言語理解タスクでPaLI-3を評価しました。 以前の作業と同様に、これらのベンチマークが画像にテキストを含むことはめったにないため、外部OCRモジュールを使用しませんでした。
結果は、PaLI-3が最近のSOTAモデルと比較してサイズがはるかに小さいことを示していますが、これらのベンチマークでは非常に強力なパフォーマンスを示しています。 COCOの場合、PaLI-3はBEiT-3と17Bおよび55B PaLIを除くすべてのモデルよりも優れています。 VQAv2とTallyQAでは、PaLI-3はPaLI-Xを除く以前のすべてのモデルを上回っています。 OKVQAミッションでは、PaLI-3はPaLM-E(562B)とPaLI-X(55B)に遅れをとっていますが、それでも32ショットのフラミンゴ(80B)モデルよりも優れています。
この研究では、4つのビデオキャプションベンチマーク(MSR-VTT、VATEX、ActivityNetキャプション、およびSpoken Moments in Time)でPaLI-3モデルを微調整および評価しました。 さらに、この調査では、NExT-QA、MSR-VTT-QA、およびActivityNet-QAの3つのビデオ質問応答ベンチマークで同じことを行いました。
PaLI-3は、事前学習にビデオデータを使用していないにもかかわらず、MSR-VTT-QAとActivityNet-QAで最先端のパフォーマンス、NextQAで競争力のある結果など、小さなモデルサイズで優れたビデオQA結果を達成しました。 画像とビデオのQAの継続的な改善は、比較ViTを採用することの利点を浮き彫りにします。
さらに、PaLI-3は非常に優れたビデオ字幕結果を達成し、SOTA結果より平均わずか3CIDErポイント低くなっています。 モデルサイズを考えると、PaLI-3はパフォーマンスと実用性の両方の点で優れた選択肢のようです。
ダイレクトイメージエンコーダ評価
研究者らはまた、表6に示すように、完全なPaLI-3ではないと理解できるViT-Gモデルを評価しました。
まず、この調査では、標準のImageNetベンチマークとその2つの最も一般的なバリアントを使用して画像分類機能をテストしました。 結果は、SigLIPがトップ1とv2の精度でわずかに遅れていることを示していますが、ReaLでは同等の結果です。
次に、この調査では、Crossmodal-3600ベンチマークのさまざまなモデルの結果を報告しています。 結果は、SigLIP ViT-Gモデルがより大きなViT-eモデルよりも大幅に優れていることを示しています。
最後に、この研究では線形プロービングの結果も報告されており、SigLIPが他のモデルよりも劣っていることが示されました。