出典:AIGCオープンコミュニティ 画像ソース: Unbounded AIによって生成マルチモーダル生成は、OpenAI、Microsoft、Baiduなどのテクノロジー大手にとって常に重要な研究分野ですが、一貫性のあるテキストと関連画像をどのように実現するかは難しい問題です。技術的なボトルネックを突破するために、カリフォルニア大学サンタクルーズ校はMiniGPT-5モデル**を開発し、テキスト特徴空間と画像特徴空間**の間の「架け橋」となる新しい技術概念「Generative Vokens」を提案し、通常の学習データの効果的なアライメントを実現し、高品質のテキストと画像を同時に生成します。MiniGPT-5の効果を評価するために、研究者はCC3M、VIST、MMDialogなどの複数のデータセットでテストしました。 結果は、MiniGPT-5が複数の指標で複数の比較ベースラインよりも優れており、首尾一貫した高品質のテキストと画像を生成できることを示しています。たとえば、VISTデータセットでは、MiniGPT-5によって生成された画像のCLIPスコアは、fine-tunedStable Diffusion 2のスコアよりも高くなっています。 人間の評価では、MiniGPT-5は言語の一貫性(57.18%)、画質の向上(52.06%)、マルチモーダルの一貫性の向上(57.62%)を生み出しました。 MMDialogデータセットでは、MiniGPT-5のMM相関指数は0.67に達し、ベンチマークモデルであるDivterの0.62を上回りました。 これは、MiniGPT-5 のさまざまなデータ モードでの強力な適応性を完全に証明しています。オープンソースアドレス:住所: MiniGPT-5モデルには、3つの主要なイノベーションがあります:1)マルチモーダルエンコーダーを使用してテキストと画像の特徴を抽出し、これは新しいテキストと画像のアライメント技術を表しており、大規模な言語モデルを直接使用してビジュアルトークンを生成する方法よりも優れています。2)完全な画像記述のない2段階のトレーニング戦略が提案されました:最初の段階は、テキストと画像の単純な配置に焦点を当てました。 第2段階では、マルチモーダルなきめ細かな特徴学習が行われます。3)「分類器なしガイダンス」技術がトレーニングに導入され、マルチモーダル生成のコンテンツ品質を効果的に向上させることができます。 主なモジュールアーキテクチャは次のとおりです。 ## **ジェネレーティブ・ヴォーケン** MiniGPT-5の中核となるイノベーションは、大規模言語モデルと画像生成モデル間のシームレスな接続を実現する「Generative Vokens」の技術コンセプトを提唱することです。具体的には、研究者はモデルの辞書に8つの特別なVokenトークンを追加しました[IMG1] [IMG8]- 。 これらの Voken は、モデルのトレーニング中に画像のプレースホルダーとして使用されます。入力側では、画像の特徴が Voken の単語ベクトルと接合され、シーケンス入力が形成されます。 出力では、モデルがこれらの Voken の位置を予測し、対応する隠れ状態 h\_voken を使用してイメージ コンテンツを表します。 次に、h\_vokenは、特徴マッピングモジュールを介して、Stable Diffusionテキストエンコーダの出力に整列した画像条件付き特徴ˆh\_vokenに変換される。Stable Diffusion では、ガイド画像生成の条件入力として ˆh\_voken が使用されます。 パイプライン全体で、画像から言語モデル、画像生成へのドッキングが実現されます。Vokenによるこのアライメント方法は、逆計算よりも簡単で、画像記述を使用するよりも用途が広いです。 簡単に言うと、ジェネレーティブヴォーケンは、異なるモデルドメイン間の情報伝達を円滑にする「架け橋」として機能します。 ## **2 段階のトレーニング戦略** MiniGPT-5は、テキストと画像の特徴空間に一定のドメインの違いがあることを考慮し、2段階のトレーニング戦略を採用しています。第1段階は単峰性アライメントフェーズで、CC3Mなどの単一の画像とテキストのペアからのデータのみが使用されます。 モデルは、画像のキャプションから対応する Voken を生成することを学習します。 同時に、Voken が画像コンテンツに合わせやすくするために、セカンダリ画像のタイトルの損失が追加されました。第2段階はマルチモーダル学習フェーズで、VISTなどの連続したマルチモーダルサンプルを含むデータを使用して微調整します。 テキストの生成、画像の生成など、さまざまなトレーニング タスクを設定します。 マルチモーダル情報を処理するモデルの機能が強化されました。この段階的な戦略により、限られたデータで直接トレーニングするという問題を軽減できます。 最初に粗粒度のアライメントを行い、次に細粒度の特徴を微調整することで、モデルの表現力とロバスト性を向上させました。 ## **分類子ガイダンスなし** MiniGPT-5は、生成されたテキストと画像の一貫性をさらに向上させるために、「分類器ガイダンスなし」の技術も採用しています。核となる考え方は、画像拡散の過程で、条件付きボーケンを一定の確率でゼロの特徴に置き換えて、無条件生成を実現するというものです。推論時には、条件付きと無条件の結果が正と負のサンプルとして使用され、モデルは 2 つのコントラストをより適切に使用して、一貫性のあるマルチモーダル出力を生成できます。 この方法はシンプルで効率的であり、追加の分類子を導入する必要がなく、データ比較の性質によってモデルの学習をガイドします。 ## **テキストから画像への生成モデル** MiniGPT-5は、テキストから画像への生成モデルとして、Stable Diffusion 2.1とマルチモーダルモデルのMiniGPT-4を使用しています。 テキストの説明から高品質で高解像度の画像を生成できます。Stable Diffusionは、DiffusionモデルとU-Netを主要コンポーネントとして使用しています。 拡散モデルでは、画像をノイズデータとして表現し、ノイズ除去と再構成を段階的に行うことができます。U-Net は、テキストの特徴を条件として使用して、ノイズ除去プロセスをガイドし、対応する画像を生成します。 GANと比較して、拡散モデルはより安定しており、生成効果はより明確で現実的です。 ジェネレーティブマーカーとジェネレーティブモデルを正確にアライメントするために、研究者らは次元マッチング用のコンパクトなマッピングモジュールを開発し、テキストスペースの損失や潜在拡散モデルの損失など、いくつかの教師あり損失を組み込んだ。テキストの空間損失は、モデルがマーカーの正しい位置を学習するのに役立ち、潜在的な拡散損失は、マーカーを適切な視覚的特徴に直接位置合わせします。 Vokensを生成する特徴は直接画像誘導されるため、画像の包括的な記述を必要とせずに記述学習を実現できます。研究者によると、MiniGPT-5の最大の貢献は、テキスト生成と画像生成の効果的な統合にあります。 事前学習に必要なのは通常のテキストと画像のみで、複雑な画像記述なしでコヒーレントなマルチモーダル生成が可能です。 これにより、マルチモーダルなタスクに統一された効率的なソリューションが提供されます。
画期的な技術! オープンソースのマルチモーダルモデル—MiniGPT-5
出典:AIGCオープンコミュニティ
マルチモーダル生成は、OpenAI、Microsoft、Baiduなどのテクノロジー大手にとって常に重要な研究分野ですが、一貫性のあるテキストと関連画像をどのように実現するかは難しい問題です。
技術的なボトルネックを突破するために、カリフォルニア大学サンタクルーズ校はMiniGPT-5モデルを開発し、テキスト特徴空間と画像特徴空間の間の「架け橋」となる新しい技術概念「Generative Vokens」を提案し、通常の学習データの効果的なアライメントを実現し、高品質のテキストと画像を同時に生成します。
MiniGPT-5の効果を評価するために、研究者はCC3M、VIST、MMDialogなどの複数のデータセットでテストしました。 結果は、MiniGPT-5が複数の指標で複数の比較ベースラインよりも優れており、首尾一貫した高品質のテキストと画像を生成できることを示しています。
たとえば、VISTデータセットでは、MiniGPT-5によって生成された画像のCLIPスコアは、fine-tunedStable Diffusion 2のスコアよりも高くなっています。 人間の評価では、MiniGPT-5は言語の一貫性(57.18%)、画質の向上(52.06%)、マルチモーダルの一貫性の向上(57.62%)を生み出しました。
オープンソースアドレス:
住所:
2)完全な画像記述のない2段階のトレーニング戦略が提案されました:最初の段階は、テキストと画像の単純な配置に焦点を当てました。 第2段階では、マルチモーダルなきめ細かな特徴学習が行われます。
3)「分類器なしガイダンス」技術がトレーニングに導入され、マルチモーダル生成のコンテンツ品質を効果的に向上させることができます。 主なモジュールアーキテクチャは次のとおりです。
ジェネレーティブ・ヴォーケン
MiniGPT-5の中核となるイノベーションは、大規模言語モデルと画像生成モデル間のシームレスな接続を実現する「Generative Vokens」の技術コンセプトを提唱することです。
具体的には、研究者はモデルの辞書に8つの特別なVokenトークンを追加しました[IMG1] [IMG8]- 。 これらの Voken は、モデルのトレーニング中に画像のプレースホルダーとして使用されます。
入力側では、画像の特徴が Voken の単語ベクトルと接合され、シーケンス入力が形成されます。 出力では、モデルがこれらの Voken の位置を予測し、対応する隠れ状態 h_voken を使用してイメージ コンテンツを表します。
Stable Diffusion では、ガイド画像生成の条件入力として ˆh_voken が使用されます。 パイプライン全体で、画像から言語モデル、画像生成へのドッキングが実現されます。
Vokenによるこのアライメント方法は、逆計算よりも簡単で、画像記述を使用するよりも用途が広いです。 簡単に言うと、ジェネレーティブヴォーケンは、異なるモデルドメイン間の情報伝達を円滑にする「架け橋」として機能します。
2 段階のトレーニング戦略
MiniGPT-5は、テキストと画像の特徴空間に一定のドメインの違いがあることを考慮し、2段階のトレーニング戦略を採用しています。
第1段階は単峰性アライメントフェーズで、CC3Mなどの単一の画像とテキストのペアからのデータのみが使用されます。 モデルは、画像のキャプションから対応する Voken を生成することを学習します。 同時に、Voken が画像コンテンツに合わせやすくするために、セカンダリ画像のタイトルの損失が追加されました。
第2段階はマルチモーダル学習フェーズで、VISTなどの連続したマルチモーダルサンプルを含むデータを使用して微調整します。 テキストの生成、画像の生成など、さまざまなトレーニング タスクを設定します。 マルチモーダル情報を処理するモデルの機能が強化されました。
この段階的な戦略により、限られたデータで直接トレーニングするという問題を軽減できます。 最初に粗粒度のアライメントを行い、次に細粒度の特徴を微調整することで、モデルの表現力とロバスト性を向上させました。
分類子ガイダンスなし
MiniGPT-5は、生成されたテキストと画像の一貫性をさらに向上させるために、「分類器ガイダンスなし」の技術も採用しています。
核となる考え方は、画像拡散の過程で、条件付きボーケンを一定の確率でゼロの特徴に置き換えて、無条件生成を実現するというものです。
推論時には、条件付きと無条件の結果が正と負のサンプルとして使用され、モデルは 2 つのコントラストをより適切に使用して、一貫性のあるマルチモーダル出力を生成できます。 この方法はシンプルで効率的であり、追加の分類子を導入する必要がなく、データ比較の性質によってモデルの学習をガイドします。
テキストから画像への生成モデル
MiniGPT-5は、テキストから画像への生成モデルとして、Stable Diffusion 2.1とマルチモーダルモデルのMiniGPT-4を使用しています。 テキストの説明から高品質で高解像度の画像を生成できます。
Stable Diffusionは、DiffusionモデルとU-Netを主要コンポーネントとして使用しています。 拡散モデルでは、画像をノイズデータとして表現し、ノイズ除去と再構成を段階的に行うことができます。
U-Net は、テキストの特徴を条件として使用して、ノイズ除去プロセスをガイドし、対応する画像を生成します。 GANと比較して、拡散モデルはより安定しており、生成効果はより明確で現実的です。
テキストの空間損失は、モデルがマーカーの正しい位置を学習するのに役立ち、潜在的な拡散損失は、マーカーを適切な視覚的特徴に直接位置合わせします。 Vokensを生成する特徴は直接画像誘導されるため、画像の包括的な記述を必要とせずに記述学習を実現できます。
研究者によると、MiniGPT-5の最大の貢献は、テキスト生成と画像生成の効果的な統合にあります。 事前学習に必要なのは通常のテキストと画像のみで、複雑な画像記述なしでコヒーレントなマルチモーダル生成が可能です。 これにより、マルチモーダルなタスクに統一された効率的なソリューションが提供されます。