>Stable Diffusionに慣れており、ついにMatryoshka Diffusionモデルが登場し、これもApple製です。出典: Heart of the Machine 画像ソース: Unbounded AIによって生成ジェネレーティブAIの時代において、拡散モデルは、画像、動画、3D、音声、テキスト生成などのジェネレーティブAIアプリケーションで人気のあるツールとなっています。 しかし、拡散モデルを高解像度領域に拡張することは、各ステップですべての高解像度入力を再コーディングする必要があるため、依然として大きな課題です。 これらの課題を解決するには、アテンションブロックを備えたディープアーキテクチャを使用する必要があり、最適化がより困難になり、より多くの計算能力とメモリを消費します。何をすべきか? 最近の研究では、高解像度画像のための効率的なネットワークアーキテクチャに焦点を当てています。 しかし、既存の手法はいずれも512×512の分解能を超える結果を示すことはなく、生成品質は主流のカスケード法や潜在法に遅れをとっています。OpenAI DALL-E 2、Google IMAGEN、NVIDIA eDiffIを例にとると、1つの低解像度モデルと複数の超解像拡散モデルを学習し、各コンポーネントを個別にトレーニングすることで計算能力を節約しています。 一方、潜在拡散モデル(LDM)は、低分解能の拡散モデルのみを学習し、個別に学習された高分解能オートエンコーダーに依存します。 どちらのシナリオでも、複数段階のパイプラインはトレーニングと推論を複雑にし、多くの場合、微調整やハイパーパラメーター化が必要になります。この論文では、研究者らは、エンドツーエンドの高解像度画像生成のための新しい拡散モデルであるマトリョーシカ拡散モデル(MDM)を提案します。 コードはまもなくリリースされます。 住所:この研究で提示された主なアイデアは、高解像度生成の一部としてネストされたUNetアーキテクチャを使用して、複数の解像度で共同拡散プロセスを実行することです。この研究では、MDMとネストされたUNetアーキテクチャが、1)多重解像度の損失を達成したことがわかりました。 2)低解像度の拡散モデルのトレーニングから始まり、計画どおりに高解像度の入力と出力を段階的に追加する、効率的なプログレッシブトレーニング計画。 実験結果は、多重解像度の損失とプログレッシブ トレーニングの組み合わせにより、トレーニング コストとモデル品質のバランスを改善できることを示しています。この研究では、クラス条件付き画像生成とテキスト条件付き画像およびビデオ生成の観点からMDMを評価しました。 MDMは、カスケードや潜在拡散を必要とせずに高解像度モデルをトレーニングできます。 アブレーション研究は、マルチ解像度の損失と漸進的なトレーニングの両方がトレーニングの効率と質を大幅に向上させることを示しました。MDMで生成された次の画像とビデオを見てみましょう。  **方法論の概要**研究者によると、MDM拡散モデルは、階層的なデータ形成を使用しながら、高解像度でエンドツーエンドでトレーニングされています。 MDMは、まず拡散空間で標準の拡散モデルを一般化し、次に専用のネストされたアーキテクチャとトレーニングプロセスを提案します。まず、拡張空間における標準拡散モデルを一般化する方法を見てみましょう。カスケードや潜在アプローチとは異なり、MDMは、拡張された空間に多重解像度の拡散プロセスを導入することで、階層構造を持つ単一の拡散プロセスを学習します。 これを以下の図2に示します。 具体的には、データ点 x ∈ R^N が与えられた場合、研究者は時間依存の潜在変数 z\_t = z\_t^1 , . . . , z\_t^R ∈ R^N\_1+... NR。 研究者によると、拡張空間での拡散モデリングには2つの利点があります。 1 つには、推論中のフル解像度の出力 z\_t^R に一般的に関心があり、他のすべての中解像度の出力は追加の潜在変数 z\_t^r として扱われ、モデリング分布が複雑になります。 第 2 に、多重解決依存関係は、z\_t^r 間で重みと計算を共有する機会を提供し、より効率的な方法で計算を再分散し、効率的なトレーニングと推論を可能にします。nestedUNet のしくみを見てみましょう。一般的な拡散モデルと同様に、研究者らはUNetネットワーク構造を使用してMDMを実装し、残差接続と計算ブロックを並行して使用して、きめ細かな入力情報を保持します。 ここでの計算ブロックには、多層畳み込みとセルフアテンション層が含まれています。 NestedUNet と標準 UNet のコードは次のとおりです。 NestedUNet では、他の階層型メソッドに比べて単純であることに加えて、最も効率的な方法で計算を割り当てることができます。 下の図3に示すように、初期の研究者は、ほとんどのパラメータと計算を最低の解像度で割り当てた場合、MDMが有意に優れたスケーラビリティを達成することを発見しました。 最後に、**学習**があります。研究者らは、以下の式(3)に示すように、従来のノイズ除去ターゲットを使用して、複数の解像度でMDMをトレーニングしました。 ここでは、プログレッシブトレーニングが使用されます。 研究者らは、上記の式(3)に従ってMDMをエンドツーエンドで直接トレーニングし、元のベースライン法よりも優れた収束性を示しました。 その結果、GAN論文で提案されているような単純なプログレッシブ学習法を用いて、高解像度モデルの学習が大幅に高速化されることが分かりました。このトレーニング方法により、コストのかかる高解像度のトレーニングを最初から回避し、全体的な収束を加速します。 それだけでなく、異なる最終解像度のサンプルを 1 つのバッチで同時にトレーニングする混合解像度トレーニングも組み込まれました。**実験と結果**MDM は、入力ディメンションを徐々に圧縮できるあらゆる問題に対応する汎用テクノロジです。 MDMとベースラインアプローチの比較を以下の図4に示します。 表1にImageNet(FID-50K)とCOCO(FID-30K)の比較を示します。 以下の図5、6、7は、画像生成(図5)、テキストから画像(図6)、テキストからビデオ(図7)におけるMDMの結果を示しています。 MDMは、比較的小さなデータセットでトレーニングされているにもかかわらず、高解像度の画像やビデオを生成する強力なゼロショット能力を実証しています。  
AppleのWenshengダイアグラムの大きなモデルが発表されました:1024x1024の解像度をサポートするマトリョーシカ拡散
出典: Heart of the Machine
ジェネレーティブAIの時代において、拡散モデルは、画像、動画、3D、音声、テキスト生成などのジェネレーティブAIアプリケーションで人気のあるツールとなっています。 しかし、拡散モデルを高解像度領域に拡張することは、各ステップですべての高解像度入力を再コーディングする必要があるため、依然として大きな課題です。 これらの課題を解決するには、アテンションブロックを備えたディープアーキテクチャを使用する必要があり、最適化がより困難になり、より多くの計算能力とメモリを消費します。
何をすべきか? 最近の研究では、高解像度画像のための効率的なネットワークアーキテクチャに焦点を当てています。 しかし、既存の手法はいずれも512×512の分解能を超える結果を示すことはなく、生成品質は主流のカスケード法や潜在法に遅れをとっています。
OpenAI DALL-E 2、Google IMAGEN、NVIDIA eDiffIを例にとると、1つの低解像度モデルと複数の超解像拡散モデルを学習し、各コンポーネントを個別にトレーニングすることで計算能力を節約しています。 一方、潜在拡散モデル(LDM)は、低分解能の拡散モデルのみを学習し、個別に学習された高分解能オートエンコーダーに依存します。 どちらのシナリオでも、複数段階のパイプラインはトレーニングと推論を複雑にし、多くの場合、微調整やハイパーパラメーター化が必要になります。
この論文では、研究者らは、エンドツーエンドの高解像度画像生成のための新しい拡散モデルであるマトリョーシカ拡散モデル(MDM)を提案します。 コードはまもなくリリースされます。
この研究で提示された主なアイデアは、高解像度生成の一部としてネストされたUNetアーキテクチャを使用して、複数の解像度で共同拡散プロセスを実行することです。
この研究では、MDMとネストされたUNetアーキテクチャが、1)多重解像度の損失を達成したことがわかりました。 2)低解像度の拡散モデルのトレーニングから始まり、計画どおりに高解像度の入力と出力を段階的に追加する、効率的なプログレッシブトレーニング計画。 実験結果は、多重解像度の損失とプログレッシブ トレーニングの組み合わせにより、トレーニング コストとモデル品質のバランスを改善できることを示しています。
この研究では、クラス条件付き画像生成とテキスト条件付き画像およびビデオ生成の観点からMDMを評価しました。 MDMは、カスケードや潜在拡散を必要とせずに高解像度モデルをトレーニングできます。 アブレーション研究は、マルチ解像度の損失と漸進的なトレーニングの両方がトレーニングの効率と質を大幅に向上させることを示しました。
MDMで生成された次の画像とビデオを見てみましょう。
研究者によると、MDM拡散モデルは、階層的なデータ形成を使用しながら、高解像度でエンドツーエンドでトレーニングされています。 MDMは、まず拡散空間で標準の拡散モデルを一般化し、次に専用のネストされたアーキテクチャとトレーニングプロセスを提案します。
まず、拡張空間における標準拡散モデルを一般化する方法を見てみましょう。
カスケードや潜在アプローチとは異なり、MDMは、拡張された空間に多重解像度の拡散プロセスを導入することで、階層構造を持つ単一の拡散プロセスを学習します。 これを以下の図2に示します。
nestedUNet のしくみを見てみましょう。
一般的な拡散モデルと同様に、研究者らはUNetネットワーク構造を使用してMDMを実装し、残差接続と計算ブロックを並行して使用して、きめ細かな入力情報を保持します。 ここでの計算ブロックには、多層畳み込みとセルフアテンション層が含まれています。 NestedUNet と標準 UNet のコードは次のとおりです。
研究者らは、以下の式(3)に示すように、従来のノイズ除去ターゲットを使用して、複数の解像度でMDMをトレーニングしました。
このトレーニング方法により、コストのかかる高解像度のトレーニングを最初から回避し、全体的な収束を加速します。 それだけでなく、異なる最終解像度のサンプルを 1 つのバッチで同時にトレーニングする混合解像度トレーニングも組み込まれました。
実験と結果
MDM は、入力ディメンションを徐々に圧縮できるあらゆる問題に対応する汎用テクノロジです。 MDMとベースラインアプローチの比較を以下の図4に示します。