This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
紙のイラストも拡散モデルを使用して自動生成でき、ICLR に受け入れられます。
編集者: Du Wei、Zi Wen
生成 AI は人工知能コミュニティで人気があり、個人でも企業でも、文生図、文生ビデオ、文生音楽など、関連するモーダル変換アプリケーションの作成に熱心に取り組んでいます。
最近、ServiceNow Research や LIVIA などの研究機関の数名の研究者が、テキストの説明に基づいて論文内でグラフを生成しようとしました。この目的のために、彼らは FigGen の新しい手法を提案し、関連する論文も ICLR 2023 の Tiny Paper として収録されました。
論文内のグラフを生成するのがそんなに難しいのかと疑問に思う人もいるかもしれません。これは科学研究にどのように役立ちますか?
科学的なグラフの生成は、研究結果を簡潔かつわかりやすい方法で広めるのに役立ち、グラフの自動生成は、ゼロからグラフを設計する時間と労力を節約するなど、研究者に多くの利点をもたらします。さらに、視覚的に魅力的でわかりやすい図をデザインすることで、より多くの人が紙を利用できるようになります。
ただし、図の生成には、ボックス、矢印、テキストなどの個別のコンポーネント間の複雑な関係を表現する必要があるといういくつかの課題もあります。自然画像の生成とは異なり、紙のグラフの概念は異なる表現を持つ可能性があるため、詳細な理解が必要です。たとえば、ニューラル ネットワーク グラフの生成には、分散の大きい不適切な問題が含まれます。
したがって、この論文の研究者らは、紙の図表のペアのデータセットで生成モデルをトレーニングし、図のコンポーネントと論文内の対応するテキストの間の関係を捉えました。これには、さまざまな長さ、高度に専門的なテキストの説明、さまざまなグラフ スタイル、画像のアスペクト比、テキストのレンダリング フォント、サイズ、方向に対処する必要があります。
具体的な実装プロセスでは、研究者らは拡散モデルを使用してグラフを生成する最近のテキストから画像への成果に触発され、テキストの説明から科学研究のグラフを生成するための潜在的な拡散モデルを提案しました—FigGen。
このディフュージョンモデルのユニークな点は何ですか?詳細に進みましょう。
モデルと方法
研究者らは潜在拡散モデルをゼロからトレーニングしました。
画像オートエンコーダーは、まず画像を圧縮された潜在表現にマッピングすることを学習します。画像エンコーダは、KL 損失と OCR 知覚損失を使用します。チューニングに使用されるテキスト エンコーダーは、この拡散モデルのトレーニング中にエンドツーエンドで学習されます。以下の表 3 は、画像オートエンコーダ アーキテクチャの詳細なパラメータを示しています。
次に、拡散モデルは潜在空間で直接対話し、データ破損したフォワード スケジューリングを実行しながら、時間的およびテキストの条件付きノイズ除去 U-Net でプロセスを回復する方法を学習します。
1つ目は画像エンコーダです。最初の段階では、画像オートエンコーダーがピクセル空間から圧縮された潜在表現へのマッピングを学習し、拡散モデルのトレーニングを高速化します。画像エンコーダーは、グラフの重要な詳細 (テキストのレンダリング品質など) を失うことなく、基礎となる画像をピクセル空間にマップし直すことも学習する必要があります。
この目的を達成するために、画像を係数 f=8 でダウンサンプリングするボトルネック畳み込みコーデックを定義します。エンコーダーは、ガウス分布で KL 損失、VGG 知覚損失、OCR 知覚損失を最小限に抑えるようにトレーニングされています。
2つ目はテキストエンコーダです。研究者らは、汎用のテキスト エンコーダがグラフ生成のタスクにはあまり適していないことを発見しました。したがって、彼らは、埋め込みチャネル サイズ 512 で拡散中にゼロからトレーニングされた Bert トランスフォーマーを定義します。これは、U-Net のクロスアテンション レイヤーを規制する埋め込みサイズでもあります。研究者らは、さまざまな設定(8、32、128)での変圧器層の数の変化も調査しました。
最後に、潜在的な拡散モデルがあります。以下の表 2 は、U-Net のネットワーク アーキテクチャを示しています。入力サイズが 64x64x4 に圧縮された画像の知覚的に等価な潜在表現に対して拡散プロセスを実行し、拡散モデルを高速化します。彼らは 1,000 の拡散ステップと線形ノイズ スケジュールを定義しました。
画像オートエンコーダーをトレーニングするために、研究者らは、4 枚の 12GB NVIDIA V100 グラフィックス カードを使用し、有効バッチ サイズ 4 サンプル、学習率 4.5e−6 の Adam オプティマイザーを使用しました。トレーニングの安定性を達成するために、弁別器を使用せずに 50k 反復でモデルをウォームアップします。
潜在拡散モデルのトレーニングには、有効バッチ サイズ 32、学習率 1e−4 の Adam オプティマイザーも使用します。 Paper2Fig100k データセットでモデルをトレーニングするとき、8 枚の 80GB Nvidia A100 グラフィックス カードを使用しました。
実験結果
生成プロセスでは、研究者らは 200 ステップの DDIM サンプラーを採用し、FID、IS、KID、OCR-SIM1 を計算するためにモデルごとに 12,000 のサンプルを生成しました。 Steady は、分類子を使用しないガイダンス (CFG) を使用して過剰規制をテストします。
以下の表 1 は、さまざまなテキスト エンコーダーの結果を示しています。大きなテキスト エンコーダが最良の定性的結果を生成し、条件付き生成は CFG のサイズを増やすことで改善できることがわかります。定性サンプルは問題を解決するには十分な品質ではありませんが、FigGen はテキストと画像の関係を把握しました。