紙のイラストも拡散モデルを使用して自動生成でき、ICLR に受け入れられます。

2023-06-26 05:21:51

論文中のグラフを描かなくてもよいとしたら、研究者にとっては便利なのでしょうか？テキストの説明を使用して紙のグラフを生成し、この側面を研究した人もいます。その結果は非常に印象的です。

編集者: Du Wei、Zi Wen

画像ソース: Unbounded AI によって生成

生成 AI は人工知能コミュニティで人気があり、個人でも企業でも、文生図、文生ビデオ、文生音楽など、関連するモーダル変換アプリケーションの作成に熱心に取り組んでいます。

最近、ServiceNow Research や LIVIA などの研究機関の数名の研究者が、テキストの説明に基づいて論文内でグラフを生成しようとしました。この目的のために、彼らは FigGen の新しい手法を提案し、関連する論文も ICLR 2023 の Tiny Paper として収録されました。

用紙のアドレス:

論文内のグラフを生成するのがそんなに難しいのかと疑問に思う人もいるかもしれません。これは科学研究にどのように役立ちますか?

科学的なグラフの生成は、研究結果を簡潔かつわかりやすい方法で広めるのに役立ち、グラフの自動生成は、ゼロからグラフを設計する時間と労力を節約するなど、研究者に多くの利点をもたらします。さらに、視覚的に魅力的でわかりやすい図をデザインすることで、より多くの人が紙を利用できるようになります。

ただし、図の生成には、ボックス、矢印、テキストなどの個別のコンポーネント間の複雑な関係を表現する必要があるといういくつかの課題もあります。自然画像の生成とは異なり、紙のグラフの概念は異なる表現を持つ可能性があるため、詳細な理解が必要です。たとえば、ニューラルネットワークグラフの生成には、分散の大きい不適切な問題が含まれます。

したがって、この論文の研究者らは、紙の図表のペアのデータセットで生成モデルをトレーニングし、図のコンポーネントと論文内の対応するテキストの間の関係を捉えました。これには、さまざまな長さ、高度に専門的なテキストの説明、さまざまなグラフスタイル、画像のアスペクト比、テキストのレンダリングフォント、サイズ、方向に対処する必要があります。

具体的な実装プロセスでは、研究者らは拡散モデルを使用してグラフを生成する最近のテキストから画像への成果に触発され、テキストの説明から科学研究のグラフを生成するための潜在的な拡散モデルを提案しました—FigGen。

このディフュージョンモデルのユニークな点は何ですか?詳細に進みましょう。

モデルと方法

研究者らは潜在拡散モデルをゼロからトレーニングしました。

画像オートエンコーダーは、まず画像を圧縮された潜在表現にマッピングすることを学習します。画像エンコーダは、KL 損失と OCR 知覚損失を使用します。チューニングに使用されるテキストエンコーダーは、この拡散モデルのトレーニング中にエンドツーエンドで学習されます。以下の表 3 は、画像オートエンコーダアーキテクチャの詳細なパラメータを示しています。

次に、拡散モデルは潜在空間で直接対話し、データ破損したフォワードスケジューリングを実行しながら、時間的およびテキストの条件付きノイズ除去 U-Net でプロセスを回復する方法を学習します。

データセットに関しては、研究者らは論文のグラフとテキストのペアで構成され、81,194 個のトレーニングサンプルと 21,259 個の検証サンプルを含む Paper2Fig100k を使用しました。以下の図 1 は、Paper2Fig100k テストセットのテキスト記述を使用して生成されたグラフの例です。

モデルの詳細

1つ目は画像エンコーダです。最初の段階では、画像オートエンコーダーがピクセル空間から圧縮された潜在表現へのマッピングを学習し、拡散モデルのトレーニングを高速化します。画像エンコーダーは、グラフの重要な詳細 (テキストのレンダリング品質など) を失うことなく、基礎となる画像をピクセル空間にマップし直すことも学習する必要があります。

この目的を達成するために、画像を係数 f=8 でダウンサンプリングするボトルネック畳み込みコーデックを定義します。エンコーダーは、ガウス分布で KL 損失、VGG 知覚損失、OCR 知覚損失を最小限に抑えるようにトレーニングされています。

2つ目はテキストエンコーダです。研究者らは、汎用のテキストエンコーダがグラフ生成のタスクにはあまり適していないことを発見しました。したがって、彼らは、埋め込みチャネルサイズ 512 で拡散中にゼロからトレーニングされた Bert トランスフォーマーを定義します。これは、U-Net のクロスアテンションレイヤーを規制する埋め込みサイズでもあります。研究者らは、さまざまな設定（8、32、128）での変圧器層の数の変化も調査しました。

最後に、潜在的な拡散モデルがあります。以下の表 2 は、U-Net のネットワークアーキテクチャを示しています。入力サイズが 64x64x4 に圧縮された画像の知覚的に等価な潜在表現に対して拡散プロセスを実行し、拡散モデルを高速化します。彼らは 1,000 の拡散ステップと線形ノイズスケジュールを定義しました。

トレーニングの詳細

画像オートエンコーダーをトレーニングするために、研究者らは、4 枚の 12GB NVIDIA V100 グラフィックスカードを使用し、有効バッチサイズ 4 サンプル、学習率 4.5e−6 の Adam オプティマイザーを使用しました。トレーニングの安定性を達成するために、弁別器を使用せずに 50k 反復でモデルをウォームアップします。

潜在拡散モデルのトレーニングには、有効バッチサイズ 32、学習率 1e−4 の Adam オプティマイザーも使用します。 Paper2Fig100k データセットでモデルをトレーニングするとき、8 枚の 80GB Nvidia A100 グラフィックスカードを使用しました。

実験結果

生成プロセスでは、研究者らは 200 ステップの DDIM サンプラーを採用し、FID、IS、KID、OCR-SIM1 を計算するためにモデルごとに 12,000 のサンプルを生成しました。 Steady は、分類子を使用しないガイダンス (CFG) を使用して過剰規制をテストします。

以下の表 1 は、さまざまなテキストエンコーダーの結果を示しています。大きなテキストエンコーダが最良の定性的結果を生成し、条件付き生成は CFG のサイズを増やすことで改善できることがわかります。定性サンプルは問題を解決するには十分な品質ではありませんが、FigGen はテキストと画像の関係を把握しました。

以下の図 2 は、Classifier-Free Guide (CFG) パラメーターを調整するときに生成される追加の FigGen サンプルを示しています。研究者らは、CFG のサイズを大きくすると (これも定量化されました)、画質が向上することを観察しました。

以下の図 3 は、FigGen 生成のさらにいくつかの例を示しています。サンプル間の長さの違いやテキスト説明の技術レベルに注意してください。これは、モデルがわかりやすい画像を正しく生成することの難しさに密接に影響します。

ただし、研究者らは、これらの生成されたチャートは論文の著者にとって実際的な助けにはならないものの、依然として有望な探求の方向性であることも認めています。

原文表示

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

報酬
いいね
コメント
共有

0/400

コメントなし

トピック
Gate Hits 30 Million Users
58k 人気度
Trump–Musk Rift
32k 人気度
BTC
30134k 人気度
4contentstar
10719k 人気度
5NADA
11186k 人気度
6BOME
11564k 人気度
7BTC
30134k 人気度
8SMILE
9062k 人気度
9比特币
13293k 人気度

ピン

サイトマップ