This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
メタはマルチモダリティを再定義します!北京大学の同窓生が協力し、70億パラメータのヴィンセントグラフモデルが拡散を上回る
出典:新志源
メタがまたやって来た!
ちょうど今、Meta は Transformer ベースのマルチモーダル モデル CM3leon を発表しました。これは、Vincent グラフと画像理解の分野で絶対的な進歩を遂げ、その種のモデルの中で最高のものと呼ぶことができます。
さらに、単一モデルへの複数のモダリティのこの組み合わせは、これまでに開示された AI システムでは前例のないものです。
一方、CM3leon のリリースは、自己回帰モデルが主要なベンチマークで主要な生成拡散モデルのパフォーマンスと初めて一致したことを正式に示しています。
以前、ヴィンセントグラフ分野で最も注目を集めた三ツ星モデルは、Stable Diffusion、DALL-E、Midjourneyでした。ヴィンセン図テクニックは基本的に拡散モデルに依存しています。
しかし、CM3leon の革命的な重要性は、まったく異なるテクノロジー、つまりトークナイザーに基づく自己回帰モデルを使用していることです。
結果は、トークナイザーに基づく自己回帰モデルが拡散モデルに基づく方法よりも効果的であるだけでなく、ビンセンチアン グラフの分野で SOTA を達成し、トレーニング計算量が以前の方法より 5 分の 1 であることを示しています。トランスフォーマーをベースにしています!
準備をしましょう。クールなエフェクトの波がやって来ます
生のパフォーマンス指標を見ただけでは何も説明できません。
CM3leon が真価を発揮するのは、より複雑なプロンプトや画像編集タスクを処理する場合です。
正確にレンダリングされた画像と素晴らしい結果
たとえば、「麦わら帽子とネオンサングラスをかぶったサハラ砂漠の小さなサボテン」などの手がかりから画像を正確にレンダリングできます。
CM3leon には、空の色の変更や特定の場所へのオブジェクトの追加など、自由形式のテキスト指示に基づいて既存の画像を編集する独自の機能もあります。
上記の機能は、DALL-E 2 などのモデルが達成できる効果をはるかに超えています。
CM3leon の多用途なアーキテクチャにより、テキスト、画像、合成タスク間を自由かつスムーズに移行できます。
Vincent 図の機能に加えて、CM3leon は画像の注釈を生成したり、画像の内容に関する質問に答えたり、境界ボックスやセグメンテーション マップのテキスト記述から画像を作成したりすることもできます。
単一モデルへのモダリティのこの組み合わせは、これまでに開示された AI システムでは前例のないものです。
: 犬が持っているものは何ですか?モデルは「スティック」と答えました。
: 指定された画像を詳細に説明します。モデルは次のように答えます。この画像では、犬が口に棒をくわえています。地面には草が生えています。画像の背景には木があります。
別個の超解像度プラットフォームを CM3leon 出力と統合できるため、解像度とディテールが大幅に向上します。
「湖の真ん中にある小さな円形の島。湖の周りには森があり、コントラストが高い」——
AI が手を描けないという長年の問題も、CM3leon によって簡単に解決されました。
自己回帰モデルが初めて拡散に勝った?
近年人気のヴィンセント図の分野では、Midjourney、DALL-E 2、Stable Diffusion などはいずれも拡散技術を使用しています。拡散技術は素晴らしい結果をもたらしますが、計算量が多く、実行コストが高くつき、多くの場合、リアルタイム アプリケーションに必要な速度が不足します。
興味深いことに、OpenAI は数年前、Image GPT と呼ばれるモデルを通じて画像生成としての Transformer の可能性を探ろうとしていました。しかし、最終的にはそのアイデアを取り下げ、Diffusion を支持しました。
CM3leon はまったく異なるアプローチを採用しています。 Transformer ベースのモデルとして、アテンション メカニズムを活用して、入力データ (テキストか画像かを問わず) の関連性を評価します。
このアーキテクチャの違いにより、CM3leon はより高速なトレーニング速度とより優れた並列化を実現できるため、従来の拡散ベースの方法よりも効率的になります。
たった 1 つの TPU を使用して、CM3leon は画像データセットで効率的にトレーニングされ、MS-COCO データセットで FID スコア 4.88 を達成し、Google のテキストから画像へのモデル Parti を上回りました。
同時に、CM3leon の効率は同様の Transformer アーキテクチャの 5 倍以上です。
強力なパフォーマンスの鍵となるのは、教師あり微調整 (SFT) の技術です。
SFT はこれまで、ChatGPT などのテキスト生成モデルをトレーニングして効果を発揮するために使用されてきましたが、Meta 氏は、SFT を画像に適用しても役立つと主張しています。
実際、命令の微調整により、画像生成における CM3Leon のパフォーマンスが向上しただけでなく、画像注釈の書き込みにおいても向上しました。これにより、「空の色を次のように変更する」などのテキスト命令に従うことで、画像に関する質問に答え、画像のパフォーマンスを向上させることができるようになりました。明るい青色。" ") 画像を編集します。
CM3leon は、確立されたテキストベースのモデルと同様のデコーダ/トランスフォーマ アーキテクチャのみを採用していますが、テキストと画像を処理する機能が追加されています。
トレーニング プロセスには、検索の拡張だけでなく、さまざまな画像やテキストの生成タスクにわたる命令の微調整が含まれます。
Meta は、クロスモーダル監視付き微調整技術を適用することにより、画像注釈、ビジュアル QA、およびテキスト編集における CM3leon のパフォーマンスを大幅に向上させます。
CM3leon は 30 億のテキスト トークンでのみトレーニングされていますが、最大 1,000 億のトークンでトレーニングされた他のモデルの結果と同等、またはそれを上回っています。
テキスト言語モデルと同様の方法で調整された最初のマルチモーダル モデルとして、Meta には、CM3leon に大規模な検索拡張事前トレーニング ステージと 2 番目のマルチタスク教師あり微調整 (SFT) ステージが組み込まれています。
CM3leon はどのように動作しますか
CM3leon の機能を使用すると、画像生成ツールは入力キューによく従う、より一貫性のある画像を生成できます。
以下は、単一モデルですべてが完了するさまざまなタスクにおける CM3leon の機能のデモンストレーションです。
テキストから画像への生成
テキストベースの画像編集 (例: 「空の色を明るい青に変更する」) は、モデルがテキストの指示と視覚的なコンテンツの両方を理解する必要があるため、困難です。
特に、複雑なオブジェクトが関係している場合、または出力に存在する必要がある複数の制約がヒントに含まれている場合。
CM3leon は、高度に構成された構造を持つプロンプト テキストから、従うべき画像を生成できます。
テキストベースの画像編集
画像とテキスト プロンプトが与えられると、CM3leon はテキストの指示に従って画像を編集できます。
CM3leon モデルの汎用性により、テキストベースの画像編集用にのみ微調整された以前のモデル (InstructPix2Pix など) とは異なり、これは他のタスクと同じモデルで実現されます。
栗を取ります。
質問: これら 2 つのオブジェクトの共通点は何ですか?
コンテキスト: 最良の回答を選択してください。
オプション: (A) シャイニー (B) ソルティ
回答: 段階的に考えてみましょう:
それぞれのオブジェクトについて考えてみましょう。チップスは塩辛いです。プレッツェルは塩辛いです。したがって、答えは(B)です。
特定の画像内のすべてのオブジェクトを詳細に説明します。
道路標識が金属製のポールの上に立っています。ロゴは青に白の文字が入っています。電柱には赤いランプがついています。空は真っ青です。路上に車が駐車してあります。通りの両側には木が植えられています。通りの両側に建物が建っています。
Flamingo (100B) や OpenFlamingo (40B) と比較すると、CM3leon モデルのテキスト データは大幅に少なくなっています (約 3B トークン)。
しかし、MS-COCO 画像の説明と VQA2 の質問応答に関しては、CM3leon はゼロサンプルの OpenFlamingo と同じパフォーマンスを達成し、VizWiz タスクでは Flamingo を 10 パーセント近く上回りました。
構造に基づいた画像編集は、構造情報やレイアウト情報とともに提供されるテキストの指示を理解して解釈することを目的としています。
これにより、CM3leon モデルは、指定された構造またはレイアウトの指示を守りながら、視覚的に一貫性があり、状況に応じて適切な画像編集を作成できます。
セグメンテーションのみを含む (テキスト カテゴリを含まない) 画像で画像を生成します。ここでの入力は、セグメンテーションが抽出される画像を表します。
これに加えて、画像生成の分野には一般的なトリックがあります。それは、個別にトレーニングされた超解像度ステージを利用して、元のモデルの出力から高解像度の画像を生成するというものです。
このタイプのテキストから画像への生成タスクでも、CM3leon は非常に優れたパフォーマンスを発揮します。
(2) 夕暮れ時の美しく雄大なハイウェイ
(3) 湖の中央にある森に囲まれた円形の島
そして、「ファンタジー」スタイルの世代もいます。
CM3Leon のビルド方法
構造
アーキテクチャの点では、CM3Leon は成熟したテキスト モデルと同様のデコーダ専用の Transformer を使用します。
ただし、CM3Leon がテキストと画像を入力および生成できる点が異なります。
訓練
Meta は、論文「Retri-Augmented Multimodal Language Modeling」で提案されたトレーニング検索強化技術を採用することにより、CM3Leon モデルの効率と制御性を大幅に向上させます。
同時に、Meta はさまざまな画像およびテキスト生成タスクに関して CM3Leon モデルを微調整しました。
AI 業界が成長を続けるにつれて、CM3Leon のような生成モデルはより複雑になってきています。
これらのモデルは、何百万ものサンプル画像をトレーニングすることで視覚とテキストの関係を学習しますが、トレーニング データに存在するバイアスも反映する可能性があります。
したがって、Meta は CM3Leon をトレーニングするためにライセンスされたデータセットを採用します。
この結果は、データの分布が以前のモデルとは大きく異なるにもかかわらず、CM3Leon が依然として強力なパフォーマンスを達成していることも示しています。
この点に関して、メタは皆さんの共同の努力によって、より正確で公平なモデルが作成されることを願っています。
マルチモーダル言語モデルへの道を開く
全体として、Meta は、さまざまなタスクにおける CM3Leon の優れたパフォーマンスが、より現実的な画像の生成と理解に向けた重要なステップであると信じています。
そして、そのようなモデルは最終的に創造性を高め、メタバースでより優れたアプリケーションを実現するのに役立ちます。
## 著者について
Lili Yu、Bowen Shi、Ramakanth Pasunuru はこの論文の共著者です。
その中で、Lili Yu は北京大学物理学科で学士号を取得し、MIT で電気工学とコンピューターサイエンスの博士号を取得しました。