テキスト、画像、オーディオ、ビデオ...Microsoft のクロスモーダルモデル CoDi はどのくらい強力ですか?

Question

![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f937af10e0-dd1a6f-7649e1) 画像ソース: Unbounded AI によって生成Microsoft Azure 研究チームとノースカロライナ大学の研究者は、新しいマルチモーダル生成モデルである CoDi (Composable Diffusion) を紹介する論文「Arbitrary Generation Through Composable Diffusion」を発表しました。CoDi は、言語、画像、ビデオ、オーディオなどの入力モダリティの任意の組み合わせから出力モダリティの任意の組み合わせを生成できます。既存の生成 AI システムとは異なり、CoDi は複数のモダリティを並行して生成でき、その入力はテキストや画像などのモダリティのサブセットに限定されません。 CoDi は、トレーニング データに存在しない場合でも、入力の任意の組み合わせを自由に条件付けし、任意のモダリティのセットを生成します。CoDi は、テキスト、画像、オーディオ、ビデオなどのマルチモーダル コンテンツを同時に処理および生成することにより、前例のないレベルのコンテンツ生成を導入します。 CoDi は、拡散モデルとコンポーザブル技術を使用して、単一または複数の入力から高品質で多様な出力を生成し、コンテンツの作成、アクセシビリティ、およびパーソナライズされた学習を変革します。CoDi は高度にカスタマイズ可能で柔軟性があり、最先端の単一モダリティ合成を上回る、またはそれに匹敵する堅牢な結合モダリティ生成品質を実現します。最近、CoDi は新たな進歩を遂げ、Microsoft Azure プラットフォームで正式に利用可能になり、12 か月間無料で使用できます。## **CoDi の強力さ**CoDi は、マルチモーダル AI 機能の進歩に特化した研究イニシアチブである Microsoft の野心的な i-Code プロジェクトの一環として登場しました。さまざまなソースからの情報をシームレスに統合し、一貫した出力を生成する CoDi の機能は、人間とコンピューターの対話の複数の領域に革命を起こすことが期待されています。CoDi が変化をもたらす可能性のある分野の 1 つは、障害を持つ人々がより効果的にコンピュータと対話できるようにする支援技術です。 CoDi は、テキスト、画像、ビデオ、オーディオにわたるコンテンツをシームレスに生成することで、より没入型でアクセスしやすいコンピューティング エクスペリエンスをユーザーに提供できます。さらに、CoDi は、包括的な対話型学習環境を提供することで、カスタム学習ツールを再発明する可能性を秘めています。学生は、さまざまなソースからの情報をシームレスに統合するマルチモーダル コンテンツに取り組み、トピックへの理解と関与を強化します。CoDi はコンテンツ生成にも革命をもたらします。このモデルは、複数のモダリティにわたって高品質の出力を生成できるため、コンテンツ作成プロセスを簡素化し、クリエイターの負担を軽減できます。魅力的なソーシャル メディア投稿の生成、インタラクティブなマルチメディア プレゼンテーションの作成、魅力的なストーリーテリング エクスペリエンスの作成など、CoDi の機能にはコンテンツ生成の状況を再構築する可能性があります。従来のユニモーダル AI モデルの制限に対処するために、CoDi は、モダリティ固有の生成モデルを組み合わせる退屈で時間のかかるプロセスに対するソリューションを提供します。この新しいモデルは、拡散中の調整をブリッジし、時間調整されたビデオとオーディオなどの織り交ぜられたモダリティの同時生成を容易にする、独自のコンポーザブル生成戦略を採用しています。CoDi のモデル トレーニング プロセスも非常に特徴的です。これには、画像、ビデオ、オーディオ、言語などの入力モダリティを共通の意味空間に投影することが含まれます。これにより、マルチモーダル入力の柔軟な処理が可能になり、クロスアテンション モジュールと環境エンコーダーを通じて、出力モダリティの任意の組み合わせを同時に生成できます。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-9bc9f58601-dd1a6f-7649e1) (上) CoDi のモデル アーキテクチャ: CoDi は、線形数のタスクでのみトレーニングできるが、入力モダリティと出力モダリティのすべての組み合わせを推論できる多段階トレーニング スキームを使用します。## **丨単一または複数の入力 --> 複数の出力**CoDi モデルは、単一または複数のキュー (ビデオ、画像、テキスト、またはオーディオを含む) を取得して、サウンドを伴うビデオなど、複数の調整された出力を生成できます。例えば：**1. テキスト+画像+音声——>音声+ビデオ**「スケートボードに乗ったテディベア、4K、高解像度」 + ニューヨークのタイムズスクエアの写真 + 雨の音声 --> CoDi 生成後、「雨のタイムズスクエアでスケートボードをするテディベア、伴奏付き」の作品雨の音と街の騒音が同時に聞こえた。」![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-17f537e017-dd1a6f-7649e1) どのように生成されるのでしょうか?> CoDi は、コンポーザブル拡散を通じてビデオ、画像、オーディオ、テキストの任意の組み合わせを共同生成できます。 CoDi は、最初に音声トラックを受信してテキスト字幕を生成し、次に画像 + 音声 - 音声の画像を受信し、次に画像 + 音声 + テキストを受信してそれらの情報を組み合わせて新しい結合画像 + 字幕を生成します。最後に、CoDi は画像 + 音声 + テキストを受信し、ビデオ + 音声を生成することもできます。**2 テキスト+音声+画像 -->テキスト+画像**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-6467153927-dd1a6f-7649e1) 1. **3.** **音声 + 画像 --> テキスト + 画像**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f959317814-dd1a6f-7649e1) 1. **4. テキスト+画像 ——>テキスト+画像**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-d32b2de333-dd1a6f-7649e1) **5. テキスト--->ビデオ+オーディオ**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-fcc4d70bb8-dd1a6f-7649e1) **6. テキスト——>テキスト+音声+画像**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-247b38d9d6-dd1a6f-7649e1)## **丨複数の入力 --> 単一の出力****1. テキスト+音声—画像**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-586363abe2-dd1a6f-7649e1) **2. テキスト + 画像 --> 画像**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-77e8f7810d-dd1a6f-7649e1) **3 テキスト+音声 --> ビデオ**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-1799ea0bcd-dd1a6f-7649e1) **4 テキスト + 画像 --> ビデオ**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e145e766ea-dd1a6f-7649e1) **5. ビデオ + オーディオ --> テキスト、画像 + オーディオ --> オーディオ、テキスト + 画像 --> オーディオなどもあります**## **丨単一入力—単一出力****1 テキスト --> 画像**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-3b57b17518-dd1a6f-7649e1) **2 音声 --> 画像**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-97ced2f7d6-dd1a6f-7649e1) **3 画像 --> ビデオ**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-12e68d0230-dd1a6f-7649e1) **4 画像 --> 音声**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-a34494b67f-dd1a6f-7649e1) **5 音声 --> テキスト**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f1beb7662f-dd1a6f-7649e1) **6 画像 --> テキスト**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5aa0a798f4-dd1a6f-7649e1) 参考文献:***

テキスト、画像、オーディオ、ビデオ...Microsoft のクロスモーダル モデル CoDi はどのくらい強力ですか?

CoDi の強力さ

丨単一または複数の入力 --> 複数の出力

丨複数の入力 --> 単一の出力

丨単一入力—単一出力

テキスト、画像、オーディオ、ビデオ...Microsoft のクロスモーダルモデル CoDi はどのくらい強力ですか?