ミッドジャーニーでは最強の敵が登場し、シードラウンドの資金提供大手が集結し、ベータ版ではマスク氏が「鍵」1つで通過できるようになった

2023-08-24 08:54:10

**出典:**マシンのパワー

ミッドジャーニーは長い間、AIGC ヴィンセントの図式の王座にしっかりと座っており、この会社が出現するまでほとんど脅威はありませんでした。

8月23日、生成型人工知能のスタートアップであるIdeogram AIは公式ウェブサイトで「創造的な表現をより簡単に、より楽しく、より効率的に行うための最先端の人工知能ツールを開発している」と正式に発表した。

チームの中心メンバーは Google Brain Imagen チームの主要メンバーでもあり、Ideogram AI も Imagen を継承しようとしていると考えられています。

Mohammad Norouzi (CEO)、Jonathan Ho (共同創設者)、William Chan、Chitwan Saharia はいずれも Google のテキストから画像への AI モデル Imagen の中心著者であり、関連論文は NeurIPS 2022 Outstanding Paper の最終候補に挙げられています。

Imagen は、Transformer 言語モデルを使用して、入力テキストを一連の埋め込みベクトルに変換します。次に、一連の 3 つの拡散モデル (拡散モデル) によって、これらの埋め込まれたベクトルが 1024x1024 ピクセルの画像に変換されます。

Imagen は概念的にシンプルでトレーニングが簡単で、驚くほど強力な効果も生み出すことができるため、拡散モデルに対するみんなの理解を再構築するだけでなく、DALL-E 2 を超える Vincent グラフの新しいパラダイムを切り開きます。

その後、Meta がテキストビデオ AI モデル Make-A-Video を発表した後、Google は高解像度ビデオを生成するためのカスケードビデオ拡散モデルに基づいたビデオモデル Imagen Video (名前が似ています) をリリースしました。

Imagen Videoは、従来のImagenテキスト生成画像システムのテキストを正確に描画する機能を継承しており、簡単な記述だけで様々なクリエイティブなアニメーションを生成することができます。

現在のチームメンバーは公式サイトに掲載されています。

「当社の創設チームは、Google Brain、カリフォルニア大学バークレー校、カーネギーメロン大学、トロント大学で革新的な人工知能プロジェクトを主導してきました。」と公式ウェブサイトには記載されています。

Mohammad Norouzi 氏は、自分のビジネスを始める前に Google Brain で 7 年間勤務し、Google の最終レベルは生成モデルを専門とする上級研究員でした。 Ideogram AI には、Imagen、Imagen Video、音声合成用の WaveGrad、ニューラル機械翻訳、視覚表現の学習、対照研究など、人工知能の最も幅広い基礎的な作業が含まれています。協力的なチームメンバーも最も多いです。

カリフォルニア大学バークレー校で博士号を取得した共同創設者のジョナサン・ホー氏は、普及モデルに多大な貢献をしてきたため、業界関係者らは彼の辞任がグーグルにとって大きな損失とみなされている。

2022 年 4 月、Google はビデオ拡散モデル (ビデオ拡散モデル) を提案し、テキストからビデオを生成する拡散モデルの結果を初めて報告しました (良好な結果が得られました)。この記事の主な執筆者は Mohammad Norouzi と Jonathan Ho です。

Jonathan Ho は拡散モデルの創設者の 1 人でもあり、ノイズ除去拡散モデル Denoising Diffusion Probabilistic Models を提案しました。 (興味深いことに、共著者の一人であるピーター・アッビールはこの会社の投資家でもあります)。

Chitwan Saharia は、Google で画像間の拡散モデルの研究を主導しました。 Willian chan は、拡散モデルの研究に加えて、Google 在職中に Neural Speech Recognition にも取り組み、WaveGrad で Mohammad Norouzi と共同で音声合成に取り組みました。

おそらく Google は安全性と倫理に対する懸念から、Imagen と Imagen Video をオープンソースにするかどうかを選択するためにさらなる規制を設ける必要があり、これらのバックボーンは事業から撤退することを決定しました。

「私たちは創造性と高い信頼性と安全性の基準に重点を置き、人工知能の限界を押し広げています。」と公式発表は結ばれている。

公式サイトのスクリーンショット