チームの中心メンバーは Google Brain Imagen チームの主要メンバーでもあり、Ideogram AI も Imagen を継承しようとしていると考えられています。
Mohammad Norouzi (CEO)、Jonathan Ho (共同創設者)、William Chan、Chitwan Saharia はいずれも Google のテキストから画像への AI モデル Imagen の中心著者であり、関連論文は NeurIPS 2022 Outstanding Paper の最終候補に挙げられています。
Mohammad Norouzi 氏は、自分のビジネスを始める前に Google Brain で 7 年間勤務し、Google の最終レベルは生成モデルを専門とする上級研究員でした。 Ideogram AI には、Imagen、Imagen Video、音声合成用の WaveGrad、ニューラル機械翻訳、視覚表現の学習、対照研究など、人工知能の最も幅広い基礎的な作業が含まれています。協力的なチームメンバーも最も多いです。
ミッドジャーニーでは最強の敵が登場し、シードラウンドの資金提供大手が集結し、ベータ版ではマスク氏が「鍵」1つで通過できるようになった
**出典:**マシンのパワー
8月23日、生成型人工知能のスタートアップであるIdeogram AIは公式ウェブサイトで「創造的な表現をより簡単に、より楽しく、より効率的に行うための最先端の人工知能ツールを開発している」と正式に発表した。
チームの中心メンバーは Google Brain Imagen チームの主要メンバーでもあり、Ideogram AI も Imagen を継承しようとしていると考えられています。
Mohammad Norouzi (CEO)、Jonathan Ho (共同創設者)、William Chan、Chitwan Saharia はいずれも Google のテキストから画像への AI モデル Imagen の中心著者であり、関連論文は NeurIPS 2022 Outstanding Paper の最終候補に挙げられています。
Imagen は、Transformer 言語モデルを使用して、入力テキストを一連の埋め込みベクトルに変換します。次に、一連の 3 つの拡散モデル (拡散モデル) によって、これらの埋め込まれたベクトルが 1024x1024 ピクセルの画像に変換されます。
Imagen は概念的にシンプルでトレーニングが簡単で、驚くほど強力な効果も生み出すことができるため、拡散モデルに対するみんなの理解を再構築するだけでなく、DALL-E 2 を超える Vincent グラフの新しいパラダイムを切り開きます。
その後、Meta がテキスト ビデオ AI モデル Make-A-Video を発表した後、Google は高解像度ビデオを生成するためのカスケード ビデオ拡散モデルに基づいたビデオ モデル Imagen Video (名前が似ています) をリリースしました。
Imagen Videoは、従来のImagenテキスト生成画像システムのテキストを正確に描画する機能を継承しており、簡単な記述だけで様々なクリエイティブなアニメーションを生成することができます。
「当社の創設チームは、Google Brain、カリフォルニア大学バークレー校、カーネギーメロン大学、トロント大学で革新的な人工知能プロジェクトを主導してきました。」と公式ウェブサイトには記載されています。
Mohammad Norouzi 氏は、自分のビジネスを始める前に Google Brain で 7 年間勤務し、Google の最終レベルは生成モデルを専門とする上級研究員でした。 Ideogram AI には、Imagen、Imagen Video、音声合成用の WaveGrad、ニューラル機械翻訳、視覚表現の学習、対照研究など、人工知能の最も幅広い基礎的な作業が含まれています。協力的なチームメンバーも最も多いです。
カリフォルニア大学バークレー校で博士号を取得した共同創設者のジョナサン・ホー氏は、普及モデルに多大な貢献をしてきたため、業界関係者らは彼の辞任がグーグルにとって大きな損失とみなされている。
Jonathan Ho は拡散モデルの創設者の 1 人でもあり、ノイズ除去拡散モデル Denoising Diffusion Probabilistic Models を提案しました。 (興味深いことに、共著者の一人であるピーター・アッビールはこの会社の投資家でもあります)。
Chitwan Saharia は、Google で画像間の拡散モデルの研究を主導しました。 Willian chan は、拡散モデルの研究に加えて、Google 在職中に Neural Speech Recognition にも取り組み、WaveGrad で Mohammad Norouzi と共同で音声合成に取り組みました。
おそらく Google は安全性と倫理に対する懸念から、Imagen と Imagen Video をオープンソースにするかどうかを選択するためにさらなる規制を設ける必要があり、これらのバックボーンは事業から撤退することを決定しました。
「私たちは創造性と高い信頼性と安全性の基準に重点を置き、人工知能の限界を押し広げています。」と公式発表は結ばれている。
同日、同社は、a16z と Index Ventures が主導するシード資金で総額 1,650 万ドルを調達したことも発表した。いくつかの有名な業界バックボーンもこの投資ラウンドに参加しました。
たとえば、Node.js の父である Ryan Dahl、Uber の主任研究員である Raquel Urtasun、Jeff Dean、Andrej Karpathy、Pieter Abbeel、GitHub の創設者 Tom Preston-Werner などです。
同時に同社は、v0.1のパブリックベータ版の開始も発表した。私たちも単純にそれを体験しました。現在はテキストから画像を生成するサービスのみ提供されており、必要事項を入力し、生成される画像のスタイルや比率を選択するだけの簡単操作です。
システムを理解する能力はまだ良好で、特に画像内に生成する必要があるテキストの理解は良好です。欠点は、応答速度が比較的遅いこと、中国語の指示が理解できないこと、構図の空間認識を改善する必要があることです。
「イルカと一緒にミルクに潜るポニョ」、AIはコマンドの「ミルク」を理解できなかったようですが、独自の理解に従って絵を与えました(海)。
基本的には正しい。ただ、二人とも顔に問題があるのですが、これはリサですか?
「中国の伝統衣装を着た長髪のイーロン・マスク、写真」
例:「『終わりました、ミッドジャーニー』という看板を持った愛らしいミニオン、正確に綴られています、3D レンダリング、タイポグラフィー」
Twitter の友人らによると、このシステムは常に正確に綴ることができるわけではないものの、成功率は良好だったそうです。
映画の情報はトレーニング期限後に表示される可能性がありますが、システムは依然としてこの複合語を適切に処理します。また、古い問題として、キャラクターの顔が十分ではありません。
現在のシステムの構成と空間に関する理解が整っていないようです。