ミッドジャーニーでは最強の敵が登場し、シードラウンドの資金提供大手が集結し、ベータ版ではマスク氏が「鍵」1つで通過できるようになった

**出典:**マシンのパワー

ミッドジャーニーは長い間、AIGC ヴィンセントの図式の王座にしっかりと座っており、この会社が出現するまでほとんど脅威はありませんでした。

8月23日、生成型人工知能のスタートアップであるIdeogram AIは公式ウェブサイトで「創造的な表現をより簡単に、より楽しく、より効率的に行うための最先端の人工知能ツールを開発している」と正式に発表した。

チームの中心メンバーは Google Brain Imagen チームの主要メンバーでもあり、Ideogram AI も Imagen を継承しようとしていると考えられています。

Mohammad Norouzi (CEO)、Jonathan Ho (共同創設者)、William Chan、Chitwan Saharia はいずれも Google のテキストから画像への AI モデル Imagen の中心著者であり、関連論文は NeurIPS 2022 Outstanding Paper の最終候補に挙げられています。

Imagen は、Transformer 言語モデルを使用して、入力テキストを一連の埋め込みベクトルに変換します。次に、一連の 3 つの拡散モデル (拡散モデル) によって、これらの埋め込まれたベクトルが 1024x1024 ピクセルの画像に変換されます。

Imagen は概念的にシンプルでトレーニングが簡単で、驚くほど強力な効果も生み出すことができるため、拡散モデルに対するみんなの理解を再構築するだけでなく、DALL-E 2 を超える Vincent グラフの新しいパラダイムを切り開きます。

その後、Meta がテキスト ビデオ AI モデル Make-A-Video を発表した後、Google は高解像度ビデオを生成するためのカスケード ビデオ拡散モデルに基づいたビデオ モデル Imagen Video (名前が似ています) をリリースしました。

Imagen Videoは、従来のImagenテキスト生成画像システムのテキストを正確に描画する機能を継承しており、簡単な記述だけで様々なクリエイティブなアニメーションを生成することができます。

現在のチームメンバーは公式サイトに掲載されています。

「当社の創設チームは、Google Brain、カリフォルニア大学バークレー校、カーネギーメロン大学、トロント大学で革新的な人工知能プロジェクトを主導してきました。」と公式ウェブサイトには記載されています。

Mohammad Norouzi 氏は、自分のビジネスを始める前に Google Brain で 7 年間勤務し、Google の最終レベルは生成モデルを専門とする上級研究員でした。 Ideogram AI には、Imagen、Imagen Video、音声合成用の WaveGrad、ニューラル機械翻訳、視覚表現の学習、対照研究など、人工知能の最も幅広い基礎的な作業が含まれています。協力的なチームメンバーも最も多いです。

カリフォルニア大学バークレー校で博士号を取得した共同創設者のジョナサン・ホー氏は、普及モデルに多大な貢献をしてきたため、業界関係者らは彼の辞任がグーグルにとって大きな損失とみなされている。

2022 年 4 月、Google はビデオ拡散モデル (ビデオ拡散モデル) を提案し、テキストからビデオを生成する拡散モデルの結果を初めて報告しました (良好な結果が得られました)。この記事の主な執筆者は Mohammad Norouzi と Jonathan Ho です。

Jonathan Ho は拡散モデルの創設者の 1 人でもあり、ノイズ除去拡散モデル Denoising Diffusion Probabilistic Models を提案しました。 (興味深いことに、共著者の一人であるピーター・アッビールはこの会社の投資家でもあります)。

Chitwan Saharia は、Google で画像間の拡散モデルの研究を主導しました。 Willian chan は、拡散モデルの研究に加えて、Google 在職中に Neural Speech Recognition にも取り組み、WaveGrad で Mohammad Norouzi と共同で音声合成に取り組みました。

おそらく Google は安全性と倫理に対する懸念から、Imagen と Imagen Video をオープンソースにするかどうかを選択するためにさらなる規制を設ける必要があり、これらのバックボーンは事業から撤退することを決定しました。

「私たちは創造性と高い信頼性と安全性の基準に重点を置き、人工知能の限界を押し広げています。」と公式発表は結ばれている。

公式サイトのスクリーンショット

同日、同社は、a16z と Index Ventures が主導するシード資金で総額 1,650 万ドルを調達したことも発表した。いくつかの有名な業界バックボーンもこの投資ラウンドに参加しました。

たとえば、Node.js の父である Ryan Dahl、Uber の主任研究員である Raquel Urtasun、Jeff Dean、Andrej Karpathy、Pieter Abbeel、GitHub の創設者 Tom Preston-Werner などです。

同時に同社は、v0.1のパブリックベータ版の開始も発表した。私たちも単純にそれを体験しました。現在はテキストから画像を生成するサービスのみ提供されており、必要事項を入力し、生成される画像のスタイルや比率を選択するだけの簡単操作です。

システムを理解する能力はまだ良好で、特に画像内に生成する必要があるテキストの理解は良好です。欠点は、応答速度が比較的遅いこと、中国語の指示が理解できないこと、構図の空間認識を改善する必要があることです。

操作ページ

「イルカと一緒にミルクに潜るポニョ」、AIはコマンドの「ミルク」を理解できなかったようですが、独自の理解に従って絵を与えました(海)。

入力を変更しました: 「イーロン・マスクはテスラ車の中でリサ(ブラックピンク)と手を取ります、(映画のような)」

基本的には正しい。ただ、二人とも顔に問題があるのですが、これはリサですか?

マスクに旅をさせて漢服スタイルを試してみると、その結果は本当にちょっとしたヒーローになります。

「中国の伝統衣装を着た長髪のイーロン・マスク、写真」

「BLACKPINKジェニーだけどすごく太ってます、写真。」はい、太った後はこんな感じです。

一部のTwitterユーザーの結果を見てみましょう。生成された画像内にテキストを生成する必要がある場合でも、システムはそれを実行できます。

例:「『終わりました、ミッドジャーニー』という看板を持った愛らしいミニオン、正確に綴られています、3D レンダリング、タイポグラフィー」

Twitter の友人らによると、このシステムは常に正確に綴ることができるわけではないものの、成功率は良好だったそうです。

「大きなふわふわの月の上に立って、『月へ』と書かれたネオンサインを持ったかわいいふわふわのピカチュウ、3D レンダリング」

最近公開された映画の中でも「バービー」と「オッペンハイマー」が注目を集めており、Twitterユーザーからはバービーと核兵器をスタイリッシュに表現した「バーベンハイマー(バルベンハイマー)」に関する映画ポスターのデザインを作成するリクエストが寄せられました。効果は以下の通りです。

映画の情報はトレーニング期限後に表示される可能性がありますが、システムは依然としてこの複合語を適切に処理します。また、古い問題として、キャラクターの顔が十分ではありません。

「ダリ風のシュールな絵画、タイポグラフィーで綴られ、表現された『シュール』という言葉」

「火山の中で溶けた雪だるま」

「GPU チップ回路のタイポグラフィー、サイパーパンク、SF でレンダリングされた単語『NVIDIA』」

「ダリの絵の中の美しい少女、『スタンフォード』というキャプション、タイポグラフィー」

ハッピーサンデーと書かれた看板を持ったグッチのサングラスをかけたスタイリッシュなラグドール猫、黒の背景、ポスター

シーン内には 4 つのオブジェクトがあります。赤いピラミッドが青い立方体の上に乗っています。黄色い球は青い立方体の下にあります。大理石の六角形がピラミッドの左側にあり、その上に青い立方体があります。

現在のシステムの構成と空間に関する理解が整っていないようです。

他ホームページでの作品紹介。

編集可能なリンク:

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • 1
  • 共有
コメント
0/400
GateUser-bcf7bb63vip
· 2023-12-19 01:44
これを登録する方法、トークンがないことがわかりましたが、ポイントを獲得するために登録する必要がありますか?
原文表示返信0
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)