2Dから3Dへの新たな躍進！ AIGC技術を徹底分析、3Dデータ生成の歴史と現状がわかる記事

巴比特_

2023-07-28 05:49:47

著者: Chengxi 編集者: Manman Zhou

出典: シリコンラビットレース

過去 18 か月間、AI コンテンツ生成 (AIGC) は間違いなくシリコンバレーのテクノロジーベンチャーキャピタル界で最も注目を集めているトピックです。

DALL-E (2021 年 1 月予定)

ミッドジャーニー (2022 年 7 月予定)

安定した普及 (2022 年 8 月予定)

このタイプの 2D 生成ツールは、テキストプロンプト ( ) をわずか数秒で芸術的な画像に変換できます。このような 2D AIGC ツールの進化と進歩により、アーティスト、デザイナー、ゲームスタジオのクリエイティブワークフローは急速に変革されています。

AIGC の次の躍進はどこにあるのでしょうか?多くの投資家や業界のベテランが予測を行っています - 3D データの生成。

私たちは、3D AIGC が 2D AIGC の開発段階を経ていることに気付きました。この記事では、3D データ分野における AIGC の新たな進歩についてさらに詳しく説明し、生成 AI ツールが 3D データ生成の効率と革新性をどのように向上させることができるかに期待します。

01 2D AIGC の急速な発展の振り返り

2D AIGC の開発は、次の 3 つの開発段階に簡単に要約できます。

フェーズ 1: スマート画像編集

2014 年には、生成対立ネットワーク (GAN、典型的なフォローアップワーク StyleGAN) と変分オートエンコーダ (VAE、典型的なフォローアップワーク VQVAE、alignDRAW) の導入により、AI モデルがインテリジェントな生成において広く使用され始めました。 2D写真と編集。初期の AI モデルは主に、比較的単純な画像分布を学習したり、画像編集を実行したりするために使用され、一般的なアプリケーションには、顔の生成、画像スタイルの転送、画像の超解像度、画像の完成、および制御可能な画像編集が含まれます。

しかし、初期の画像生成/編集ネットワークでは、テキストとのマルチモーダルな対話が非常に限られていました。さらに、GAN ネットワークは通常トレーニングが難しく、モード崩壊や不安定性などの問題に遭遇することが多く、生成されるデータは通常多様性に乏しく、利用可能なデータスケールの上限もモデルの容量によって決まります。生成された画像がぼやけるなどの問題が発生します。

第 2 段階: Vincent のグラフモデルの飛躍

拡散生成 (拡散) 技術の進歩により、大規模なマルチモーダルデータセット (LAION データセットなど) およびマルチモーダル表現モデル (OpenAI によってリリースされた CLIP モデルなど) の出現と開発により、この分野2D 画像の生成は 2021 年になる予定です。大幅な進歩が見られます。画像生成モデルはテキストと深く対話し始め、大規模なヴィンセントグラフモデルは驚くべきデビューを果たしました。

OpenAI が 2021 年初頭に DALL-E をリリースすると、AIGC テクノロジーは実際に大きな商業的可能性を示し始めるでしょう。 DALL-E は、任意のテキストキューからリアルで複雑な画像を生成でき、成功率が大幅に向上します。 1 年以内に、DALL-E 2 (2022 年 4 月にアップグレード) や Imagen (2022 年 5 月に Google によってリリース) など、多数の Vincent Graph モデルがすぐに続きました。これらのテクノロジーは、アートクリエイターが直接制作に移せるコンテンツを制作するのを支援するのにはまだ効率的ではありませんでしたが、世間の注目を集め、アーティスト、デザイナー、ゲームスタジオの創造性と制作の可能性を刺激しました。

フェーズ 3: 素晴らしいものから生産的なものへ

技術的な詳細の改善とエンジニアリングの最適化の繰り返しにより、2D AIGC は急速に発展しました。 2022 年後半までに、Midjourney や Stable Diffusion などのモデルが AIGC ツールとして人気を博すようになりました。大規模なトレーニングデータセットを活用した、現実世界のアプリケーションにおける AIGC 技術のパフォーマンスは、メディア、広告、ゲーム業界の早期導入者に利益をもたらしてきました。さらに、大規模モデルの微調整テクノロジー (ControlNet や LoRA など) の出現と開発により、実際のニーズと少量のトレーニングデータに応じて AI の大規模モデルを「カスタマイズ」して調整および拡張できるようになりました。さまざまな特定のアプリケーション (2 次元の様式化、ロゴの生成、QR コードの生成など) にさらに適応します。

AIGC ツールを使用したアイデアとプロトタイプの作成には、以前は数日または数週間かかっていたのではなく、多くの場合、数時間以内で済むようになりました。プロのグラフィックデザイナーの多くは依然として AI で生成されたスケッチを修正または再作成していますが、個人のブログや広告では AI で生成された画像を直接使用することがますます一般的になっています。

alignDRAW、DALL-E 2、Midjourney のテキストから画像への変換のさまざまな効果。

テキストから画像への変換に加えて、2D AIGC はさらに最近の開発を続けています。たとえば、Midjourney や、Runway や Phenaki などの他のスタートアップ企業は、テキストをビデオに変換する機能を開発しています。さらに、Zero-1-to-3 は、物体の 1 つの 2D 画像から異なる視野角からの対応する画像を生成する方法を提案しました。

ゲーム業界やロボット業界での 3D データの需要の高まりにより、AIGC の現在の最先端研究は徐々に 3D データ生成に移行しつつあります。 3D AIGC についても同様の開発パターンが予想されます。

3D AIGC の「DALL-E」の瞬間

3D 分野における最近の技術的進歩は、3D AIGC の「DALL-E」の瞬間が近づいていることを示しています。

2021 年末の DreamFields から、2022 年後半の DreamFusion と Magic3D、そして今年 5 月の ProlificDreamer に至るまで、マルチモーダルドメインとヴィンセントグラフモデルの開発のおかげで、学術 3D モデルに多くの画期的な進歩がもたらされました。文生。入力テキストから高品質の 3D モデルを生成できる方法がいくつかあります。

ただし、これらの初期の調査のほとんどでは、3D 表現に対応する 2D パースペクティブが入力モデルと以前のモデルの期待を満たすように、各 3D モデルを生成するときに 3D 表現を最初から最適化する必要があります。このような最適化には通常、何万回もの反復が必要なため、多くの場合時間がかかります。たとえば、単一の 3D メッシュモデルを生成するには、Magic3D では最大 40 分、ProlificDreamer では数時間かかる場合があります。さらに、3D 生成の大きな課題の 1 つは、3D モデルがさまざまな角度から見たオブジェクトの形状の一貫性を持たなければならないことです。既存の 3D AIGC 手法では、ヤヌス問題、つまり AI によって生成された 3D オブジェクトが複数の頭または複数の面を持っていることがよくあります。

ProlificDreamer の 3D 形状の一貫性の欠如による Janus の問題。左側は、一見普通のブルーバードの正面図です。右側には、2つの顔を持つ鳥を描いた紛らわしい画像があります。

しかしその一方で、一部のチームは既存の最適化ベースの生成パラダイムを打破し、単一の前方予測技術ルートを通じて 3D モデルを生成し、3D 生成の速度と精度を大幅に向上させようとしています。これらのメソッドには、Point-E と Shap-E (それぞれ 2022 年と 2023 年に OpenAI によってリリース)、および One-2–3–45 (2023 年に UC San Diego によってリリース) が含まれます。特に注目すべきは、先月リリースされた One-2–3–45 で、わずか 45 秒で 2D 画像から高品質で一貫した 3D メッシュを生成できます。

単一画像と 3D メッシュ手法の比較分析。左から右に見ると、処理時間が 1 時間以上から 1 分未満に劇的に短縮されていることがわかります。 Point-E、Shap-E、One-2–3–45 はすべて、スピードと精度に優れています。

3D AIGC 分野におけるこれらの最新の技術的進歩により、生成速度と品質が大幅に向上するだけでなく、ユーザー入力がより柔軟になります。ユーザーはテキストプロンプトを通じて入力することも、より多くの情報を含む単一の 2D 画像を通じて目的の 3D モデルを生成することもできます。これにより、商用アプリケーションの観点から 3D AIGC の可能性が大きく広がります。

AI は 3D 制作プロセスに革命をもたらします

まず、従来の 3D デザイナーが 3D モデルを作成するために実行する必要があるワークフローを理解しましょう。

コンセプトスケッチ: コンセプトアートデザイナーは、クライアントの入力と視覚的な参照に基づいて、必要なモックアップをブレインストーミングしてアイデアを出します。
3D プロトタイピング: モデル設計者は専門的なソフトウェアを使用してモデルの基本形状を作成し、顧客のフィードバックに基づいて反復します。
モデルの改良: ラフな 3D モデルに詳細、色、テクスチャ、およびアニメーションプロパティ (リギング、照明など) を追加します。
モデルの完成: デザイナーは画像編集ソフトウェアを使用して、最終的なレンダリングを強化し、色の調整、効果の追加、または要素の合成を実行します。

通常、このプロセスには数週間かかりますが、アニメーションが含まれる場合はさらに長くかかる可能性があります。ただし、これらの各ステップは AI の助けを借りて高速化できる可能性があります。

強力なマルチビュー画像ジェネレーター (例: Stable Diffusion および Midjourney に基づく Zero-1–to–3) により、創造的なブレインストーミングが容易になり、マルチビュー画像スケッチが生成されます。
Text-to-3D または image-to-3D テクノロジー (One-2–3–45 や Shap-E など) は数分で複数の 3D プロトタイプを生成でき、デザイナーに幅広いオプションを提供します。
3D モデルの最適化 (Magic 3D や ProlificDreamer など) を使用すると、選択したプロトタイプを数時間以内に自動的に改良できます。
洗練されたモデルの準備ができたら、3D デザイナーはさらに設計を進め、忠実度の高いモデルを完成させることができます。

従来の 3D 制作ワークフローと AI 主導の 3D 制作ワークフローの比較

3D AIGC は人間に取って代わるのでしょうか?

私たちの結論は、まだそうではありません。 3D AIGC リンクでは、依然として人が不可欠なリンクです。

前述の 3D モデル生成技術は、ロボット工学、自動運転、3D ゲームなどに多くの応用が可能ですが、現在の製造プロセスではまだ幅広い用途に対応できません。

この目的を達成するために、Silicon Rabbit Jun は、カリフォルニア大学サンディエゴ校の Su Hao 教授 にインタビューしました。彼は、3D ディープラーニングと身体型 AI の分野の第一人者です。-3-45 の著者の 1 人です。モデル。 Su Hao 教授は、現在の 3D 生成モデルの主なボトルネックは、高品質の 3D データセットが多数不足していることであると考えています。 ShapeNet (約 52,000 の 3D グリッド) や Objaverse (約 800,000 の 3D モデル) など、現在一般的に使用されている 3D データセットには、量と詳細品質の点で改善する必要があるモデルが含まれています。特に 2D ドメインの大規模なデータセット (LAION-5B など) と比較すると、そのデータ量は大規模な 3D モデルをトレーニングするにはまだ十分とは言えません。

Su Hao 教授は、かつて幾何学コンピューティングの先駆者でアメリカ科学アカデミーの会員である Leonidas Guibas 教授に師事し、Feifei Li 教授が主導する ImageNet プロジェクトに初期貢献者として参加しました。彼らに触発され、Su Hao 教授はテクノロジーの進歩における広範な 3D データセットの重要な役割を強調し、3D ディープラーニング分野の出現と繁栄の基礎を築きました。

さらに、3D モデルは 2D 画像よりもはるかに複雑です。次に例を示します。

パーツ構造: ゲームやデジタルツインアプリケーションには、単一の 3D メッシュではなく、3D オブジェクトの構造化されたパーツ (PartNet など) が必要です。
ジョイントとバインディング: 3D オブジェクトと対話するための重要なプロパティ。
テクスチャと材質: 反射率、表面摩擦係数、密度分布、ヤング率、相互作用をサポートするその他の重要な特性など。
操作と操作: デザイナーが 3D モデルをより効果的に操作および操作できるようにします。

そして、上記の点では、人間の専門知識が引き続き重要な役割を果たすことができます。

Su Hao 教授は、将来的には AI による 3D データ生成には次のような特徴があるはずだと考えています。

インタラクティブアプリケーションをサポートする 3D モデルの生成をサポートします。このインタラクションには、オブジェクト間の物理的インタラクション (衝突など) と人とオブジェクト間のインタラクション (物理的および非物理的インタラクション方法) の両方が含まれ、ゲーム内で 3D データを作成します。、メタバース、物理シミュレーション、その他のシナリオを幅広く使用できます。
AI 支援 3D コンテンツ生成をサポートし、モデリングをより効率的にします。
Human-in-the-loop の作成プロセスをサポートし、人間の芸術的才能を利用して生成されたデータの品質を向上させます。これにより、モデリングのパフォーマンスがさらに向上し、閉ループデータフライホイール効果が形成されます。

過去 18 か月間の DALL-E や ChatGPT などのテクノロジーの驚くべき発展と同様に、私たちは 3D AIGC の分野において、その革新性と応用が私たちの期待を超える可能性が非常に高いと確信しており、Silicon Rabbit は引き続き探求を深めていくでしょう。そして出力します。

原文表示

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.