最近、世界コンピューター グラフィックス カンファレンス SIGGRAPH 2023 で、Nvidia の創設者兼 CEO の Huang Renxun 氏は、生成 AI とシミュレーション プラットフォーム Omniverse を組み合わせたとき、「AIGC は iPhone の瞬間だ」と発表したのと同じくらい興奮したと発表しました。
**グラフィックスやテキストのみに適用できる大規模な言語モデルとは異なり、物理法則に基づいたシミュレーション プラットフォームを備えた生成 AI は、現実世界で直接使用できます。 **
Huang Renxun 氏に加えて、米国スタンフォード大学の Li Feifei 氏のチームも最近、大型モデルをロボットに統合しました。これにより、ロボットが環境と効果的に対話できるだけでなく、追加のデータやトレーニングなしでさまざまなタスクを完了できるようになりました。
** 「物理世界のシミュレーションに基づく生成 AI は生成 AI 2.0 です」と、Kuawei Intelligence の創設者であり華南理工大学教授の Jia Kui 氏は Light Cone Intelligence に対し、生成 AI と生成 AI の組み合わせは次のように述べました。身体化された知性が重要な役割を果たすことになり、より決定的な効果が得られます。 **
マシンビジョンの分野では、合成データに対する需要が高まっており、生成 AI 2.0 が解き放つ価値はさらに大きくなるでしょう。
マシン ビジョンの非常に重要な認識方法である 3D ビジョンには、合成データが緊急に必要とされています。
似たような部品がたくさんある中で「違いを見つけて、オブジェクトの材質や色を変えてパラメータを調整する必要があります。」 3D ビジョンの専門家は、さまざまな分野のさまざまなニーズにより、着陸シーンが細分化されすぎていると述べました。 1 つのプロジェクトを終了してから、別のプロジェクトを再カスタマイズします。
従来の 3D 視覚認識はどれほど脆弱ですか? Jia Kui 氏は Light Cone Intelligence に対し、「ロボット アームを掴むプロセス中に、誰かが通りかかってライトを変更すると、タスクが失敗する可能性があります。」と説明しました。
これはハードウェア 3D カメラの撮像原理に起因するもので、3D カメラの撮像は環境、物体の形状、材質、色、散乱体などの影響を受けやすく、短時間で解決することが困難です。
「問題を解決するには 100 のステップが必要かもしれませんが、最後のステップの労力は、それまでの 99 ステップの合計と同じかもしれません。」 SenseTime の共同創設者である Yang Fan 氏はかつて、企業は小さな部品のロングテール問題に対処するために活用する必要があります。
しかし今では、**「強力な汎用性を備えた Generative AI 2.0 は、製品の標準化にとって非常に重要なロングテール問題を解決できます。」と Jia Kui 氏は述べています。 **
生成 AI 2.0 に基づく業界の従来のカスタマイズされた開発モデルと比較して、企業は一般的な大規模モデルを使用して製品モジュール開発を実現し、すぐに導入できるようになり、同じ業界内での直接拡張を実現できます。 、異なる業界でも効果的に再利用できます。 3D ビジョン業界の商業化の問題は簡単に解決されます。
AIGC が「物理魔法」を発動、3D ビジョンが「精度の限界」を突破
出典: Light Cone Intelligence
著者: ヤオ・ユエ
「芸術ではなく、すべて物理学です。物理学はあなたを幸せにしますね?」
最近、世界コンピューター グラフィックス カンファレンス SIGGRAPH 2023 で、Nvidia の創設者兼 CEO の Huang Renxun 氏は、生成 AI とシミュレーション プラットフォーム Omniverse を組み合わせたとき、「AIGC は iPhone の瞬間だ」と発表したのと同じくらい興奮したと発表しました。
**グラフィックスやテキストのみに適用できる大規模な言語モデルとは異なり、物理法則に基づいたシミュレーション プラットフォームを備えた生成 AI は、現実世界で直接使用できます。 **
汎用的な能力の向上により、AIは商用化の「呪い」を解くことも期待されています。
生成 AI が物理学を学習するとき
生成 AI を物理世界と組み合わせるのは簡単ではなく、関与する技術チェーンは非常に長くなります。
**まず第一に、現実世界をシミュレーション プラットフォームにモデル化するには、物理世界の基本法則を習得する必要があります。 **
シミュレーション プラットフォームは、物理的なシーンをシミュレートするだけでなく、現実世界のオブジェクトの相互作用、動き、変形もシミュレートできます。
生成 AI を追加すると、シミュレーション プラットフォームに「プレビュー」機能が追加されます。
「人間は子供の頃から物理的な知識を知っていますが、AIはそれを知りません。」黄仁訓氏は、「生成AIとシミュレーションプラットフォームの組み合わせは、AIの未来を物理学に根付かせることになります。」と述べました。
Huang Renxun 氏はさらに、AI が特定の目標を達成できるように、仮想世界の環境を認識する方法を AI に学習させ、強化学習を通じて物理的行動の影響と結果を理解させると説明しました。
**これには、生成 AI を使用して、物理世界の数千万、さらには数億の可能性を予測して、貴重な合成データを形成する必要があります。 **
例えば、ロボットアームが正確に把握するには3次元視覚の「目」が必要ですが、環境変化の干渉を排除して把握する対象物(工場内の部品など)をどのように認識するのでしょうか?
シミュレーション プラットフォームを通じて、「シーン オブジェクト上の光の反射と屈折」などの物理法則を習得し、生成 AI は、異なるシーンの照明の下で、同じ照明の下で、異なる度合いの反射を持つボトルを予測してシミュレーションできます。 、金属、プラスチックや木製品などの異素材の表面の状態、釘の山、あらゆる散在状態…。
このステップでは、3D ビジュアル大規模モデルをトレーニングします。大規模な言語モデルとは異なり、3D 視覚的な大規模モデルは、視覚的なシーンの構成特性を理解して推論するために非常に重要であり、実環境におけるオブジェクト、位置、変化の間の複雑な関係を扱う必要があります。
生成 AI と物理世界を組み合わせた技術チェーン全体には、物理学、グラフィックス、コンピューター ビジョン、学際的なロボット工学だけでなく、デジタル ツイン、幾何学的深層学習、運動学計算、ハイブリッド インテリジェンス、およびインテリジェントも含まれていることがわかります。ハードウェアおよびその他の多次元の最先端テクノロジー。
同様に、業界全体のチェーンも、データからモデル、そしてモデルからデプロイメントへと比較的複雑です。
物理法則に基づいて生成 AI によって合成されたデータを使用して大規模モデルをトレーニングすることで、物理産業に飛躍的な革命がもたらされます。
実際の写真はありません
3D ビジュアル大規模モデルのトレーニング
大規模なモデルを実際のデータで直接トレーニングしてみませんか?
現在、業界の 3D ビジョンに基づくロボット アームのほとんどは、制御システムのアルゴリズム トレーニングに実際のデータを使用しています。これらのリアルデータは商業プライバシーなどの問題から一般のデータでは入手が難しく、基本的には企業自らが収集することになります。
**しかし、自社で収集したリアルデータは、まず運用の重要な指標である「効率とコスト」のコストパフォーマンスが非常に低いです。 **
これは、端末のアプリケーションシナリオが細分化されており、データがまったく汎用的に利用できないためです。企業がリアルなデータを収集するには、各業界、各工場、各シーンの「絨毯」収集が必要です。また、収集したデータをそのまま利用することはできず、一連の加工が必要となります。
この過程では、「人工知能のパラドックス」さえ存在します。
「実際のデータの収集、AI テクノロジーのコストの半分以上はデータコストであり、データの収集、クリーニング、ラベル付け、強化の処理は、多くの場合、大量の人的資源の蓄積の結果です。」 一部のアナリストは、次のように指摘しています。人工知能の本質は、人工知能を置き換えることです。 「皮肉なことに、こうした AI は明らかに労働集約的な産業特性を持っています。」
合成データについてはどうですか?
** 「5 ~ 6 年間で蓄積された実際のデータと数千のケースを使用すると、合成データを使用することで数日から数週間で完了できます。」と Jia Kui 氏は Light Cone Intelligence に語った。 、合成データのコスト 数桁の削減が達成できます。 **
**最も重要なことは、トレーニング効果という点では、合成データが実際のデータよりも優れている可能性があるということです。 **
物理法則に基づいて合成されるため、極めて正確なアノテーションを備えた合成データが生まれ、AIの学習効率が非常に高くなります。
さらに、合成データの「包括性」は実際のデータに匹敵しません。 「生成 AI 2.0 は無数の世界を創造でき、この世界を急速に進化させることができます。」と Jia Kui 氏は述べています。
**3D ビジョン業界に関して言えば、ロボット アームは過去と未来のすべてを制御できる「神の手」のようなものです。 **
「もちろん、これは物理世界の法則の外側にあるはずはありません。」と賈饗氏は強調した。
**合成データが大型モデルの「データ永久機関」と呼ばれるのは、まさにこのためです。 **
現在、3Dビジョンの分野に限らず、汎用データの不足やノイズの多さなどの問題から、多くの分野で合成データの利用が試みられている。しかし、合成データについては、慎重にデバッグせず、トレーニング中に多用しないとモデルがクラッシュし、取り返しのつかない欠陥が生じる可能性があるとの強い疑念もある。
技術進化の観点から見ると、合成データは大規模モデルに対する唯一の解決策ではありません。
しかし、Jia Kui氏は、「より良い方法を見つける前に、現時点で現実的な問題を解決するには、合成データが最善の方法です。人間が積み上げた実際のデータがまだ使用されている場合、3Dビジョン、AGI(汎用人工知能)を含む多くの分野で使用されます」と指摘しました。 )インテリジェンス)は決して不可能です。」
AI 商用化の「呪い」を解く
マシンビジョンの分野では、合成データに対する需要が高まっており、生成 AI 2.0 が解き放つ価値はさらに大きくなるでしょう。
マシン ビジョンの非常に重要な認識方法である 3D ビジョンには、合成データが緊急に必要とされています。
似たような部品がたくさんある中で「違いを見つけて、オブジェクトの材質や色を変えてパラメータを調整する必要があります。」 3D ビジョンの専門家は、さまざまな分野のさまざまなニーズにより、着陸シーンが細分化されすぎていると述べました。 1 つのプロジェクトを終了してから、別のプロジェクトを再カスタマイズします。
**限界費用を削減するのは難しく、テクノロジー企業をプロジェクト会社に変え、最終的には経営の足を引っ張ることになります。 **
「悪魔」は細部に宿る。
従来の 3D 視覚認識はどれほど脆弱ですか? Jia Kui 氏は Light Cone Intelligence に対し、「ロボット アームを掴むプロセス中に、誰かが通りかかってライトを変更すると、タスクが失敗する可能性があります。」と説明しました。
これはハードウェア 3D カメラの撮像原理に起因するもので、3D カメラの撮像は環境、物体の形状、材質、色、散乱体などの影響を受けやすく、短時間で解決することが困難です。
「問題を解決するには 100 のステップが必要かもしれませんが、最後のステップの労力は、それまでの 99 ステップの合計と同じかもしれません。」 SenseTime の共同創設者である Yang Fan 氏はかつて、企業は小さな部品のロングテール問題に対処するために活用する必要があります。
しかし今では、**「強力な汎用性を備えた Generative AI 2.0 は、製品の標準化にとって非常に重要なロングテール問題を解決できます。」と Jia Kui 氏は述べています。 **
同時に、データ、開発、展開、ハードウェア、業界の拡大にかかるコストも、あらゆるリンクで大幅に低下しました。
生成 AI 2.0 の触媒作用の下で、3D ビジョンが爆発的に普及すると、ロボット アーム、ロボット、無人車両、メタバースなどの 3D ビジョン テクノロジーに大きく依存する垂直シーンが AI を食い込むよう加速することを意味します。
シーメンスやフォードなどの老舗製造企業から、エヌビディア、テスラ、グーグルなどのテクノロジー巨人、ワービなどのスタースタートアップまで、産業、ロボット工学、無人運転、医療などのさまざまな分野で取り組みを始めています。生成 AI 2.0 のさらなる可能性を探ります。
同時に資本の熱意も大きく動員されている。不完全な統計によると、近年、外国の総合データ関連融資は8億ドル近く蓄積されている。
中国でも合成データ関連企業が資本の注目を集めている。 2022年6月、Kuowei Smartは資金調達額数千万元、設立から1年足らずで累計1億元近い資金調達となるプレAラウンドの完了を発表し、7月にはこれを発表した。 Guanglun Smartは2019年、エンジェル+ラウンドの資金調達完了を発表し、累計調達額は数千万元に達した。
**詩の作曲から物理学の学習まで、生成 AI 2.0 は産業デジタル化の壮大な未来を切り開いていると言えます。 **