AIGC 施展“物理魔法”，3D視覺突破“精度極限”

巴比特_

2023-08-21 02:00:10

原文來源：光錐智能

作者：姚悅

圖片來源：由無界AI‌ 生成

“沒有藝術，全是物理！物理讓你快樂，不是嗎？”

近日，在世界計算機圖形會議SIGGRAPH 2023 上，英偉達創始人、CEO 黃仁勳宣布，將生成式AI與仿真模擬平台Omniverse結合的時候，如同他宣布“AIGC是iPhone時刻”一樣興奮。

**不同於大語言模型只能應用在圖文，有了基於物理規律的仿真模擬平台，生成式AI就可以直接用到現實世界。 **

除了黃仁勳，美國斯坦福大學李飛飛團隊，近期也將大模型接入機器人，不僅使得機器人能夠與環境有效交互，還能夠在無需額外數據和訓練的情況下完成各種任務。

**“基於物理世界模擬的生成式AI，是生成式AI 2.0”，跨維智能創始人、華南理工大學教授賈奎對光錐智能表示，與具身智能的結合，生成式AI 將發揮出更確定性的作用。 **

而隨著通用能力的增強，AI也有望打破商業化的“魔咒”。

當生成式AI學會物理

將生成式AI與物理世界結合，並不容易，這裡面涉及的技術鏈條非常長。

**首先，需要對物理世界基本規律的掌握，才能將真實世界建模到仿真模擬平台。 **

仿真模擬平台，不僅可以仿真物理場景，還可以模擬真實世界中物體之間相互作用、運動和變形。

而生成式AI的加入，會讓仿真模擬平台擁有“預演”能力。

“人類從小就知道的物理常識，AI卻不知道。”黃仁勳表示，“生成式AI和仿真模擬平台結合，就是要讓AI的未來能夠在物理上紮根。”

黃仁勳進一步解釋，讓AI在虛擬世界中學習如何感知環境，並通過強化學習來理解物理行為的影響和後果，讓AI實現特定目標。

**這就需要用生成式AI，預測物理世界中的千萬種、甚至上億種可能性，形成有價值的合成數據。 **

比如機械臂需要通過3D視覺的“眼睛”才能精準抓取，但如何排除環境變化的干擾，認出待抓取的物體（比如工廠裡的零部件）？

通過仿真模擬平台掌握了“光線對場景目標的反射、折射影響”等物理規律，生成式AI就能預測模擬出一個瓶子，在不同場景光照下，周身不同的反光程度；同一光照下，金屬、塑料、木製品等不同材質物體表面呈現的狀態；一堆釘子，所有可能出現的散落狀態……

**再次，需要將所有數據，都在仿真模擬平台中用AI都跑一遍。 **

這一步，就是在訓練3D視覺大模型。區別於大語言模型，3D視覺大模型對於理解和推理視覺場景的組成特性至關重要，需要處理對象之間的複雜關係、位置、以及現實環境中的變化等。

**最後，再連接上機械臂等具身智能的硬件，才能讓其學會智能化操作。 **

可以看到，生成式AI與物理世界結合的整個技術鏈條，不僅涉及物理學、圖形學、計算機視覺、機器人多學科交叉，還包括數字孿生、幾何深度學習、運動學解算、混合智能、智能硬件等多維前沿技術。

相應的，整個產業的鏈條也比較複雜，需要從數據到模型，再從模型到部署。

在這些環節中，有一個節點和此前AI的路徑非常不同，那就是“合成數據生成”。

用基於物理規律的生成式AI合成的數據，去訓練大模型，將給實體產業帶來跨越式的革命。

不用一張真實圖片，

訓練3D視覺大模型

為什麼不直接用真實數據訓練大模型？

目前，行業內多數基於3D視覺的機械臂，其控制系統的算法訓練所使用的就是真實數據。因為商業隱私等問題，這些真實數據很難在通用數據中獲取，基本都是企業自行採集。

**然而，自採真實數據，首先在“效率和成本”這兩個運營的關鍵指標上，性價比就非常低。 **

這是因為，終端應用場景碎片化，數據根本不能通用。採集真實數據，企業就需要一個一個行業，一個一個工廠，一個一個場景的“地毯式”採集。而且，採集回來的數據也不能直接用，還需要進行一系列處理。

這個過程中，甚至產生了“人工智能悖論”。

“采集真实数据，AI技术的成本构成中，半数以上都是数据成本，而对数据的采集、清洗、标注、增强等处理过程，往往是大量人力堆积的结果。”有分析人士就曾指出，人工智能的本质是代替人工的智能。“讽刺的是，这样的AI具备显著的劳动密集型产业特征。”

如果用合成數據呢？

**“用五六年、上千個案例積累的真實數據，通過合成數據，幾天幾週就能完成。”賈奎告訴光錐智能，相比於人工採集與標註數據，合成數據的成本能夠實現幾個數量級的降低。 **

**最關鍵的還是，在訓練效果上，合成數據能夠更優於真實數據。 **

由於本身就是基於物理規律合成，合成數據天生自帶絕對精確的標註，這就意味著，AI學習起來效率非常高。

另外，合成數據的“全面性”是真實數據難以比擬的。 “生成式AI 2.0可以創造無數個世界，而且可以讓這個世界快速演進。”賈奎表示。

**而落地到3D視覺行業，機械臂就猶如有了“上帝之手”，可以掌控一切過去未來。 **

“當然，這不能是物理世界的規律之外的。”賈奎強調。

“目前，我們不使用一張真實圖片，就可以完成機械臂複雜場景作業的3D視覺模型訓練。”賈奎告訴光錐智能，完全使用合成數據訓練的模型引導機械臂的柔性操作，可以實現現場99.9%以上的穩定抓取。

也正是因為此，**合成數據，被稱為大模型的“數據永動機”。 **

當前，除了3D視覺領域，許多領域也都因通用數據缺乏和噪點多等問題，開始嘗試使用合成數據。但也有對合成數據抱有強烈質疑的觀點，稱如果沒有經過精心調試，在訓練時大量使用，會引發模型崩潰，造成不可逆的缺陷。

從技術演進的角度，合成數據不會是大模型的唯一解。

但賈奎指出，“沒有找到更好的辦法之前，合成數據就是目前能夠解決實際問題的最好辦法。如果還採用人力堆砌的真實數據，在包括3D視覺在內的很多領域，AGI（通用人工智能）永遠不可能實現。”

打破AI的商業化“魔咒”

在機器視覺領域，對合成數據的需求更加旺盛，生成式AI 2.0能夠釋放的價值也就會更大。

作為機器視覺非常重要的感知手段，3D視覺對於合成數據的需求就十分迫切。

“在一堆相似的零件裡'找不同'，物體換一個材質、顏色，都需要去調整參數。”一位3D視覺從業人士表示，不同領域的需求不同，使得落地場景過於碎片化，只能做完一個項目再重新定制另一個項目。

這就意味著，企業很難通過著力解決一個或幾個項目需求，就能形成標準化產品。也就無法進而通過快速復制，打入並拓展市場，追求利潤規模。

**邊際成本難以降低，會將一家技術公司，變成項目公司，最終拖垮。 **

“魔鬼”藏在細節中。

傳統3D視覺感知有多脆弱？賈奎向光錐智能描述，“機械臂在抓取過程中，如果有人路過產生光線變化，任務就可能失敗。”

這是由硬件3D相機的成像原理造成的，3D相機成像容易受環境、物體形狀、材質、顏色、散射介質等影響，而且這一問題短時間內難以解決。

“解決一個問題可能是一百步，但最後一步付出的努力可能跟前面99步加起來是一樣的。”商湯科技聯合創始人楊帆曾表示，企業大部分的精力都需要用來應對小部分長尾問題。

但現在，**“通用性能力很強的生成式AI 2.0，能夠解決長尾問題，對於產品標準化至關重要。”賈奎表示。 **

相較於行業傳統定制化開發的模式，企業基於生成式AI 2.0，就可以利用通用大模型，實現產品模塊化開發，做到開箱即用地部署，進而實現同行業直接拓展，不同行業也能有效復用。 3D視覺行業的商業化難題也就迎刃而解。

與此同時，數據、開發、部署、硬件、行業拓展，每一個環節的成本也都實現驟降。

而在生成式AI 2.0的催化下，3D視覺一旦爆發，也就意味著，在機械臂、機器人、無人駕駛、元宇宙等等高度依賴3D視覺技術的垂直場景，都將加速吃到AI的紅利。

不少數據已經印證了這一點，像數據標註、合成數據、工業機器人、機器視覺等領域，全球市場規模都在高速增長，尤其是合成數據的年復合增長率甚至都超過了30%。

這背後，實際上是生成式AI 2.0的戰略價值，已經受到了科技和眾多製造業巨頭的高度重視。

從西門子、福特等老牌製造企業，到英偉達、特斯拉、谷歌等一眾科技巨頭，再到Waabi等明星初創公司，都開始紛紛在工業、機器人、無人駕駛、醫療、零售等諸多領域，探索生成式AI 2.0更大的可能。

與此同時，資本的熱情也被極大地調動起來。據不完全統計，近年來，國外合成數據的相關融資，累計已接近8億美元。

在國內，合成數據相關企業也同樣引起了資本的注意。 2022年6月，跨維智能宣布完成Pre-A輪融資，融資金額數千萬元，成立不到一年時間累計融資近億元；今年7月，光輪智能也宣布完成天使+輪融資，融資金額累計數千萬元。

**可以說，從會作詩到學物理，生成式AI 2.0正在開啟一個產業數字化的宏大未來。 **

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

1人點讚了這條動態

讚賞
1
留言
分享

留言

0/400

暫無留言

話題
Gate 2025 Q2報告出爐
41664 熱度
比特幣巨鯨動向
388 熱度
山寨季何時到來？
399 熱度
4Gate衍生品交易量新高
15854 熱度
5加密法案投票周
5969 熱度
6MicroStrategy增持比特幣
2361 熱度
7BTC再創新高
113525 熱度
8我的Gate時刻
26890 熱度
9VIP 專屬空投嘉年華
26702 熱度
10美加徵關稅
17138 熱度