如果數據被大模型耗盡，我們還能看到通用人工智能嗎？

Question

原文來源：自動駕駛下半場![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-0f892af477-dd1a6f-6d2ef1) 圖片來源：由無界AI‌ 生成我們正在通用人工智能的前夜。 ChatGPT 在激發了全世界熱情的同時，也引燃了AI大模型的競賽。 Google推出Bard 對標， Amazon 也加入戰場， 豪賭元宇宙的Meta也不甘示弱，推出了LLaMa和SAM。大洋這邊，公認手握最多資源的BAT 再次在生成式模型上相遇。而具身智能乘著大模型的東風，似乎也在醞釀一場巨大的變革。一切彷彿又回到了十年前，創業熱潮湧現。 **只是這一次，通用人工智能的奇點由大模型開啟，而數據正式站到了舞台中央。 **## **01、開發大模型的關鍵要素是什麼**1. **算力讓大模型成了財富的遊戲**大模型， 通俗來說就是參數量巨大的模型。相較於之前單個GPU就能運行的小模型，只能靠大公司巨量的算力堆疊才有可能完成。例如OpenAI ChatGPT 目前每次訓練成本高達百萬美元。小實驗室參與人工智能浪潮的可能性被大模型直接宣告結束，只有雄厚積累的公司才能完成。所以通用大模型創業潮中浮現的只有當年互聯網創業潮中有過精彩故事的英雄， 美團王慧文，創新工場李開復，搜狗王小川。而模型的摩爾定律已經出現，更大的模型帶來了更好的世界理解能力、推理能力， 趨勢如此，已經沒有停下來猶豫的時間。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-a9a8463401-dd1a6f-6d2ef1) 1. **算法模型為中心的開發模式已過**目前普遍人工智能公司的開發模式仍舊是以模型為中心的“傳統”開發模式，即將數據集固定進而迭代模型。算法工程師們通常會聚焦於幾個基準數據集，然後設計各式各樣的模型去提高預測準確率。雖然大模型如雨後春筍般浮現，但是實際上大部分模型背後的算法都趨於一致，並未出現大的模型改動。而數據量的堆疊讓訓練好的模型表現遠遠優於小改動的模型。比如數月前，人工智能先驅Yann LeCun發文稱ChatGPT在技術上並不是什麼新鮮事物， 但是卻取得了優異的表現。精心的算法改動，很有可能並不能比添加、迭代數據產生的效果更好。而**巨量優質數據帶來的模型表現，相較於某一單獨數據集上訓練模型的表現，是降維打擊。 **![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-7795ab74b7-dd1a6f-6d2ef1) 1. 數據成為大模型開發核心要素OpenAI大模型的成功正是出自Ilya對於大數據大模型量變帶來質變的堅信。例如ChatGPT 用了至少40T的大規模數據進行訓練，而且如果有效數據量繼續增加，其能獲得更好的表現。根據Google研究Emergent Abilities of Large Language Models，在模型參數的某一個臨界點， 突然模型獲得了令人意想不到的能力。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-43bc9589e2-dd1a6f-6d2ef1) 而為了保證如此多的參數能夠獲得合理的訓練，高質量的數據成了關鍵鑰匙。以ChatGPT的發展為例，GPT-1只用了4629 MB 的文本數據， 而GPT-2 用了40 GB 來自Reddit 上爬取並篩選的文本， 而GPT-3 用了至少45TB的純文本，GPT -4的具體訓練過程並沒有披露， 但是鑑於GPT-4的推理速度比GPT-3慢很多，模型的參數數量可以推測出也變多了，進而對應的訓練數據顯然需要更多。這些高質量的數據是ChatGPT 首先出現在英文世界的重要原因，英文的訓練文本比中文的訓練文本更為規範和豐富。中國人民大學交叉科學研究院院長楊東也認為：ChatGPT能夠成功的根本原因不僅僅在於技術本身，國內存在嚴重的數據不開放、數據壟斷問題也是一大原因。而最近Meta 發布的語義分割模型Segment Anything Model， 整體有監督的模型並沒有明顯創新， 但是在語義分割領域海量數據的使用，讓模型的表現令人驚嘆。千萬級的圖片量和十億級的分割Mask，是圖像語義分割領域從未出現過的。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5e0755349c-dd1a6f-6d2ef1) **AI的開發模式正從以模型為中心轉向以數據為中心。 **數據從何獲取，世界上的數據夠大模型們用嗎？## **02、真實數據會被大模型耗盡**這個世界上，人類活動無時無刻不在進行，因此留下的數據痕跡不應該是不斷增長的嗎？為什麼會被耗盡呢？### **高質量的數據是稀缺的**並非所有人類活動產生的痕跡都能用於模型訓練，只有高質量的數據進入模型訓練中才能產生最好的效用。在自然語言處理領域，高質量數據自然是數字化書籍和科學論文。擁有較好的前後邏輯關係，也能保證相對正確。而低質量數據例如聊天記錄、電話等， 由於數據連續性不強，對訓練的作用也相對有限。在ChatGPT 3 的開發文檔中提到，數據過濾在對45TB的純文本進行質量過濾後，獲得了570GB的文本，僅僅使用了1.27%的有效數據。在自動駕駛領域，高質量的數據是大量不同場景產生的。例如曲率相對較小的道路可能出現的頻率非常高，但是實際上，出現次數越多，其重要性越弱。反而一些不常規的場景（即Corner Case），數據的質量更高，也需要單獨對其做場景適配。而這些相對較小的樣本，面對大模型的參數要求，幾乎是杯水車薪。### **數據安全和隱私帶來的局限性**Generative AI 的發展一直伴隨著數據安全的爭議。 Stable Diffusion 開放使用之後，就引起了眾多藝術家的不滿，迫於壓力，Stability AI 宣布允許藝術家們定向刪除自己的作品，阻止其進入訓練集中。在某些情況下，公開數據可能包含敏感信息，如個人身份、財務信息或醫療記錄等。在許多行業和地區，包含敏感信息的數據是非常難以獲取的， 這提高了數據收集的難度，也降低了對應數據集增長的速度。也就成為了行業大模型的掣肘。例如醫療領域， 由於領域的特殊性及私密性，在嚴格的隱私保護和法規限制下想要獲取到可以用於大模型訓練的數據量，無異於天方夜譚。### **高質量的真實數據可能不足以支持大模型的訓練**論文《Will we run out of data? An analysis of the limits of scaling datasets in Machine Learning 》探討了數據短缺（數據量不足以滿足大模型訓練的需要）的可能性， 按照目前的模型的增長速度，* *到2026年左右，高質量的NLP數據將會不足以支持訓練**。語言和視覺模型的數據存量的增長速度比訓練數據集的大小慢得多，所以如果按照目前的趨勢繼續下去，數據集最終會因為數據枯竭而停止增長。在數據量越來越多的情況下，在非可控的數據收集方式中，大部分數據的收集是沒有任何意義的。例如自動駕駛場景，車輛在路上不斷收集新的數據， 但是實際能夠被使用的只能是鳳毛麟角。因此，在最近一次Nvidia CEO 黃仁勳與Ilya Sutskever的對談中，他們也探討了數據被耗盡的可能性。## **03、合成數據可以滿足大模型的巨量數據要求**以數據為中心的開發模式讓數據成了最重要的一環。訓練算法需要數據，可是**高質量的數據**卻難以獲取，大模型巨量的數據需求應該如何被滿足？正如在食物上有合成肉一樣，數據是否可以被人工合成呢？合成數據是在數字世界中創建的數據。合成數據的可控性相較於真實數據更好，可以在數學和物理意義上反映真實數據的屬性，可以定向生產的數據，保證訓練模型時數據的均衡性。### **合成數據具有信息增量**在真實數據中學習到數據的分佈，並且依據這種分佈生產出更多的數據，保證多樣化的場景下都有足夠的數據用於大模型的訓練。不同元素的組合帶來了不同的場景，場景的變化也就帶來了信息的增量，進而保證了合成數據的有效性。根據OpenAI 和UC Berkeley 在2017年的研究， 以實際場景出發，泛化攝像頭的位置，物體顏色，形狀，光照等， 生成大量的合成數據用於物體檢測模型的訓練。在完全沒有使用真實數據的基礎上， 檢測模型的3D誤差保持在1.5cm以內，而且具有了非常好的魯棒性。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-0146688a69-dd1a6f-6d2ef1) 例如在自動駕駛領域， 一個典型的真實的前車Cut-in 場景，可以通過合成數據進行泛化天氣和光照再生產。由此產生的數據訓練模型之後， 模型也就在不同的天氣和光照下有了更加魯棒的性能。根據Nvidia 2018年的研究， 使用隨機化車輛位置和紋理的情況下生產的合成數據訓練模型，檢測模型的性能有了明顯的提升。這歸功於合成數據車輛的位置分佈更加均衡，產生的數據也分佈範圍更廣。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5dbda969ef-dd1a6f-6d2ef1) 合成數據的可控性相較於真實數據更好，可以在數學和物理意義上反映真實數據的屬性，可以定向生產的數據，保證訓練模型時數據的均衡性。在定向生成數據時， 也就有了定制化大模型特性的可能性，例如希望語言類大模型在回答某些問題時有偏向性，在生成某些圖片時有特別的風格和元素。這些都可以通過定制合成數據完成。基於真實數據，但是又與真實數據不同。合成數據的這種特質使得其的應用範圍越來越廣泛，不僅僅用於測試，也能夠成為訓練數據，讓模型能力更加強大。### **合成數據的成本優勢巨大**数据的成本来自于采集和标注，在这两部分，合成数据都有显著的优势。相對於真實數據低效的收集方式， 合成數據可以定向生成場景，讓每一個字節的數據都是有價值的。不需要大量的數據採集團隊，也不需要大規模的數據回傳系統和數據篩選系統，合成數據從生產開始就根據模型訓練的需求出發，大部分產出都可以直接使用，也就降低了數據採集成本。同時， 合成數據標註成本相較於真實數據有非常大的優勢，根據數據服務平台Diffgram 的估算， 在自動駕駛圖像標註上，平均一個標註框價格約為0.03 美元， 整體一張圖完整標註約為5.79美元， 而對於合成數據，標註價格基本接近於零， 有的只是數據計算成本， 只需要約6美分。總之， 合成數據可以更加可控地，更加高效，並且低成本批量生產海量數據，用於大模型的訓練。**如果說真實數據的收集還停留在刀耕火種的農牧時代， 那合成數據的生產就進入了高效自動的工業時代， 低成本提供大規模高質量的產品。 **根據《MIT科技評論》將合成數據列為2022 年全球十大突破性技術， 認為合成數據可以解決數據資源不豐富的領域人工智能發展緩慢的現狀。## **04、哪些行業會需要合成數據****事實上在國外，合成數據已經有了較為廣泛的應用，機器人領域，自動駕駛領域，自然語言處理， 金融，醫療等等，我們都能看到合成數據的身影。 **早在2018年，OpenAI 就使用仿真模擬環境對機器人控制器進行訓練，訓練過程會隨機環境動態， 然後把控制器直接應用在實體機器人身上，通過這種方式讓機器人在執行簡單任務時，可以應對外界環境預料之外的變化。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-8d42e2c10d-dd1a6f-6d2ef1) 2019年根據摩根大通的報告，其使用合成數據去進行金融欺詐檢測模型訓練，以克服金融欺詐數據極少的問題。斯坦福大學最近也發布了自己的70億參數的對話大模型Alpaca，尤其有趣的是，研究所涉及到的數據集， 是團隊用OpenAI 的API生成的， 也就是說，整個訓練數據集完全由合成數據組成，並且最後效果也比肩GPT-3.5。再以自動駕駛為例，作為計算機視覺的重要落地應用，自動駕駛行業已經在合成數據的使用上走的很遠了。為了降低測試成本，提高迭代效率，行業內廣泛使用仿真引擎來進行自動駕駛算法的測試和驗證。基於視覺的自動駕駛功能需要採集海量的真實場景數據來訓練深度學習模型，用以完成對世界的感知。然而量產的長尾數據通常難以在真實世界中進行採集，或者無法採集。同時，在不同時間和天氣條件下，即使同一物體的外觀也會有很大差異，這給視覺感知帶來極大的挑戰。相較真實數據的採集，合成數據的成本可控，且無需人工標註，大大減少了因數據採集流轉流程以及人為標準不一致所帶來的人為誤差。因此合成數據被業界認為是解決長尾問題的有效方式之一。但是為了更好地訓練自動駕駛系統，大部分仿真數據的質量是遠遠不夠的， 它們無法反映真實世界，只是真實世界的高度抽象。所以業界很多公司在提升數據的真實度上投入巨大， 例如Nvidia的自動駕駛仿真軟件DriveSim採用先進的物理渲染技術，讓合成數據的真實度得到提升。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-628c99907d-dd1a6f-6d2ef1) Cruise和Waymo使用NeRF 相關技術生成數字孿生世界進而生產合成數據， Nvidia 也在2022 年提出Instant NGP， 極大提升了NeRF的訓練效率。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-1938a186d7-dd1a6f-6d2ef1) Telsa 早在2021 年的AIDay 上就用高速上奔跑的一家人場景和難以標註的人群訓練了感知系統，令人印象十分深刻。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-bb8ef9b3a3-dd1a6f-6d2ef1) 與此同時，在行業前沿的矽谷眾多合成數據公司開始湧現，為自動駕駛服務的Parallel Domain、Applied Intuition、為廣義機器視覺行業服務的Datagen、紮根自然語言處理的Gretel ai，這些公司背後站著行業領先的巨頭們。Gartner預測稱，2024年， 60%的訓練數據會由成數據取代，而2030年合成數據將徹底取代真實數據，成為訓練AI的主要數據來源。但是國內，實際上合成數據的應用相對較少，目前大部分公司還是使用真實數據去完成模型的訓練。## **05、合成數據的局限**在完全取代真實數據之前， 合成數據還有哪些問題需要被解決？這里以自動駕駛為例做一些探討。### **真實度**從感知的角度看， 真實度確實是第一評價指標。在這批數據進入訓練系統前，是否能通過人類的視覺第一性檢驗，保證看起來真實？對於真實度的劣勢，肉眼所及的真實並不代表數據的真實效用， 一味地追求圖片視覺的真實度可能並不具備實際可量化的意義。評價合成數據真實度的量化標準需要建立在合成數據集對於經過合成數據集訓練的算法在真實數據集上的提升上。目前，在對合成數據真實度要求最高的自動駕駛行業，已經有Cruise、Nvidia、Waymo、Tesla等基於合成數據實實在在有效大幅提升算法在真實道路上表現的實例。當然，隨著算法的提升，對於合成數據真實度的要求也會水漲船高。而生成式AI近期的不斷突破又給了我們很好的增強合成數據真實度的切實方向。### **場景的多樣性**合成數據世界模型的構建，例如自動駕駛場景的構建。我們需要創建一個虛擬世界，並且模擬真實世界的運行，讓合成數據如泉水般流淌出來。傳統方式會基於人工算法建模來實現，比如傳統合成數據生產商純基於物理引擎的構建方式決定了場景構建的速度，整個物理世界需要3D 資產工程師們手動搭建，一個建築，一個路牌都需要手動放置，這也就制約了場景的構建速度，也極大限制了場景的多樣性。而生成式AI如Diffusion Model、Nerf為合成數據的產線提供了以數據為中心，自動化建模的可能性。人工搭建的場景讓合成數據的泛化性受到了極大的限制，畢竟我們希望訓練的算法具有足夠高的魯棒性，能夠直接在真實世界中有足夠好的表現。顯然，用人工搭建的方式無法覆蓋真實世界中的每一個場景，為了創建足夠覆蓋真實世界的所有數據， 我們需要學習到真實世界的隱式表達，進而生產足夠多樣的場景。這必須依賴生成式AI。### **生產效率**為了快速提供大批量、高泛化性的數據，雲端大量並行生產是第一要義，用高算力支持數據的快速生產能讓數據以真實世界中無法比擬的速度合成## **06、生成式AI讓合成數據大規模取代真實數據成為可能**NVidia 黃仁勳認為，人類的反思和夢境都屬於合成數據的一部分，這相當於AI生成數據去訓練AI。為了滿足大模型的巨量數據需求，我們需要完全自動化合成數據的生產鏈路， 讓AI訓練AI成為可能。得益於最近發展迅速的Diffusion Model 和NeRF， 高質量的AI合成數據不再是幻想。 Diffusion Model 的基於馬爾科夫鏈的精巧數學過程讓更大，更穩定的圖片生成模型成為可能， 也克服了對抗生成網絡訓練難度太大的問題。 Stable Diffusion Model 用巨大的圖片集讓人們看到了Diffusion Model 的無限可能，而ControlNet 相關網絡的提出也讓特定領域的適配變得更加便捷。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-284d009079-dd1a6f-6d2ef1) 而NeRF（ Neural Radiance Fields） 將3D 世界的構建變成一個神經網絡的學習過程，將神經場（Neural Field）與體素渲染有效結合在一起，能夠非常逼真地重建3D世界，非常有希望取代繁瑣的物理引擎構建過程。 Waymo 基於此技術發展了BlockNeRF， 將舊金山高效重建出來，並且在其中進行合成數據的生產。而最近CVPR的Highlight 論文UniSim 更是將NeRF 的應用向前推了一大步。基於這些技術，AIGC獨角獸開始出現。 StabilityAI（Diffsion Model）、Midjourney（Diffusion Model）、LumaLab AI （NeRF）用大批量的數據訓練之後，圖片的真實性已經無法被質疑，而由此產生的藝術效果和新數據的表現方式讓我們看到了合成數據泛化的光明未來。## **07、寫在最後**ChatGPT 只是起點，自然語言領域的大模型也只是星星之火。雖然ChatGPT 已經基本具備初級人工智能的能力，這種能力是通過學習人類自然語言數據獲取的，但是實際上，人類對世界的認知思考絕對不僅僅局限在語言和文字， 而是多模態的（圖、文、聲、光、電、影……）。不難推論，真正的AGI必須能像人類一樣即時、高效、準確、符合邏輯地處理這個世界上所有模態的信息，完成各類跨模態或多模態任務。最近具身智能的熱潮也在期待著新的多模態交互方式出現。而這也就需要多模態的數據， 這又進一步加大了真實數據的獲取難度，多模態的真實數據更加稀缺。例如相較於隨處可見的文字數據，圖片數據，對應的高質量的3D數據集屈指可數。常用的科研圖像數據集通常都包含上億或更多圖片，而很多質量較高，可用於科研的3D數據集只有數千或數万個3D模型。如果我們希望人工智能可以理解3D 世界，勢必需要大量包含3D 模型的多模態數據。這可能也需要合成數據去解決。自動化構建世界模型、讓AI可控生成多模態數據、去訓練出更加智能的大模型才是真正通向通用人工智能的道路。部分參考：************