觀察｜大模型潮即將耗盡全宇宙文本，高質量數據從哪裡來？

Question

來源：澎湃新聞作者：邵文·專家警告，ChatGPT等人工智能驅動的機器人可能很快就會“耗盡宇宙中的文本”。同時，用AI生成的數據“反哺”AI或造成模型崩潰。未來模型訓練使用的高質量數據可能會愈來愈昂貴，網絡走向碎片化和封閉化。·“當大模型發展走向更深度，比如行業大模型，所需的數據就不是互聯網免費公開的數據了，要訓練出精度極高的的模型，需要的是行業專業知識，甚至商業機密類型的知識。要讓大家貢獻這樣的語料庫，肯定需要有一種權益分配機制。”![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c63d3da287-dd1a6f-7649e1) 圖片來源：由無界AI生成作為人工智能基礎設施的“三駕馬車”之一，數據的重要性一直不言而喻。隨著大語言模型熱潮進入高峰期，業界對數據的關注度前所未有。7月初，加州大學伯克利分校計算機科學教授、《人工智能——現代方法》作者斯圖爾特·羅素（Stuart Russell）發出警告稱，ChatGPT等人工智能驅動的機器人可能很快就會“耗盡宇宙中的文本”，通過收集大量文本來訓練機器人的技術“開始遇到困難”。研究機構Epoch估計，機器學習數據集可能會在2026年前耗盡所有“高質量語言數據”。“數據質量和數據量將是下一階段大模型能力湧現關鍵中的關鍵。”中信智庫專家委員會主任、中信建投證券研究所所長武超在2023世界人工智能大會（WAIC）上分享了一個測算，“未來一個模型的好壞，20%由算法決定，80%由數據質量決定。接下來高質量的數據將是提升模型性能的關鍵。”然而，高質量數據從哪裡來？目前，數據行業仍然面臨多項亟待解決的問題，比如數據質量的標準是什麼，如何促進數據分享和流通，如何設計定價和分配收益體系。## **高質量數據告急**上海數據交易所副總經理韋志林7月8日在接受澎湃科技（在內的媒體採訪時表示，在數據、算力、算法“三駕馬車”裡，數據是最核心、最長遠、最基礎性的要素。大型語言模型（LLM）有如今令人驚豔的表現，背後的機制被概括為“智能湧現”，簡單理解的話，就是以前沒教過AI的技能它現在也會了。而大量的數據集是“智能湧現”的重要基礎。大型語言模型是具有數十億到數万億參數的深度神經網絡，被“預訓練”於數TB（Terabytes，1TB=1024MB）的巨大自然語言語料庫上，包括結構化數據、在線圖書和其他內容。中電金信研究院副院長單海軍在2023世界人工智能大會期間對澎湃科技表示，大模型本質上是概率生成模型，其核心亮點在於能理解（上下文提示學習）、能推理（思維鏈）和有價值觀（人類反饋強化學習）。 ChatGPT比較大的突破是在GPT-3出現時，大概1750億參數量，數據量為45個TB。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-dfb60d6123-dd1a6f-7649e1) 2018年到2022年初從GPT-1到Gopher的精選語言模型的所有數據集的綜合視圖。未加權大小，以GB為單位。圖源：Alan D. Thompson“OpenAI一直以來努力的方向都是尋求更多的優質數據，深度解析已有的數據，從而使自己的能力越來越強大。”7月12日，復旦大學教授、上海市數據科學重點實驗室主任肖仰華對澎湃科技表示，“獲取大規模、高質量、多樣性的數據，並深入解析這些數據，可能是推動大模型發展的重要思路之一。”然而，高質量數據正在告急。人工智能研究人員小組Epoch去年11月進行的一項研究估計，機器學習數據集可能會在2026年前耗盡所有“高質量語言數據”。而這項研究發佈時全球範圍內的大模型潮還沒有出現。根據該研究，“高質量”集中的語言數據來自“書籍、新聞文章、科學論文、維基百科和過濾的網絡內容”。與此同時，OpenAI等生成式AI開發機構為訓練大型語言模型而進行的數據收集行為也越來越受爭議。 6月底，OpenAI遭集體訴訟，被指竊取“大量個人數據”來訓練ChatGPT。包括Reddit和推特在內的社交媒體對其平台數據被隨意使用表示不滿，馬斯克7月1日以此理由對推特的閱讀條數實行了臨時限制。7月12日，羅素在接受科技財經媒體Insider的採訪時表示，許多報導雖然未經證實，但都詳細說明了OpenAI從私人來源購買了文本數據集。雖然這種購買有各種可能的解釋，但“自然的推論是沒有足夠的高質量公共數據。”有專家提出，或許在數據耗盡前會出現新的解決辦法。比如，可以讓大模型自己持續生成新數據，然後經過某種質量過濾，反過來再用於訓練模型，這被稱為自我學習或“反哺”。但是，根據牛津大學、劍橋大學、倫敦帝國學院等機構的研究人員今年5月在預印本平台arXiv上發表的論文，AI用AI生成的數據進行訓練，會導致AI模型存在不可逆轉的缺陷，他們將其稱之為模型崩潰（Model Collapse）。這意味著未來模型訓練使用的高質量數據將會愈來愈昂貴，網絡走向碎片化和封閉化，內容創作者將會竭盡全力防止其內容被免費抓取。不難看出，高質量數據的獲取會越來越難。 “我們現在大部分的數據來源還是互聯網，下半年數據從哪來？我覺得這個很關鍵，最後大家會拼私有數據，或者你有我沒有的數據。”上海人工智能實驗室青年科學家、OpenDataLab負責人何聰輝在2023世界人工智能大會上談到。武超也對澎湃科技表示，接下來誰擁有更高質量的數據，或是能產生源源不斷的高質量數據，將成為效能提升的關鍵。## **“以數據為中心”的困擾**何聰輝認為，接下來整個模型研發的範式會慢慢從“以模型為中心”變成“以數據為中心”。但以數據為中心有一個困擾——缺乏標準，數據質量的關鍵性常常被提及，但實際上目前很難有人說清楚什麼才是好的數據質量，標準是什麼。在實踐過程中，何聰輝也面臨這樣的問題，“我們在這個過程中的實踐方式是把數據拆細，越做越細，有每一個細分領域和細分主題，慢慢數據的質量標準就提出來了。同時，光看數據不夠，還要看數據的背後，我們會結合數據和數據對應意向的模型效能提升，兩邊結合製定一套數據質量迭代機制。”去年，何聰輝所在的上海人工智能實驗室發佈人工智能開放數據平台OpenDataLab，提供5500多個高質量數據集，“但這僅僅停留在公開數據集的層面，我們希望數據交易所，以及前兩天成立的大規模語料數據聯盟，能夠給研究機構和企業提供更好的數據流通方式。”7月6日，在2023世界人工智能大會上，上海人工智能實驗室、中國科學技術信息研究所、上海數據集團、上海市數商協會、國家氣象中心以及中央廣播電視總台、上海報業集團等單位聯合發起的大模型語料數據聯盟宣布正式成立。7月7日，上海數據交易所官網正式上線語料庫，累計掛牌近30個語料數據產品，包含文本、音頻、圖像等多模態，覆蓋金融、交通運輸和醫療等領域。但這樣的語料庫建設並非水到渠成。 “能否有大模型企業所需的高質量語料？目標對象願不願意開放數據？”上海數據交易所總經理湯奇峰在2023世界人工智能大會上談到，難度主要集中於開放程度和數據質量兩方面。韋志林分享道，對於數據的供給，現在面臨很多挑戰，頭部廠商不願意開放數據，同時，大家也擔心數據在共享過程中的安全機制問題。還有一個重要問題，數據開放流通的收益分配機制也還存在疑問。具體而言，數據共享要解決3個問題。上海零數科技有限公司創始人兼CEO林樂對澎湃科技解釋，一是數據容易造假，要保證數據真實可信。二是數據容易複製，這就意味著權屬關係不清晰，需要區塊鏈進行確權和授權使用。三是容易洩露隱私，可以用區塊鏈結合隱私計算技術，讓數據做到可用不可見。## **如何解決收益分配**湯奇峰指出，針對數據質量高但開放程度低的供方，可以通過數據交易鏈有效破解語料數據流通的信任問題，“核心之一在於產權和參與大模型後的收益分配問題。”清華大學交叉信息核心技術研究院常務副院長林常樂正在設計一個數據如何定價和分配收益的理論體系。“某種程度上，像ChatGPT可能幾個月就免費使用了人類很多知識。我們看到大模型可以學習一些作家的文章，寫出同樣風格的文章，或生成梵高的畫，但它無需為此付費，這些數據來源的主體也沒有由此獲得收益。”林常樂在2023世界人工智能大會上談到，所以目前可能存在一種比較激進的觀點：大模型時代知識產權不存在了，或者說傳統的知識產權保護不存在了。但林常樂認為，大模型時代後知識產權保護會發展到對數據的確權、定價和交易。 “當大模型發展走向更深度，比如行業大模型，其所需的數據就不是互聯網免費公開的數據了，要訓練出精度極高的的模型，需要的是行業專業知識，甚至商業機密類型的知識。要讓大家貢獻這樣的語料庫，肯定需要有一種權益分配機制。”林常樂現在在做的“數據資產圖譜”，是用數學證明出來一套收益分配的機制，將數據權益進行公平的分配。**如何解決數據流通**工信部賽迪研究院副總工程師、俄羅斯自然科學院外籍院士劉權在WAIC“數實融合，智領未來”產業區塊鏈生態論壇上提到，最近北京版“數據二十條”在業界產生了非常大的反響，它解決了數據流通過程中的核心問題。最明顯的是，政務的數據歸誰的問題明確了——公共數據歸政府所有。那麼企業的數據、個人的數據呢？ “可以委託北京市數據交易所進行委託經營。”7月5日，中共北京市委、北京市人民政府印發《關於更好發揮數據要素作用進一步加快發展數字經濟的實施意見》的通知。 《實施意見》分為九部分，從數據產權、流通交易、收益分配、安全治理等方面構建數據基礎制度，共提出23條具體要求，被業內稱為北京版“數據二十條”。“在國內來看，據統計，數據資源80%集中在公共和政府事業單位。我們要解決數據的供給，很大程度上也是希望基於數據二十條（《中共中央、國務院關於構建數據基礎制度更好發揮數據要素作用的意見》）對公共數據的開放共享，能夠形成一套可複制的機制和範式，來促進形成於公共事業的的數據，再服務於公共。”韋志林說。韋志林表示，按照現在的統計，中國全社會的數據資源存量排在全球第二，但這些數據分散在各個地方。根據國家信息中心數字中國研究院副院長展鈺堡7月7日在2023世界人工智能大會上的梳理，中國目前的全國化數據流通體系包括：有兩個數據交易所，一個是上海數據交易所，一個是深圳數據交易所；在國內還有17家數據交易中心，包含北京數據交易中心。