AI要被卡脖子了？訓練大模型的數據或在2026年耗盡

Question

來源：“騰訊科技”，作者：金鹿劃重點：1. 最新崛起的生成式人工智能熱潮需要超大模型的支持，而大模型又需要接受海量數據的訓練，因此數據變得越來越寶貴。2. 研究人員認為，對數據的需求將會急劇增加，可用於訓練大模型的高質量文本數據或會在2026年耗盡。一場數據爭奪戰正在拉開序幕。3. 在美國，已經有許多針對模型構建者發起的侵犯版權案件，OpenAI、Stability AI、Midjourney以及Meta都成了被告。4. 人工智能公司正在開拓新的數據源，包括與其他公司簽署數據版權協議，通過用戶與他們工具的互動來收集數據，並在嘗試利用企業客戶內部的數據。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-098c1933a7-dd1a6f-1c6801) 圖片來源：由無界AI生成就在不久前，分析師們還公開猜測，人工智能（AI）是否會導致面向創意人士的軟件開發商Adobe衰落。像Dall-E 2和MidTrik這樣的新工具，可以根據提示文本生成相應的圖片，它們似乎讓Adobe的圖像編輯功能變得多餘。就在今年4月，金融新聞網站Seeking Alpha還發表了題為《人工智能會是Adobe殺手嗎?》的文章。但在現實中，事實距離分析師們的假設尚遠。 Adobe利用其數以億計的庫存照片數據庫構建了自己的人工智能工具套件，名為Firefly。該公司高管達納·拉奧(Dana Rao)表示，自3月份發布以來，Firefly已被用於創建超過10億張圖像。通過避免像競爭對手那樣在互聯網上挖掘圖像，Adobe避開了目前困擾著整個行業的、日益加深的版權糾紛。自Firefly推出以來，Adobe股價已經上漲了36%。## **一場數據爭奪戰正在拉開序幕**Adobe幹翻所謂“末日殺手”的勝利表明，在快速發展的人工智能工具市場上爭奪主導地位具有更廣泛的意義。為最新一波所謂的“生成式人工智能”提供動力的超大模型依賴於海量的數據。此前，模型構建者多數時候從互聯網抓取數據（通常是未經許可的）。現在，他們正在尋找新的數據來源來維持這種瘋狂的訓練模式。與此同時，擁有大量新式數據的公司正在權衡如何最好地從中獲利。一場數據爭奪戰正在拉開序幕。人工智能模型的兩個基本要素就是數據集和處理能力，系統在數據集上接受訓練，模型通過處理能力檢測這些數據集內外部之間的關係。在某種程度上，這兩大基本要素可以相互替代：一個模型可以通過吸收更多數據或增加更多處理能力加以改進。然而，在專業人工智能芯片短缺的情況下，後者正變得越來越困難，這導致模型構建者加倍專注於尋找數據。研究機構Epoch AI認為，對數據的需求將會急劇增加，以至於可用於訓練的高質量文本可能會在2026年耗盡。據悉，谷歌和Meta這兩家科技巨頭的最新人工智能模型已經接受了超過1萬億個單詞的訓練。相比之下，在線百科全書Wikipedia上的英語單詞總數約為40億個。重要的不僅僅是數據集的大小。數據越好，利用其進行訓練的模型表現也會越好。數據初創公司Scale AI的拉塞爾·卡普蘭(Russell Kaplan)指出，基於文本的模型的理想訓練對像是篇幅夠長、文筆良好、事實準確的作品。輸入這些信息的模型更有可能產生類似的高質量輸出。同樣，當被要求一步一步地解釋它們的工作時，人工智能聊天機器人會給出更好的答案，這也增加了對教科書等資源的需求。專用的信息集也變得更有價值，因為它們允許對模型進行“微調”，以適應更小眾的應用。微軟在2018年以75億美元收購了軟件代碼存儲庫GitHub，並利用其開發了一種編寫代碼的人工智能工具。## **數據版權官司激增，AI公司忙著簽授權協議**隨著對數據需求的增長，獲取數據缺變得越來越棘手，內容創作者現在要求對被人工智能模型吸收的材料給與補償。在美國，已經有許多針對模型構建者發起的侵犯版權案件。包括喜劇演員莎拉·西爾弗曼(Sarah Silverman)在內的一群作家，正在起訴人工智能聊天機器人ChatGPT開發商OpenAI和Facebook母公司Meta。此外，一群藝術家也同樣起訴了Stability AI和Midjourney，這兩家公司致力於開發文本轉圖像的工具。所有這一切導致的結果是，隨著人工智能公司競相獲取數據源，出現了一連串的交易。今年7月，OpenAI與美聯社簽署了一項協議，以獲取該機構的新聞檔案。最近，該公司還擴大了與圖片庫提供商Shutterstock的協議，Meta也與後者達成了協議。8月初有報導稱，谷歌正在與唱片公司環球音樂(Universal Music)進行談判，希望後者授權藝術家的聲音以用於幫助開發歌曲創作人工智能工具。資產管理公司富達(Fidelity)表示，許多科技公司曾與該公司接洽，要求獲取其財務數據。有傳言稱，人工智能實驗室正在接洽英國公共廣播公司（BBC），以獲取其圖像和電影檔案。另一個受關注的目標是JSTOR，這是一個學術期刊的數字圖書館。這些信息持有者正在利用他們更大的議價能力。論壇Reddit和備受程序員歡迎的問答網站Stack Overflow都提高了訪問其數據的成本。這兩個網站都特別有價值，因為用戶會給喜歡的答案“點贊”，幫助模型知道哪些是最相關的內容。社交媒體網站X(前身為推特)已經採取措施，限制機器人抓取該網站信息的能力，現在任何想要訪問其數據的人都要付費。 X老闆埃隆·馬斯克(Elon Musk)正計劃利用這些數據建立自己的人工智能業務。因此，模型構建者正在努力提高他們已經擁有的數據的質量。許多人工智能實驗室僱傭大量的數據註釋者來執行標記圖像和評級答案等任務。其中一些工作很複雜，甚至需要招聘擁有生命科學專業的碩士或博士求職者。但其中大部分工作都很普通，而且正在外包給肯尼亞等國的廉價勞動力。人工智能公司也通過用戶與他們工具的互動來收集數據。其中，許多工具都有某種形式的反饋機制，由用戶指出哪些輸出是有用的。 Firefly的文本轉圖像生成器允許用戶從四個選項中做出選擇。谷歌的聊天機器人巴德(Bard)同樣提供了三個答案。當ChatGPT回複查詢時，用戶可以給它豎起大拇指點贊。這些信息可以作為輸入反饋到底層模型中，形成創業公司Contextual AI聯合創始人杜威·基拉(Douwe Kiela)所說的“數據飛輪”。他補充說，衡量聊天機器人回答質量的一個更強的信號是，用戶是否複製文本並將其粘貼到其他地方。分析這些信息有助於谷歌迅速改進其翻譯工具。## **開拓新領域，企業客戶內部數據成香餑餑**然而，有一個數據來源在很大程度上仍未被開發，即存在於科技公司企業客戶內部的信息。許多企業往往在不知不覺中擁有大量有用的數據，從呼叫中心記錄到客戶支出記錄等。這些信息特別有價值，因為它可以幫助微調特定商業目的模型，比如幫助呼叫中心的工作人員回答客戶的問題，或者幫助業務分析師找到提振銷售的方法。然而，利用這種豐富的資源並不容易。諮詢公司貝恩的分析師羅伊·辛格(Roy Singh)指出，從歷史上看，大多數公司很少關注那些將被證明對訓練人工智能工具最有用的龐大但非結構化的數據集。這些數據通常分佈在多個系統中，隱藏在公司服務器中，而不是在雲端。解鎖這些信息將有助於企業定制人工智能工具，以更好地滿足他們的特定需求。亞馬遜和微軟這兩家科技巨頭現在都提供工具，以幫助其他企業更好地管理非結構化數據集，谷歌也是如此。數據庫公司Snowflake的克里斯蒂安·克萊納曼（Christian Kleinerman）說，隨著客戶希望“打破數據孤島”，該領域正在蓬勃發展。初創公司也正在蜂擁至這個新領域。今年4月，專注於人工智能的數據庫公司Weaviate融資5000萬美元，估值達到2億美元。僅僅一周後，其競爭對手PineCone就以7.5億美元的估值籌集了1億美元資金。本月早些時候，另一家數據庫初創公司Neon也獲得了4600萬美元的融資。顯然，對數據的爭奪才剛剛開始。