大模型深挖資料要素價值：演算法、算力之後，儲存載體價值凸顯

巴比特_

2023-09-27 08:03:34

文| 智能相對論**（aixdlun）**

作者| 葉遠風

18.8兆美元，這是市場預計2030年AI推動智慧經濟可產生的價值總和，其中大模型帶來的AI能力質變無疑成為重要的推動力量。

大模型浪潮下，業界對AI發展的三駕馬車——算力、演算法、數據任何一個維度的關注都到了全新的高度，避免「木桶效應」成為大模型發展首要考慮的問題。

而在這個過程中，業界對「數據」的關注，往往集中在「量」+「質」上，更龐大的數據量與更高的數據質量能推動大模型有更好的訓練與應用效果，已經成為共識。

但是，隨著大模型創新對資料需求越來越複雜，單單關注資料的「量」+「質」已經不夠，能夠承載資料、滿足大模型所需的存儲，同樣值得大模型領域從業者關注。

在剛舉辦的華為全聯接大會2023（HC 2023）上，華為方面系統介紹了其儲存解決方案如何解決大模型訓練與應用痛點、支撐大模型創新進程。

華為的動作，從資料維度全景展示了大模型發展的本質——「資料要素」大開發，以及儲存創新如何為這種本質提供力量，幫助大模型從業者更好地掘金智能經濟時代。

大模型時代即是資料要素時代，儲存作為載體的價值彰顯

毫無疑問，大模型對算力、演算法、數據的需求都在急速提高。

市場研究統計，過去五年，大模型參數增加2,000倍，所需運算能力增加5萬倍，資料儲存需求增加10萬倍，連帶網路頻寬需求增加8,000倍。

大開大合大需求，需要大設施、大投入。

但是，如果從創新的角度來看，實際上無論是演算法還是算力的提供，其難度都在下降或收斂。

在很多企业都头疼的算力上，虽然需要的量很大，但无非都来自于英伟达、昇腾等GPU硬件资源，是一件主要依赖成本投入的事。换句话说，只要有足够多的预算，算力资源就能供给上来。

在演算法端，雖然各大廠商不斷調優迭代，但整體上都在採用Transformer模型基礎架構，基於Pytorch、TensorFlow、MindSpore等主流開發框架開發，是逐漸收斂的。

這時候，壓力來到了數據這裡。

隨著大模型深入發展，在總量上，資料需求早已從TB級躍升到PB級，需要的「池子」越來越大；而同時，對資料類型的需求又極大豐富，單一文本的模態之外，圖片、視訊、語音等多模態資料爆發，資料需求越來越複雜，這些都考驗著儲存的承載力，以及如何在訓練、應用過程中更好地與算力、演算法協同工作。

這段期間，諸多難題出現，等待儲存攻克，主要包括：

小檔案讀取效能。大模型在資料需求上以圖片文字等海量小檔案為主，單一AI伺服器每秒能夠讀取2萬多張圖片，這往往會導致資料載入效率低（類似個人PC上的複製動作，同等在空間下，內含大量小文件夾會比單一大文件慢很多），影響大模型的訓練效率。此時，海量小檔案效能就成為瓶頸，萬億參數大模型的基礎要求已達到1000萬IOPS。

CheckPoint斷點續訓。大模型訓練過程中出於參數調優等各種需求，會在不特定時間點中斷形成CheckPoint，後續啟動繼續訓練（需要時間，形成GPU資源利用的空檔）。這是一種對長時間訓練的模型非常友好的能力，但企業頻繁參數調優往往會造成GPU利用率降低（目前業界通常平均每二天就會中斷一次，GPU利用率只有40%），需要存儲具備強大的大檔案讀寫效能，才能減少GPU等待時間、提升昂貴資源利用效率。

“AI幻覺”問題。大模型輸出結果“胡編亂造”，與事實明顯衝突的現像是業界十分頭痛的問題，這種大模型自以為是的現象稱為“AI幻覺”。看起來這是演算法上的問題，但實際上，業界在探索中逐漸發現，它的解決需要的是在資料層面不斷「求證」（主要是參考上下文資訊），本質上要求儲存能夠提供一個類似於「百科字典」的知識體系，來作為大模型的「海馬體」提供精確的產業知識。

可以看到，在創新層面，解決大模型在儲存上面臨的挑戰，可能要優先於算力和演算法。

這一點，其實也讓大模型進一步回歸到本質上，也就是以參數量更大的AI模型進一步挖掘資料要素的價值，推動千行百業實現轉型升級。

現在，資料要素已經作為數位經濟和資訊社會的核心資源，被認為是繼土地、勞動力、資本、技術之後的另一個重要生產要素，包括大模型在內的無數創新，都是在圍繞數據要素進行價值深度開發。

大模型的發展過程，可視為資料要素不斷從原始走向價值輸出的過程。

這一過程中，演算法在前方引導方向、走向通用或具體產業，澎湃的算力帶來強勁的推動力，而儲存則提供支撐與協同能力。當算力主要依賴成本投入、演算法逐步收斂，儲存作為資料要素載體的創新價值就越來越凸顯。

讓資料要素價值落地，華為儲存多維度出擊解決痛點問題

如何解決儲存面臨的挑戰，華為高效能知識庫儲存OceanStor A800產品與對應解決方案在產業模式訓練場景擁有全面領先的訓推效率，整體而言有四大特點：

1、極高的整體性能，匹配大模型訓練需要

華為儲存首要解決的是在整體效能上滿足大模型對訓練資料的龐大需求，尤其是對小檔案讀取效能的需求。

OceanStor A800基於創新數控分離架構，單框IOPS能夠達到2400萬，訓練集加載效率是業界的4倍，而且可以根據客戶需求實現性能線性擴展。此外，OceanFS分散式檔案系統實現全域均衡打散，消除了CPU瓶頸，能帶來大量小檔案效能的極致提升體驗，滿足大量小檔案讀取需求。

只要有性能需要，儘管“往上加”，華為存儲都“扛得住”。

2、特殊能力優化，滿足斷點續訓等特定需求

斷點續訓等特殊情況下如何更好地提供支撐，是華為儲存在大模型訓練階段要同步應對的挑戰。

透過盤控協同、NFS+平行檔案系統，華為儲存實現了單框500GB/s超高頻寬，能夠做到CheckPoint的超快恢復，斷點續訓恢復速度是業界3倍，TB級CheckPoint讀寫實現從小時到分鐘級的跨越（即萬億參數大模型平均恢復時間小時升到分鐘級），減少昂貴的GPU等待。

只要是優化大模型需要的，客戶都能夠更大膽地進行參數調優等操作。

除此之外，其管控面擁有資源分區+統一調度能力，也能讓儲存適合不同的商業模式。

不管客戶面向什麼業務模式進行開發，不管客戶在流程中選擇何時暫停，華為儲存都能更好地應對。

3、反應能力強化，滿足大模型應用的即時需求

訓練階段完成後，華為儲存要做的，是在應用階段滿足嚴苛的資料回應需求。

目前，在大模型應用階段，得益於內建了向量知識庫（以向量的形式儲存產業知識），華為儲存的QPS達到了25萬+，已經能夠實現毫秒級響應，一方面能夠加速推理，使得應用過程中的GPU資源消耗大大減少，有效節約了落地成本－當前許多大模型在開放應用階段的資源消耗十分巨大，有些企業已經不堪重負；另一方面「百科字典」使得大模型更具準確的行業知識，對減少AI幻覺產生起到重要的支撐作用，能大大提升推理的精確度。

4、架構創新，保障整體系統的穩定可靠

對儲存最後一個也是最基本的要求是，無論具備什麼樣的特性，都要確保穩定可靠的整體結構，不發生安全問題、不「掉鍊子」。

華為儲存解決一系列大模型資料痛點需求的過程，某種程度上也增加了儲存方案與體系的複雜性，但同時，華為並沒有犧牲系統的可靠性，其創新的全互聯AA架構，能夠實現5層全方位保護與6個9的超高可靠。

由此，大模型的資料可靠性及訓練穩定性實現了端到端的保障。

造輪者，先行久遠路途

華為儲存能夠解決大模型資料痛點問題，根源在於其長期以來在儲存上的創新探索。

OceanStor A800的數控分離架構，就利用了業界前沿的資料讀寫直通到盤的技術創新，讓資料面直通到盤，與控制面分離，實現IO直通，從而減少資料讀寫時CPU的運算，大大提升儲存效能。

事實上，華為長期以來在儲存上進行技術耕耘，已經取得了相當類似的前沿創新成果。

目前，華為OceanStor儲存在全球擁有12個研發中心、4000+研發人員、3000+專利，產品涉足高效能NAS儲存解決方案、儲存防勒索解決方案、容器儲存解決方案、資料中心虛擬化等多個領域，獲得了廣泛好評。

在全球150多個國家，華為儲存已經服務了包括營運商、金融、政府、能源、醫療、製造、交通等產業在內的25,000+客戶。

可以說，為資料要素價值開發、為大模型創新需求量身定制的儲存能力，是華為長期以來在儲存賽道上深耕的必然結果——華為儲存早已做好了為眾多領域資料需求（不隻大模型）提供強大承載力與協同力的準備。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。