全球最強長文本大模型，一次可讀35萬漢字：Baichuan2-192K上線

巴比特_

2023-11-01 06:04:35

大模型看書，從來沒有這麼快過。

圖片來源：由無界 AI生成

國內大模型創業公司，正在技術前沿創造新的記錄。

10 月 30 日，百川智慧正式發佈 Baichuan2-192K 長視窗大模型，將大語言模型（LLM）上下文視窗的長度一舉提升到了 192K token。

這相當於讓大模型一次處理約 35 萬個漢字，長度達到了 GPT-4（32K token，約 2.5 萬字）的 14 倍，Claude 2.0（100K token，約 8 萬字）的 4.4 倍。

換句話說，Baichuan2-192K 可以一次性讀完一本《三體 2》，是全球處理上下文窗口長度最長的大模型。此外，它也在文本生成品質、上下文理解、問答能力等多個維度的評測中顯著領先對手。

能夠一次理解超長文本的大模型，究竟能做哪些事？百川智能進行了一番簡單演示。

上傳一整部《三體 2：黑暗森林》的 PDF 檔，百川大模型統計出來是 30 萬字。接下來，如果你詢問有關這本小說里的任何問題，大模型都可以給出簡潔準確的答案。

有時候我們尋求 AI 的説明，並不是希望他們發揮想像力，而是要提取準確資訊。有了Baichuan2-192K，我們可以快速解讀幾十頁，甚至幾百頁的合同檔，讓AI快速給出簡明摘要，四捨五入就是量子速讀了：

那麼如果我突然接到新任務，有一堆檔要看呢？

直接打包一起上傳就可以了，百川大模型可以輕鬆把五篇新聞整合成一篇。

大模型能夠理解的內容變長之後，應用的方向會越來越多。眾所周知，長文本建模能力是很多場景能夠應用落地的前提條件。這一次，百川做到了業內領先。

從幾萬字到幾十萬字，頭部創業公司都在搶灘「長視窗」

如果你關注大模型在文本理解方向的應用，或許會注意到一個現象：一開始，大家用來測評模型能力的文本可能都是一些財報、技術報告，這些文本通常有十幾頁到幾十頁不等，字數通常也就幾萬字。但後來，測試文本逐漸演變為幾個小時的會議記錄，或者幾十萬字的長篇小說，競爭越來越激烈，難度也越來越大。

與此同時，宣稱能理解更長上下文的大模型公司也越來越受關注。比如前段時間，宣稱能實現 100K token 上下文視窗的大模型 ——Claude 背後的公司 Anthropic 先後拿到了微軟和谷歌數十億美元的融資，將大模型軍備競賽推向了新的層面。

為什麼這些公司都在挑戰長文本？

首先從應用的角度來看，使用大模型來提高生產力的很多工作者都不免要處理很長的文本，比如律師、分析師、諮詢師等，上下文視窗越大，這些人能用大模型做的事情就越廣泛; 其次，從技術的角度來看，視窗所能容納的資訊越多，模型在生成下一個字時可以參考的資訊就越多，「幻覺」發生的可能性就越小，生成的資訊就越準確，這是大模型技術落地的必要條件。所以，在想辦法提升模型性能的同時，各家公司也在比拼誰能把上下文視窗做得更大，從而投放到更多的應用場景。

從前面展示的一些例子中可以看到，Baichuan2-192K 在文本生成品質和上下文理解方面表現都很出色。而且，在這些定性結果之外，我們還可以從一些定量評估數據中看到這一點。

Baichuan2-192K：檔越長，優勢越明顯

在文本生成質量評估中，一個很重要的指標叫「困惑度」：當我們將符合人類自然語言習慣的高品質文檔作為測試集時，模型生成測試集中文本的概率越高，模型的困惑度就越小，模型也就越好。

用來測試百川大模型困惑度的測試集名叫PG-19。這個數據集由 DeepMind 的研究人員製作，用來製作該數據集的資料來自古騰堡計劃的圖書，因此 PG-19 具有書本級的品質。

測試結果如下圖所示。可以看到，在初始階段（橫軸左側，上下文長度比較短的階段），Baichuan2-192K 的困惑度便處於較低的水準。隨著上下文長度的增加，它的優勢變得愈發明顯，甚至呈現出困惑度持續下降的狀態。這說明，在長上下文的場景中，Baichuan2-192K 更能保持書本級的文本生成品質。

在上下文理解能力上，Baichuan2-192K 的表現也非常亮眼。

這項能力的評估採用了權威的長視窗文本理解評測基準Long。 Long 是由加州大學伯克利分校聯合其他高校發佈的針對長視窗模型評測的榜單，主要衡量模型對長視窗內容的記憶和理解能力，模型得分越高越好。

從下圖的評估結果中可以看到，隨著上下文長度的增加，Baichuan2-192K 一直能夠保持穩定的高性能，在窗口長度超過 100K 之後也是如此。相比之下，Claude 2 在視窗長度超過 80K 后整體效果下降就已經非常嚴重。

此外，模型還在 Dureader、NarrativeQA、TriviaQA、LSHT 等多個中英文長文本問答、摘要的評測集上經歷了測試。結果顯示，Baichuan2-192K 同樣表現優異，在大部分長文本評測任務中都遠超其他模型。

簡而言之，處理的內容越長，百川的大模型相對性能就越好。

**192K 超長上下文，百川是怎麼做到的？ **

擴大上下文視窗能有效提升大模型性能是人工智慧行業的共識，但是超長上下文窗口意味著更高的算力需求和更大的顯存壓力。

為了緩解這種壓力，業內出現了一些折中的方法，比如把模型做小; 讓模型通過滑動視窗等方式主動拋棄前文，只保留對最新輸入的注意力機制; 通過對上下文的降採樣或者RAG（檢索增強的生成），只保留對部分輸入的注意力機制等等。

這些方式雖然能提升上下文窗口長度，但對模型的性能均有不同程度的損害。換言之，它們都是通過犧牲模型其他方面的性能來換取上下文窗口長度，比如模型無法基於全文資訊回答複雜問題，難以跨多個文本綜合考慮答案等。

而本次百川發佈的Baichaun2-192K 通過演算法和工程的極致優化，實現了窗口長度和模型性能之間的平衡，做到了窗口長度和模型性能的同步提升。

演算法方面，百川智慧提出了一種針對 RoPE 和 ALiBi 的動態位置編碼的外推方案，該方案能夠對不同解析度的 ALiBi_mask 進行不同程度的 Attention-mask 動態內插，在保證解析度的同時增強了模型對長序列依賴的建模能力。

工程方面，在自主開發的分散式訓練框架基礎上，百川智慧整合了目前市場上所有先進的優化技術，包括張量並行、流水並行、序列並行、重計算以及 Offload 功能等，獨創了一套全面的 4D 並行分散式方案。該方案能夠根據具體的負載情況，自動尋找最適合的分散式策略，極大地降低了長視窗推理過程中的顯存佔用。

打大模型之戰，速度要快

成立於今年 4 月的百川智慧，幾乎可以說是業內技術反覆運算最快的大模型創業公司。在成立僅半年的時間里，這家公司就已經發佈了Baichuan-7B/13B、Baichuan2-7B/13B 四款開源可免費商用的大模型，以及Baichuan-53B、Baichuan2-53B 兩款閉源大模型。

平均下來，每個月就發佈一款新的大模型。

Baichuan 系列大模型融合了意圖理解、資訊檢索以及強化學習技術，結合有監督微調與人類意圖對齊，在知識問答、文本創作領域表現突出。這些大模型也因為其能力在業內備受青睞：Baichuan 系列開源模型在各大開源社區的累積下載量已突破六百萬次; Baichuan 2 更是在各維度全面領先 Llama 2，引領了中國開源生態發展。

8月31日，百川智慧率先通過《生成式人工智慧服務管理暫行辦法》，是首批8家公司中唯一一家今年創立的大模型公司。 9月25日，百川智慧開放Baichuan API介面，正式進軍To B領域，開啟商業化進程。

可以說，從技術研發到落地，百川的速度都足夠快。

剛剛發佈的Baichuan2-192K已經正式開啟內測，將以API調用的方式開放給核心合作夥伴。百川表示，其已經與財經類媒體及律師事務所等機構達成了合作，把Baichuan2-192K領先的長上下文能力應用到了傳媒、金融、法律等具體場景當中，不久后將以API調用和私有化部署的方式提供給企業使用者。

以 API 的形式全面開放之後，Baichuan2-192K 能夠與大量垂直場景深度結合，在人們的工作、生活、學習中發揮作用，助力行業使用者大幅提升效率。 Baichuan2-192K 能夠一次性處理和分析數百頁的材料，對於長篇文檔關鍵資訊提取與分析，長文檔摘要、長文檔審核、長篇文章或報告編寫、複雜程式設計輔助等真實場景都有巨大的助力作用。

此前，百川智能創始人、CEO 王小川曾透露，今年下半年，百川將推出千億級的大模型，明年預計會有 C 端的超級應用部署。

面對與 OpenAI 的差距，王小川坦言，在理想方面我們和 OpenAI 確實存在差距，OpenAI 的目標是探索智慧的天花板，他們甚至希望設計出將 1000 萬顆 GPU 連在一塊的技術。但是，在應用方面我們比美國走得更快，互聯網時代積累下來的應用和生態的經驗，能讓我們走的更快也更遠，所以百川做大模型的理念，叫做「理想上慢一步，落地上快三步」。

由此來看，Baichuan2-192K 正是這種理念的延展，全球最長的上下文窗口無疑也將加速百川智慧大模型技術落地的進程。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。