王小川公佈最新大模型，號稱全球最長上下文，是GPT-4的14倍

巴比特_

2023-10-30 04:39:02

原文來源：鈦媒體

作者：林志佳

圖片來源：由無界 AI生成

國內大模型技術競爭加速，繼訊飛星火、智譜推出最新產品之後，百川也迎來了新的大模型成果。

**鈦媒體獲悉，**10月30日上午，王小川創立的 AI 大模型公司“百川智慧”宣佈，推出Baichuan2-192K大模型，其上下文窗口長度高達192K，能夠處理約35萬個漢字。

**百川智慧稱，Baichuan2-192K是目前全球最長的上下文視窗，也是目前支持長上下文視窗最優秀大模型Claude2（支援100K上下文窗口，實測約8萬字）的4.4倍，更是GPT-4（支援32K上下文窗口，實測約 2.5萬字）的14倍（1400%）。 **這不僅在上下文窗口長度上超越Claude2，在長視窗文本生成品質、長上下文理解以及長文本問答、摘要等方面的表現也全面領先Claude2。

據悉，Baichuan2-192K將以API調用和私有化部署的方式提供給企業使用者。目前百川智慧已經啟動該大模型的API內測，並開放給法律、媒體、金融等行業的核心合作夥伴。

**據悉，**百川智慧成立於2023年4月10日，由搜狗公司創始人、前CEO王小川創立。其核心團隊由來自搜狗、Google、騰訊、百度、華為、微軟、位元組等知名科技公司的AI頂尖人才組成。目前，百川智慧的團隊規模170餘人，其中碩士及碩士以上學歷員工佔比近70%，研發人員佔比超80%。

過去200多天，百川智慧平均每28天發佈一款大模型，已連續Baichuan-7B/13B，Baichuan2-7B/13B四款開源可免費商用大模型及Baichuan-53B、Baichuan2-53B兩款閉源大模型，在寫作、文本創作等領域能力已達到行業較好水準。目前，Baichuan-7B/13B兩款開源大模型在多個權威評測榜單均名列前茅，累積下載量超過600萬次。

對於建立 AI 大模型公司，王小川曾表示，其團隊已有的技術工具可以用來建造大模型，公司的競爭對手就是大公司的開源方案。王小川還認為，整個團隊不用太大，百人足夠。

8月31日，百川智慧率先通過國家《生成式人工智慧服務管理暫行辦法》備案，是首批八家公司中唯一一家今年成立的大模型初創公司，並於9月25日開放Baichuan2-53B API介面，正式進軍To B企業端領域，開啟商業化進程。

10月17日，百川智慧宣佈已完成A1輪3億美元的戰略融資，阿裡、騰訊、小米等科技巨頭及多家頂級投資機構均參投了本輪。加上天使輪的5000萬美元，百川智慧累計融資額已達3.5億美元（約合人民幣25.43億元）。

百川智慧未透露當前具體估值，僅表示本輪融資后，公司躋身於科技獨角獸行列。根據一般定義，獨角獸估值超過10億美元（約合人民幣72.66億元）。

**此次發佈的Baichuan2-192K，百川智慧表示在Dureader、NarrativeQA、LSHT、TriviaQA等10項中英文長文本問答、摘要的評測集上表現優異，有7項取得SOTA，顯著超過其他長視窗模型，全面領先Claude2。 **

百川方面指出，擴大上下文視窗能有效提升大模型性能是人工智慧行業的共識，但是超長上下文窗口意味著更高的算力需求和更大的顯存壓力。目前，業內有很多提升上下文窗口長度的方式，包括滑動視窗、降採樣、小模型等。這些方式雖然能提升上下文窗口長度，但對模型性能均有不同程度的損害，換言之都是通過犧牲模型其他方面的性能來換取更長的上下文視窗。而本次百川發佈的Baichuan2-192K通過演算法和工程的優化，實現了窗口長度和模型性能之間的平衡，做到了窗口長度和模型性能的同步提升。

演算法方面，百川智慧提出了一種針對RoPE和ALiBi動態位置編碼的外推方案，在保證解析度的同時增強了模型對長序列依賴的建模能力，而且當窗口長度擴大，Baichuan2-192K的序列建模能力持續增強; 工程方面，在自主開發的分散式訓練框架基礎上，百川智慧整合優化多個技術，獨創了一套全面的4D並行分散式方案，能夠根據模型具體的負載情況，自動尋找最適合的分散式策略，極大降低了長窗口訓練和推理過程中的顯存佔用。

Baichuan2-192K便能夠與更多的垂直場景深度結合，真正在人們的工作、生活、學習中發揮作用，助力行業使用者更好的降本增效。比如它可以幫助基金經理總結和解釋財務報表，分析公司的風險和機遇; 説明律師識別多個法律檔中的風險，審核合同和法律檔; 幫助技術人員閱讀數百頁的開發文檔，並回答技術問題; 還能説明科員人員快速流覽大量論文，總結最新的前沿進展等。

目前，Baichuan2-192K以API調用的方式開放給百川智慧的核心合作夥伴，已經與財經類媒體及律師事務所等機構達成了合作，稱不久后將全面開放。

王小川團隊表示，百川智慧Baichuan2-192K在演算法和工程上針對長上下文視窗進行創新，驗證了長上下文視窗的可行性，為大模型性能提升開拓出了新的科研路徑。同時，其更長的上下文還將為行業探索Agent、多模態應用等前沿領域打下良好技術基礎。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

1人點讚了這條動態

讚賞
1
留言
分享

留言

0/400

暫無留言

話題
1/3
1曬出我的Alpha積分
18717 熱度
2SOL期貨交易量創新高
1457 熱度
3以太坊ETF連續12周淨流入
1200 熱度
4加密市場反彈
169751 熱度
5成長值抽獎12期
26296 熱度