Meta商用開源最牛大模型背後：巨頭保命式競爭，馬斯克、蘋果另闢蹊徑

2023-08-04 08:37:59

文：騰訊科技郭曉靜

圖片來源：由無界AI生成

Meta7月19日在其官網宣布大語言模型Llama2正式發布，這是Meta大語言模型的最新版本，也是Meta首個開源商用的大語言模型，同時，微軟Azure也宣布了將與Llama2深度合作。

根據Meta的官方數據，Llama 2 相較於上一代其訓練數據提升了40%，包含了70億、130億和700億參數3個版本。 Llama 2 預訓練模型接受了2 萬億個tokens 的訓練，上下文長度是Llama 1 的兩倍，其微調模型已經接受了超過100 萬個人類註釋的訓練。

其性能据说比肩GPT-3.5，也被称为开源最优的大模型。消息一经发布，媒体与业界甚至给出了Llama2开源商用，即将改变大模型领域竞争格局的论断。这件事的影响究竟有多大？即将给产业带来什么样的影响？我们邀请两位业界人士聊了聊，一位是利欧集团数字科技有限公司产品研发中心副总经理周崧弢，他带领团队几乎评测了国内外主流的大部分大模型；另外一位是安信元宇宙研究院院长焦娟，多年一直深度观察国内外的科技产业生态。

以下為兩位的主要觀點：

① Llama2在模型參數、時間消耗、算力消耗等方面綜合考慮，與GPT-3.5對比是有底氣的。

② 生成式人工智能會給整個開源體繫帶來天翻地覆的變化。

③ 未來一段時間內，開源和閉源一定是互相搖擺，在這個領域會形成相當長一段時間的互相的博弈和競爭的格局。

④ Llama2的商用開源不一定會降低創業者使用大模型的成本，但是有可能引起大模型服務商開始打價格戰，這對於應用者和創業者來說是個好消息。

⑤ 海外巨頭在AI領域的競爭，已經不太像是發展第二曲線這麼簡單，競爭激烈而決絕，甚至有點保命的味道，背後的原因值得深思。

以下為對話內容精選：

**騰訊科技：從行業從業者或應用者角度，如何去評測一個大模型？ **

周崧弢：国际上用的比较多的大模型评测框架是MMLU，它考虑了57个学科，从人文到社科到理工多个大类的综合知识能力，我们大多数情况也是基于这个框架来评测。但是我们的行业是广告业，基于广告业的属性，会增加一些其它的评测项目。

我們在集團的管理會上也說過，廣告業的重點不在於創造力，而在於控制。生成的結果一定要和廣告主、它的產品性能、外觀、logo等，有100%的還原。在這些還原達成之後，才能有發散和想像的空間。所以我們會針對於大模型的幻覺的控制，去做單獨的測試。但是絕大多數市面上的大語言模型及圖片生成的擴散模型，都很難百分百滿足廣告主的需求。通用大模型被發布之後，離完全商用還有很長一段路要走。

另外，我們考慮的最重要的就是成本問題：閉源模型有直接的報價體系，我們一般會衡量千Token的費用。對於開源模型來說，要測算的環節更多，從部署到精調到最後上線進行推理，算力消耗成有多少，維護開源模型投入的開發成本、數據成本有多少。

大模型質量反饋加上成本的估算，我們就能形成一個對模型的評價，簡單一句話就是，性價比越高，越受歡迎。

焦娟：從我們的角度來講，更看重的是如何去定義一些垂直方向的需求。因為全球範圍來講的話，不管是硬科技公司還是互聯網公司，真正有能力去定義需求的可能不會特別多，所以這個命題就可以轉換成——大模型公司自己能不能去定一些垂類的細分方向的需求，如果不能的話，能否聯合生態合作夥伴探索出比較好的垂類方向。當然，如果某些公司自己能夠在特定的方向中有自身的數據積累、經驗積累那會更好。這是我們的視角，從應用、定義垂類細分行業需求的角度。

**騰訊科技：Llama2在性能上真的可以超越或比肩GPT-3.5嗎？ **

周崧弢: 针对Llama2的大模型还在评测中，大约需要2周的时间。但是从我们对于论文的学习，和目前已经进行的一些简单的评测中，可以讲一些大概的比较。

在預訓練的階段和GPT原來的模式有幾點不同，而且這些改變，之前其它模型公司都沒有做過。首先就是在預訓練階段，將傳統Transformer的多頭注意力機制，改變為分片群組的機制。有點類似或模仿我們原來在做大數據處理的時候，處理大規模並行數據的時候，所用的分片的技術。把大量的Attention需要的Query（請求）一組一組成組起來，每個組放到一個訓練單元里面去，這樣並行的效率和速度，理論上是會大幅提升。這部分我覺得是Meta在之前大規模並行處理經驗上，做出的一個新的改變。

基於這個改變，我覺得他們理論上在算力的需求和時間消耗上，比現有的大模型要提升很多倍。我預估Llama2按照他們的說法，是一月份就開始做，按照發佈時間來計算，比Llama1的預訓練時間應該要短，因為它的參數量比Llama1要大。這樣的話，多輪訓練的可能的這個週期是被壓縮的。這和論文中所提到的GQA密切相關。在這一點上，應該是超過了GPT4的，雖然我們不知道GPT-4具體是多少，但是根據外界猜測，GPT-4是遠高於GPT-3和GPT-3.5的。

對GQA，我們目前覺得，**GQA的處理方式對於有足夠算力卡，特別是有GPU並行算力資源的用戶來說，的確可以提高訓練速度。 不過測試和同行測評發現這個功能對算力池規模和硬件要求很高，因為眾所周知的原因，中國內地的開發者擁有大規模GPU並行算力資源的少，所以GQA可能會對我們來說是雞肋。 **

另外第二點，在調整階段，我們知道GPT體系在歸一化的時候，都做了層化的數據處理，使得數據訓練的結果很精確，但是也非常消耗算力。但是Llama2用了不一樣的方案，**就是在分層處理的基礎上又加了權重係數，這樣對於效率的提升和準確度維持是很有幫助的，對算力的節約也是有幫助的。這兩點是在預訓練階段所做的優化。 **

另外論文中也提到，Llama1的Embedding位置是固定的，不能修改。但是在Llama2中，這是可以動態調整的，這也是一個亮點。這個我們也很感興趣，想知道究竟能產生什麼樣的實際效果。

除了這些，Llama2很明顯吸收了Llama1及GPT系列的一些工程化經驗，就是在RHLF階段的成功經驗都復用了，應該會有很大的改善。

最後就是比參數，目前看到的就是它自己在官網上公開的那些參數。包括它的人工強化反饋的參數大概有100多萬，精調的部分達到十幾萬。這些參數的話，他敢放出來就意味著，Meta在模型參數、時間消耗、算力消耗等方面綜合考慮，是有底氣的。

**騰訊科技：為什麼商用開源的門檻設定到了月活躍用戶數不超過七個億？ **

焦娟：開個玩笑，我覺得這個規定還是“很敞亮的”——Meta打出了一張明牌，既然防不住別人去研究，那就乾脆放開。本質上是內部博弈的一種結果。 Meta的財務指標從2021年初就不是太好了，所以一直也在尋找第二增長曲線。 2021年10月Meta改名，All in 元宇宙，但是並沒有看到太實質的起色。它推出現在的大模型，是可以與自身的硬件融為一體的。相當於打出來一張明牌，既要硬件、又要軟件、又要操作系統，希望能在AI時代有自己的一席之地，但是開源的同時，也不希望能夠太有利於競爭對手。大家可以看到，7億月活的產品有YouTube 25億、蘋果18億、微軟14億、三星10億、領英9億、Snapchat 7.5億等。

**騰訊科技：商用開源和研究授權究竟有什麼本質不同？對開源生態可能會有什麼不同的影響？ **

周崧弢: 大语言模型爆发之后，开源这件事情也变得很复杂，大家对于开源的定义和这个规则做了很多的调整。会涉及到你是算法本身开源、数据研究开源等等。对于现在新的语言模型或者是生成式模型的整体的开源的判断：第一是要看它的算法代码是不是开源，然后看它的训练数字集会不会开源出来。第三看基于开源算法，如果我做了精调或者是其它处理，你的授权政策会有什么样的约束。第四就是使用你的模型推理出来的结果，模型方是不是有控制权。我们一般从这几个方向来判断，这个模型的“开源”对我们是否真的有应用价值。

關於研究開源和商業開源，我記得最典型的例子就是Stability AI這家公司，我記得LLama2開源前的兩週，StabilityAI的XL那個版本也發布了，就是只有研究授權開源，明確規定，可以用模型和數據去做研究，比如你是研究員或者是屬於某所高校，但是如果用這個模型去做商業化，是完全禁止的，需要單獨申請授權才有可能使用。

大模型的開源授權，我覺得和原來開源的那套邏輯已經有很大變化，環節和流程設置得非常細，**有可能生成式人工智能會給整個開源體繫帶來天翻地覆的變化。 **

**騰訊科技：Llama2的商用開源，會對大模型的競爭格局造成什麼樣的影響呢？ **

焦娟：海外巨頭的競爭中，有一個風格，就是要讓自己的產品和服務有辨識度，所以Meta叫元宇宙，蘋果一定要叫新宇宙，別人閉源，我就要佔領開源。過去的開源，可能是有自由情懷的極客去做的事情，思路也比較簡單。而現在如此大的商業體去主導這件事，更多還是商業利益上的考慮。

周崧弢：我认为整个生成式人工智能这个体系竞争格局的三要素——算力、算法、模型，还是没变。其实模型只占三分之一的竞争因素，模型改变的话，最多只能改变三分之一或者比三分之一多一点，我估计乐观一点，可能到45%左右。

國內和國外的格局還是不太一樣，國外算法層面的格局比較明顯。國外的數據基本是被清洗過和被矢量化過的，訓練數據集已經很充分了，在數據方面的競爭優勢不明顯，除非你具有某個行業的專有數據。算力也不是國外巨頭能拉開差距的地方，巨頭其實都有實力去拼算力。

首先，國內擁有核心底層算法的公司其實很有限；第二，國內的數據，被清洗程度、矢量化程度其實是不高的。早期如果投入大量的力量做數據的結構化處理的公司，其實它可以彌補在算力、在算法上面的不足。第三，國內其實是短期之內是缺算力的。所以LLama2開源對於國內的格局的影響，目前來講並不好判斷。

再說回國外，整個生成式人工智能裡面，谷歌才是真正的先驅，然後他差點就被搞成先烈了。就是因為整個生成式人工智能的源出論文就是《Attention is all you need》，然後包括最早的開源模型T5其實都是谷歌的。曾經谷歌也是笑傲群雄。不料後來殺進了一匹黑馬OpenAI，最早GPT-1、GPT-2都是開源的，GPT-3開源之後又閉源了。當OpenAI進場的時候，開源才是整個生成式人工智能的主流。

OpenAI這個時候找到了微軟，也擁有了很貴的算力，成了谷歌強有力的競爭對手。 2022年開始，生成式人工智能這個市場，就開始進入到閉源的體系中。 OpenAI從掌握算法，加上微軟的算力、數據，閉源打造產品，產品又成了現象級的爆款，微軟和OpenAI都從中獲益。我認為Meta開始決定進入到這個領域的時候，估計也是從頭開始仔細研究了發展歷史，既然看到了OpenAI從開源領域撤回到閉源，那我還是用開源的方式，再重新打敗你的魔法。

在這之前，Meta也看到了幾家小公司開源之後的生命力，特別是Stability AI，這家公司並沒有深厚的根基，要錢沒錢、要技術沒技術，突然之間殺出來的，雖然這家公司現在還是有很多的爭議。

我記得Llama1是3月份就是對外宣布開源，當時還說是“不小心開源的”，然後Stability AI也說我是不小心把代碼洩露了，所以也開源了。整體路徑是，谷歌奠定了開源的基調，然後OpenAI和微軟又把它折回到閉源的體系裡面，然後Meta和Stability AI又把它又放到了開源里面，我覺得未來一段時間內，**開源和閉源一定是互相搖擺，在這個領域會形成相當長一段時間的互相的博弈和競爭的格局。 **

**騰訊科技：Meta開源Llama2是迫不得已還是主動戰略選擇？ **

焦娟：肯定是主動戰略選擇，因為本身Meta、微軟、谷歌三家在AR領域主要的三個競爭對手，混戰了大概有十幾年。 Meta很快地推出了LLama2，至少比谷歌要快。開源和閉源的選擇，都不會脫離掉本質的一些利益訴求，所以說徹底改變競爭格局，我覺得可能意義沒那麼大。第二就是國內的情況不太一樣，所以國內的競爭格局要再觀察一下。

不管是開源還是閉源，本質上就是全球這幾家公司彼此之間在新的大機遇面前的戰略選擇。在發力佈局眼前的時候，還希望盡可能去攻占比爾呢的腹地。海外巨頭的競爭，都已經不太像是發展第二或第N增長曲線這麼簡單。競爭激烈而決絕，甚至有點保命的味道。

我覺得這點才是最值得大家去探討的：他們這些行為的背後到底是什麼樣的大環境或者大背景，讓他們一定以這樣決絕的方式、軍備競賽一樣的方式去做這件事情。

最近也有一些值得關注的事情發生，馬斯克的X-AI這家公司的成立，它要重新理解現實物理世界，所有巨頭都在盯著AGI的真正實現。這個版圖越來越大。然而，新的商業世界和新的商業版圖，總需要有一些新的爆款應用和爆款產品來做牽引，這在2023年實現可能還有點難。我們可以把希望放到2024年，也許蘋果的MR眼鏡會是一個新的契機。

**騰訊科技：我們還看到另外兩家海外巨頭，馬斯克和蘋果，並沒有高調宣布自己在大模型領域的進展，這點怎麼看？ **

焦娟：他們只是暫時按兵不動，而且可以肯定的是，他們推出的東西，肯定不會再叫大模型。我覺得我們可以再去關注下一層，具身智能。在這個方向，馬斯克是最不用擔心的。而蘋果最大的優勢在於軟硬結合。

周崧弢：我们自己也大概测了一下，**M2的芯片在浮点算力上面是可以和英伟达的卡去抗衡。**苹果有可能走的是软硬件一体化，它其实是超越大模型目前的竞争格局。

具身智能，我覺得有可能是未來整個通用人工智能發展的一個新的里程碑，因為一旦你擁有了強大的推理能力，一定會擴展到物理世界，而控制物理世界的核心點，就是要嵌入身體或者是嵌入到物理世界的傳感器中，那這就是變成具身智能的體系。就如剛剛周老師所說，這個是反而又變成了馬斯克的一系列公司。

當我們把軟件和硬件重新結合在一起去看整個通用人工智能的時候，你就會發現，競爭格局又發生改變了，已經不是Google、Meta和open AI這幾家在競爭，而是有可能會有更多的硬件公司加入進來。

**騰訊科技：Llama2的商用開源，是不是有可能把大模型創業的成本打下來？ **

周崧弢: 这块我现在不确定，因为虽然是省了租用API的开销，但是你会发现6月15号OpenAI大降价之后几乎是一折促销，所以闭源模型也在打价格战。反而是说，如果用开源模型的话，需要多少硬件成本、算力成本、数据成本？隐含成本不好估算。单纯从LLama2的开源来说，我觉得对于创业来说的话，不见得是一个节约成本的路径。

針對推理成本，我們目前測的和結合國外測試者的評價文章，發現一些特定類型的推理任務，比如分類或者langchain的工作流，Llama2的推理效率和時間消耗是減少了，但是其他類型的任務， **如果和GPT-3.5-turbo-0615的快照版本相比，不一定會便宜（僅僅是推理算力消耗方面）；**還有就是現在的原廠版本對中文理解非常流暢和準確，但是中文表達幾乎是0，**所以中國的創業者想要完全用上Llama2必須花大的代價解決中文表達的精調或者引導，或者等開源社區提供中文的表達版提供……這個成本不低。 **

另外，**Llama2的商用開源，確實有可能引起大模型服務商開始打價格戰，這對於應用者和創業者來說是個好消息。 **

焦娟：坦率講，在國內我還是比較期待一些行業模型或垂類模型。我自己挑了大概幾家看好的公司，特徵是一直在這個行業內做的很紮實，有持續的數據積累和平台建設的經驗。另外就是，我覺得這輪並不是一個船票貴不貴的一個問題，而是你不管貴不貴，大家都面臨著轉型。

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。