📢 Gate廣場 #创作者活动第一期# 火熱開啓,助力 PUMP 公募上線!
Solana 爆火項目 Pump.Fun($PUMP)現已登入 Gate 平台開啓公開發售!
參與 Gate廣場創作者活動,釋放內容力量,贏取獎勵!
📅 活動時間:7月11日 18:00 - 7月15日 22:00(UTC+8)
🎁 活動總獎池:$500 USDT 等值代幣獎勵
✅ 活動一:創作廣場貼文,贏取優質內容獎勵
📅 活動時間:2025年7月12日 22:00 - 7月15日 22:00(UTC+8)
📌 參與方式:在 Gate 廣場發布與 PUMP 項目相關的原創貼文
內容不少於 100 字
必須帶上話題標籤: #创作者活动第一期# #PumpFun#
🏆 獎勵設置:
一等獎(1名):$100
二等獎(2名):$50
三等獎(10名):$10
📋 評選維度:Gate平台相關性、內容質量、互動量(點讚+評論)等綜合指標;參與認購的截圖的截圖、經驗分享優先;
✅ 活動二:發推同步傳播,贏傳播力獎勵
📌 參與方式:在 X(推特)上發布與 PUMP 項目相關內容
內容不少於 100 字
使用標籤: #PumpFun # Gate
發布後填寫登記表登記回鏈 👉 https://www.gate.com/questionnaire/6874
🏆 獎勵設置:傳播影響力前 10 名用戶,瓜分 $2
Meta商用開源最牛大模型背後:巨頭保命式競爭,馬斯克、蘋果另闢蹊徑
文:騰訊科技郭曉靜
Meta7月19日在其官網宣布大語言模型Llama2正式發布,這是Meta大語言模型的最新版本,也是Meta首個開源商用的大語言模型,同時,微軟Azure也宣布了將與Llama2深度合作。
根據Meta的官方數據,Llama 2 相較於上一代其訓練數據提升了40%,包含了70億、130億和700億參數3個版本。 Llama 2 預訓練模型接受了2 萬億個tokens 的訓練,上下文長度是Llama 1 的兩倍,其微調模型已經接受了超過100 萬個人類註釋的訓練。
其性能据说比肩GPT-3.5,也被称为开源最优的大模型。消息一经发布,媒体与业界甚至给出了Llama2开源商用,即将改变大模型领域竞争格局的论断。这件事的影响究竟有多大?即将给产业带来什么样的影响?我们邀请两位业界人士聊了聊,一位是利欧集团数字科技有限公司产品研发中心副总经理周崧弢,他带领团队几乎评测了国内外主流的大部分大模型;另外一位是安信元宇宙研究院院长焦娟,多年一直深度观察国内外的科技产业生态。
以下為兩位的主要觀點:
① Llama2在模型參數、時間消耗、算力消耗等方面綜合考慮,與GPT-3.5對比是有底氣的。
② 生成式人工智能會給整個開源體繫帶來天翻地覆的變化。
③ 未來一段時間內,開源和閉源一定是互相搖擺,在這個領域會形成相當長一段時間的互相的博弈和競爭的格局。
④ Llama2的商用開源不一定會降低創業者使用大模型的成本,但是有可能引起大模型服務商開始打價格戰,這對於應用者和創業者來說是個好消息。
⑤ 海外巨頭在AI領域的競爭,已經不太像是發展第二曲線這麼簡單,競爭激烈而決絕,甚至有點保命的味道,背後的原因值得深思。
以下為對話內容精選:
**騰訊科技:從行業從業者或應用者角度,如何去評測一個大模型? **
周崧弢:国际上用的比较多的大模型评测框架是MMLU,它考虑了57个学科,从人文到社科到理工多个大类的综合知识能力,我们大多数情况也是基于这个框架来评测。但是我们的行业是广告业,基于广告业的属性,会增加一些其它的评测项目。
我們在集團的管理會上也說過,廣告業的重點不在於創造力,而在於控制。生成的結果一定要和廣告主、它的產品性能、外觀、logo等,有100%的還原。在這些還原達成之後,才能有發散和想像的空間。所以我們會針對於大模型的幻覺的控制,去做單獨的測試。但是絕大多數市面上的大語言模型及圖片生成的擴散模型,都很難百分百滿足廣告主的需求。通用大模型被發布之後,離完全商用還有很長一段路要走。
另外,我們考慮的最重要的就是成本問題:閉源模型有直接的報價體系,我們一般會衡量千Token的費用。對於開源模型來說,要測算的環節更多,從部署到精調到最後上線進行推理,算力消耗成有多少,維護開源模型投入的開發成本、數據成本有多少。
大模型質量反饋加上成本的估算,我們就能形成一個對模型的評價,簡單一句話就是,性價比越高,越受歡迎。
焦娟:從我們的角度來講,更看重的是如何去定義一些垂直方向的需求。因為全球範圍來講的話,不管是硬科技公司還是互聯網公司,真正有能力去定義需求的可能不會特別多,所以這個命題就可以轉換成——大模型公司自己能不能去定一些垂類的細分方向的需求,如果不能的話,能否聯合生態合作夥伴探索出比較好的垂類方向。當然,如果某些公司自己能夠在特定的方向中有自身的數據積累、經驗積累那會更好。這是我們的視角,從應用、定義垂類細分行業需求的角度。
**騰訊科技:Llama2在性能上真的可以超越或比肩GPT-3.5嗎? **
周崧弢: 针对Llama2的大模型还在评测中,大约需要2周的时间。但是从我们对于论文的学习,和目前已经进行的一些简单的评测中,可以讲一些大概的比较。
在預訓練的階段和GPT原來的模式有幾點不同,而且這些改變,之前其它模型公司都沒有做過。首先就是在預訓練階段,將傳統Transformer的多頭注意力機制,改變為分片群組的機制。有點類似或模仿我們原來在做大數據處理的時候,處理大規模並行數據的時候,所用的分片的技術。把大量的Attention需要的Query(請求)一組一組成組起來,每個組放到一個訓練單元里面去,這樣並行的效率和速度,理論上是會大幅提升。這部分我覺得是Meta在之前大規模並行處理經驗上,做出的一個新的改變。
基於這個改變,我覺得他們理論上在算力的需求和時間消耗上,比現有的大模型要提升很多倍。我預估Llama2按照他們的說法,是一月份就開始做,按照發佈時間來計算,比Llama1的預訓練時間應該要短,因為它的參數量比Llama1要大。這樣的話,多輪訓練的可能的這個週期是被壓縮的。這和論文中所提到的GQA密切相關。在這一點上,應該是超過了GPT4的,雖然我們不知道GPT-4具體是多少,但是根據外界猜測,GPT-4是遠高於GPT-3和GPT-3.5的。
對GQA,我們目前覺得,**GQA的處理方式對於有足夠算力卡,特別是有GPU並行算力資源的用戶來說,的確可以提高訓練速度。 不過測試和同行測評發現這個功能對算力池規模和硬件要求很高,因為眾所周知的原因,中國內地的開發者擁有大規模GPU並行算力資源的少,所以GQA可能會對我們來說是雞肋。 **
另外論文中也提到,Llama1的Embedding位置是固定的,不能修改。但是在Llama2中,這是可以動態調整的,這也是一個亮點。這個我們也很感興趣,想知道究竟能產生什麼樣的實際效果。
除了這些,Llama2很明顯吸收了Llama1及GPT系列的一些工程化經驗,就是在RHLF階段的成功經驗都復用了,應該會有很大的改善。
最後就是比參數,目前看到的就是它自己在官網上公開的那些參數。包括它的人工強化反饋的參數大概有100多萬,精調的部分達到十幾萬。這些參數的話,他敢放出來就意味著,Meta在模型參數、時間消耗、算力消耗等方面綜合考慮,是有底氣的。
焦娟:開個玩笑,我覺得這個規定還是“很敞亮的”——Meta打出了一張明牌,既然防不住別人去研究,那就乾脆放開。本質上是內部博弈的一種結果。 Meta的財務指標從2021年初就不是太好了,所以一直也在尋找第二增長曲線。 2021年10月Meta改名,All in 元宇宙,但是並沒有看到太實質的起色。它推出現在的大模型,是可以與自身的硬件融為一體的。相當於打出來一張明牌,既要硬件、又要軟件、又要操作系統,希望能在AI時代有自己的一席之地,但是開源的同時,也不希望能夠太有利於競爭對手。大家可以看到,7億月活的產品有YouTube 25億、蘋果18億、微軟14億、三星10億、領英9億、Snapchat 7.5億等。
**騰訊科技:商用開源和研究授權究竟有什麼本質不同?對開源生態可能會有什麼不同的影響? **
周崧弢: 大语言模型爆发之后,开源这件事情也变得很复杂,大家对于开源的定义和这个规则做了很多的调整。会涉及到你是算法本身开源、数据研究开源等等。对于现在新的语言模型或者是生成式模型的整体的开源的判断:第一是要看它的算法代码是不是开源,然后看它的训练数字集会不会开源出来。第三看基于开源算法,如果我做了精调或者是其它处理,你的授权政策会有什么样的约束。第四就是使用你的模型推理出来的结果,模型方是不是有控制权。我们一般从这几个方向来判断,这个模型的“开源”对我们是否真的有应用价值。
關於研究開源和商業開源,我記得最典型的例子就是Stability AI這家公司,我記得LLama2開源前的兩週,StabilityAI的XL那個版本也發布了,就是只有研究授權開源,明確規定,可以用模型和數據去做研究,比如你是研究員或者是屬於某所高校,但是如果用這個模型去做商業化,是完全禁止的,需要單獨申請授權才有可能使用。
大模型的開源授權,我覺得和原來開源的那套邏輯已經有很大變化,環節和流程設置得非常細,**有可能生成式人工智能會給整個開源體繫帶來天翻地覆的變化。 **
**騰訊科技:Llama2的商用開源,會對大模型的競爭格局造成什麼樣的影響呢? **
焦娟:海外巨頭的競爭中,有一個風格,就是要讓自己的產品和服務有辨識度,所以Meta叫元宇宙,蘋果一定要叫新宇宙,別人閉源,我就要佔領開源。過去的開源,可能是有自由情懷的極客去做的事情,思路也比較簡單。而現在如此大的商業體去主導這件事,更多還是商業利益上的考慮。
周崧弢:我认为整个生成式人工智能这个体系竞争格局的三要素——算力、算法、模型,还是没变。其实模型只占三分之一的竞争因素,模型改变的话,最多只能改变三分之一或者比三分之一多一点,我估计乐观一点,可能到45%左右。
國內和國外的格局還是不太一樣,國外算法層面的格局比較明顯。國外的數據基本是被清洗過和被矢量化過的,訓練數據集已經很充分了,在數據方面的競爭優勢不明顯,除非你具有某個行業的專有數據。算力也不是國外巨頭能拉開差距的地方,巨頭其實都有實力去拼算力。
首先,國內擁有核心底層算法的公司其實很有限;第二,國內的數據,被清洗程度、矢量化程度其實是不高的。早期如果投入大量的力量做數據的結構化處理的公司,其實它可以彌補在算力、在算法上面的不足。第三,國內其實是短期之內是缺算力的。所以LLama2開源對於國內的格局的影響,目前來講並不好判斷。
再說回國外,整個生成式人工智能裡面,谷歌才是真正的先驅,然後他差點就被搞成先烈了。就是因為整個生成式人工智能的源出論文就是《Attention is all you need》,然後包括最早的開源模型T5其實都是谷歌的。曾經谷歌也是笑傲群雄。不料後來殺進了一匹黑馬OpenAI,最早GPT-1、GPT-2都是開源的,GPT-3開源之後又閉源了。當OpenAI進場的時候,開源才是整個生成式人工智能的主流。
OpenAI這個時候找到了微軟,也擁有了很貴的算力,成了谷歌強有力的競爭對手。 2022年開始,生成式人工智能這個市場,就開始進入到閉源的體系中。 OpenAI從掌握算法,加上微軟的算力、數據,閉源打造產品,產品又成了現象級的爆款,微軟和OpenAI都從中獲益。我認為Meta開始決定進入到這個領域的時候,估計也是從頭開始仔細研究了發展歷史,既然看到了OpenAI從開源領域撤回到閉源,那我還是用開源的方式,再重新打敗你的魔法。
在這之前,Meta也看到了幾家小公司開源之後的生命力,特別是Stability AI,這家公司並沒有深厚的根基,要錢沒錢、要技術沒技術,突然之間殺出來的,雖然這家公司現在還是有很多的爭議。
我記得Llama1是3月份就是對外宣布開源,當時還說是“不小心開源的”,然後Stability AI也說我是不小心把代碼洩露了,所以也開源了。整體路徑是,谷歌奠定了開源的基調,然後OpenAI和微軟又把它折回到閉源的體系裡面,然後Meta和Stability AI又把它又放到了開源里面,我覺得未來一段時間內,**開源和閉源一定是互相搖擺,在這個領域會形成相當長一段時間的互相的博弈和競爭的格局。 **
**騰訊科技:Meta開源Llama2是迫不得已還是主動戰略選擇? **
焦娟:肯定是主動戰略選擇,因為本身Meta、微軟、谷歌三家在AR領域主要的三個競爭對手,混戰了大概有十幾年。 Meta很快地推出了LLama2,至少比谷歌要快。開源和閉源的選擇,都不會脫離掉本質的一些利益訴求,所以說徹底改變競爭格局,我覺得可能意義沒那麼大。第二就是國內的情況不太一樣,所以國內的競爭格局要再觀察一下。
不管是開源還是閉源,本質上就是全球這幾家公司彼此之間在新的大機遇面前的戰略選擇。在發力佈局眼前的時候,還希望盡可能去攻占比爾呢的腹地。海外巨頭的競爭,都已經不太像是發展第二或第N增長曲線這麼簡單。競爭激烈而決絕,甚至有點保命的味道。
我覺得這點才是最值得大家去探討的:他們這些行為的背後到底是什麼樣的大環境或者大背景,讓他們一定以這樣決絕的方式、軍備競賽一樣的方式去做這件事情。
最近也有一些值得關注的事情發生,馬斯克的X-AI這家公司的成立,它要重新理解現實物理世界,所有巨頭都在盯著AGI的真正實現。這個版圖越來越大。然而,新的商業世界和新的商業版圖,總需要有一些新的爆款應用和爆款產品來做牽引,這在2023年實現可能還有點難。我們可以把希望放到2024年,也許蘋果的MR眼鏡會是一個新的契機。
**騰訊科技:我們還看到另外兩家海外巨頭,馬斯克和蘋果,並沒有高調宣布自己在大模型領域的進展,這點怎麼看? **
焦娟:他們只是暫時按兵不動,而且可以肯定的是,他們推出的東西,肯定不會再叫大模型。我覺得我們可以再去關注下一層,具身智能。在這個方向,馬斯克是最不用擔心的。而蘋果最大的優勢在於軟硬結合。
周崧弢:我们自己也大概测了一下,**M2的芯片在浮点算力上面是可以和英伟达的卡去抗衡。**苹果有可能走的是软硬件一体化,它其实是超越大模型目前的竞争格局。
具身智能,我覺得有可能是未來整個通用人工智能發展的一個新的里程碑,因為一旦你擁有了強大的推理能力,一定會擴展到物理世界,而控制物理世界的核心點,就是要嵌入身體或者是嵌入到物理世界的傳感器中,那這就是變成具身智能的體系。就如剛剛周老師所說,這個是反而又變成了馬斯克的一系列公司。
當我們把軟件和硬件重新結合在一起去看整個通用人工智能的時候,你就會發現,競爭格局又發生改變了,已經不是Google、Meta和open AI這幾家在競爭,而是有可能會有更多的硬件公司加入進來。
**騰訊科技:Llama2的商用開源,是不是有可能把大模型創業的成本打下來? **
周崧弢: 这块我现在不确定,因为虽然是省了租用API的开销,但是你会发现6月15号OpenAI大降价之后几乎是一折促销,所以闭源模型也在打价格战。反而是说,如果用开源模型的话,需要多少硬件成本、算力成本、数据成本?隐含成本不好估算。单纯从LLama2的开源来说,我觉得对于创业来说的话,不见得是一个节约成本的路径。
針對推理成本,我們目前測的和結合國外測試者的評價文章,發現一些特定類型的推理任務,比如分類或者langchain的工作流,Llama2的推理效率和時間消耗是減少了,但是其他類型的任務, **如果和GPT-3.5-turbo-0615的快照版本相比,不一定會便宜(僅僅是推理算力消耗方面);**還有就是現在的原廠版本對中文理解非常流暢和準確,但是中文表達幾乎是0,**所以中國的創業者想要完全用上Llama2必須花大的代價解決中文表達的精調或者引導,或者等開源社區提供中文的表達版提供……這個成本不低。 **
另外,**Llama2的商用開源,確實有可能引起大模型服務商開始打價格戰,這對於應用者和創業者來說是個好消息。 **
焦娟:坦率講,在國內我還是比較期待一些行業模型或垂類模型。我自己挑了大概幾家看好的公司,特徵是一直在這個行業內做的很紮實,有持續的數據積累和平台建設的經驗。另外就是,我覺得這輪並不是一個船票貴不貴的一個問題,而是你不管貴不貴,大家都面臨著轉型。