GPT-4是8x2200億參數的混合模型？這個小道消息今天傳瘋了

Question

來源：機器之心> George Hotz：除了蘋果之外，大部分公司保密的原因都不是在隱藏什麼黑科技，而是在隱藏一些「不那麼酷」的東西。「GPT-4 的參數量高達100 萬億。」相信很多人還記得這個年初刷屏的「重磅」消息和一張被病毒式傳播的圖表。![](https://img.gateio.im/social/moments-bab2147faf-c6ea22b629-dd1a6f-62a40f) 不过很快，OpenAI 的 CEO Sam Altman 就出来辟谣，证实这是一条假消息，并表示，「关于 GPT-4 的谣言都很荒谬。我甚至不知道这从何而起。」實際上，許多人相信並傳播這樣的謠言是因為近年來AI 社區不斷在增加AI 模型的參數規模。谷歌在2021 年1 月發布的Switch Transformer 就把AI 大模型參數量拉高到了1.6 萬億。在此之後，很多機構也陸續推出了自己的萬億參數大模型。據此，人們有充分的理由相信，GPT-4 將是一個萬億參數的巨量模型，100 萬億參數也不是不可能。雖然Sam Altman 的闢謠幫我們去掉了一個錯誤答案，但他背後的OpenAI 團隊一直對GPT-4 的真實參數量守口如瓶，就連GPT-4 的官方技術報告也沒透露任何信息。直到最近，這個謎團疑似被「天才黑客」喬治・霍茲（George Hotz）捅破了。喬治・霍茲因17 歲破解iPhone、21 歲攻陷索尼PS3 而聞名，目前是一家研發自動駕駛輔助系統的公司（comma.ai）的老闆。最近，他接受了一家名為Latent Space 的AI 技術播客的採訪。在採訪中，他談到了GPT-4，稱GPT-4 其實是一個混合模型。具體來說，它採用了由8 個專家模型組成的集成系統，每個專家模型都有2200 億個參數（比GPT-3 的1750 億參數量略多一些），並且這些模型經過了針對不同數據和任務分佈的訓練。![](https://img.gateio.im/social/moments-bab2147faf-7913ab5955-dd1a6f-62a40f) 在這段播客播出之後，PyTorch 創建者Soumith Chintala 表示自己似乎聽過同樣的「傳聞」，很多人可能也聽過，但只有George Hotz 在公開場合將其說了出來。![](https://img.gateio.im/social/moments-bab2147faf-e857d562e9-dd1a6f-62a40f) 「混合模型是你在無計可施的時候才會考慮的選項，」George Hotz 調侃說，「混合模型的出現是因為無法讓模型的參數規模超過2200 億。他們希望模型變得更好，但如果僅僅是訓練時間更長，效果已經遞減。因此，他們採用了八個專家模型來提高性能。」至於這個混合模型是以什麼形式工作的，George Hotz 並沒有詳細說明。![](https://img.gateio.im/social/moments-bab2147faf-20616686e1-dd1a6f-62a40f) 為什麼OpenAI 對此諱莫如深呢？ George Hotz 認為，除了蘋果之外，大部分公司保密的原因都不是在隱藏什麼黑科技，而是在隱藏一些「不那麼酷」的東西，不想讓別人知道「只要花8 倍的錢你也能得到這個模型」。對於未來的趨勢，他認為，人們會訓練規模較小的模型，並通過長時間的微調和發現各種技巧來提升性能。他提到，與過去相比，訓練效果已經明顯提升，儘管計算資源沒有變化，這表明訓練方法的改進起到了很大作用。目前，George Hotz 關於GPT-4 的「爆料」已經在推特上得到了廣泛傳播。![](https://img.gateio.im/social/moments-bab2147faf-195a7471f0-dd1a6f-62a40f) 有人從中得到了靈感，聲稱要訓練一個LLaMA 集合來對抗GPT-4。![](https://img.gateio.im/social/moments-bab2147faf-caf5535cca-dd1a6f-62a40f) 還有人說，如果真的像George Hotz 說的那樣，GPT-4 是一個由8 個2200 億參數的專家模型組合的混合模型，那很難想像背後的推理成本有多高。![](https://img.gateio.im/social/moments-bab2147faf-f62695f724-dd1a6f-62a40f) 需要指出的是，由於George Hotz 並未提及消息來源，我們目前無法判斷以上論斷是否正確。