微軟論文一張截圖，曝出GPT-3.5僅有200億參數？ AI圈巨震，網友大呼太離譜！

Question

原文來源：新智元![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-305182ec3b-dd1a6f-69ad2a) 圖片來源：由無界 AI生成GPT-3.5隻有200億參數？今天，大模型圈都被微軟論文中的一紙截圖刷爆了，究竟是怎麼回事？就在前幾天，微軟發表了篇論文並掛在了arXiv上，該論文提出了一個參數量只有75M的小規模擴散模型——CodeFusion。性能方面，7500萬參數的CodeFusion在top-1準確率指標上，可以與最先進的350M-175B模型相媲美。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-acfed1ccb0-dd1a6f-69ad2a) 論文位址：這篇論文的工作很有意義，但引起大家格外注意的卻是——作者在對比ChatGPT（gpt-3.5-turbo）時，標稱的參數量竟然只有20B！![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e997f2dfa9-dd1a6f-69ad2a) 在此之前，大家針對GPT-3.5參數量的猜測都是1750億，這相當於是縮減了差不多十倍！![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f9a57eb606-dd1a6f-69ad2a) 根據這篇論文的爆料，網友還去維琪百科上更新了GPT-3.5的介紹，直接把參數大小改成了20B。消息一出，直接登上知乎熱搜，網友們都炸了。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-1151c7af0f-dd1a6f-69ad2a) 有人表示，趕緊回頭再把我之前模型蒸餾的博文拿出來複習複習 。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-0c8dc90491-dd1a6f-69ad2a) ## **是「烏龍」還是「事實」？ **網友的爆料貼一出，瞬間就引發了激烈的討論。目前，已經有超過68萬人前來圍觀。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-03822c6176-dd1a6f-69ad2a) 這位老哥表示，論文的幾位作者也都在用推特，估計過不了多久就會親自下場解釋。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-ae81eab0f0-dd1a6f-69ad2a) 而對於這個神秘的「20B」，網友們也是眾說紛紜。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-a431a67d4a-dd1a6f-69ad2a) 有人猜測，這很可能是作者手誤打錯了。 比如原本是120B，或者200B。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-68d7626a77-dd1a6f-69ad2a) 結合現實中的各項評測來看，確實有很多小模型能夠取得和ChatGPT差不多的成績，比如Mistral-7B。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-41a9ceb875-dd1a6f-69ad2a) 也許，這也是側面證實了GPT-3.5體量真的不大。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-507e9e6fc9-dd1a6f-69ad2a) 很多網友也認為20B的參數可能是準確的，紛紛發出感歎：「這也太難以想像了！ Falcon-180B和Llama2-70B，竟然都無法擊敗這款20B的模型。」![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-031d17ddca-dd1a6f-69ad2a) 也有網友認為，gpt-3.5-turbo是精煉版的gpt-3.5。而這次參數的「洩露」，正好從側面印證了那些關於gpt-3.5-turbo表現不如舊版gpt-3.5的傳言。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-2e40bddc14-dd1a6f-69ad2a) 不過，根據OpenAI的官方文檔，除了已經不再使用的text-davinci和code-davinci，GPT-3.5家族全員都是基於gpt-3.5-turbo構成的。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-60557d480b-dd1a6f-69ad2a) ![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-cf126d0a67-dd1a6f-69ad2a) ![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e05153a7a7-dd1a6f-69ad2a) ## **微軟發佈CodeFusion**而爆出GPT3.5隻有20B參數的微軟論文，是想介紹一個用於代碼生成的擴散模型。研究人員針對Bash、Python和Microsoft Excel條件格式（CF）規則的自然語言生成代碼的任務來評估這個模型——CodeFusion。實驗表明，CodeFusion（只有75M參數）在top-1精度方面與最先進的LLM（350M-175B參數）相當，並且在top-3和top-5精度方面性能和參數比非常優秀。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-28bac32ec5-dd1a6f-69ad2a) **模型架構**CODEFUSION用於代碼生成任務，它的訓練分為兩個階段，第一階段是無監督預訓練，第二階段是有監督微調。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-236bb1a5ff-dd1a6f-69ad2a) 在第一階段，CODEFUSION使用未標記的代碼片段來訓練降噪器和解碼器。 它還使用可訓練的嵌入層L，將代碼片段嵌入到連續空間中。在第二階段，CODEFUSION進行有監督的微調，使用來自文本-代碼對數據。 在這個階段，編碼器、降噪器和解碼器都會得到調整，以更好地執行任務。此外，CODEFUSION還借鑒了之前有關文本擴散的研究成果，將來自解碼器的隱藏表示D融合到模型中。 這是為了改進模型的性能。 在訓練過程中，在不同step中，模型引入一些雜訊，然後計算損失函數，以確保生成的代碼片段更符合預期的標準。總之，CODEFUSION是一個執行代碼生成工作的小模型，通過兩個階段的訓練和雜訊引入來不斷提升其性能。 這個模型的靈感來自於文本擴散的研究，並通過融合解碼器的隱藏表示來改進損失函數，以更好地生成高品質的代碼片段。## **評估結果**下表總結了CODEFUSION模型與各個基線模型在top-1、top-3和top-5設置下的性能表現。在top-1中，CODEFUSION的性能與自回歸模型相媲美，甚至在某些情況下表現更出色，尤其是在Python任務中，只有GPT-3（175B）的性能稍微優於CODEFUSION（75M）。 然而，在top-3和top-5方面，CODEFUSION明顯優於所有基線模型。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-2f73f1df62-dd1a6f-69ad2a) 表下表展示了CODEFUSION和自回歸模型（包括T5、CodeT5、StarCoder、CodeGen、GPT-3）在各項基準任務上的平均多樣性結果，考察了每個模型的前5代生成結果。相對於自回歸模型，CODEFUSION生成更加多樣化的結果，表現更出色。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-1289d29ab6-dd1a6f-69ad2a) 在消融實驗中，作者停止了去噪過程，並生成了在時間步t∈[0， T]範圍內的當前狀態的代碼片段。 利用歸一化字串編輯距離來衡量每個時間步長（每100步為一個增量）所獲得的結果。這一方法有助於總結和展示CODEFUSION模型的逐步進展，如下圖所示。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-59696a2139-dd1a6f-69ad2a) 說了這麼多，GPT-3.5的參數量到底是多少？ GPT-4與GPT-3.5在技術和其他方面有著什麼樣的聯繫？GPT-3.5是一個個小專家模型的集成還是一個通才模型？ 是通過更大模型的蒸餾還是更大數據訓練？這些問題的答案只能等到真正開源的時候才能揭曉了。參考資料：