📢 Gate廣場 #NERO发帖挑战# 秀觀點贏大獎活動火熱開啓!
Gate NERO生態周來襲!發帖秀出NERO項目洞察和活動實用攻略,瓜分30,000NERO!
💰️ 15位優質發帖用戶 * 2,000枚NERO每人
如何參與:
1️⃣ 調研NERO項目
對NERO的基本面、社區治理、發展目標、代幣經濟模型等方面進行研究,分享你對項目的深度研究。
2️⃣ 參與並分享真實體驗
參與NERO生態周相關活動,並曬出你的參與截圖、收益圖或實用教程。可以是收益展示、簡明易懂的新手攻略、小竅門,也可以是行情點位分析,內容詳實優先。
3️⃣ 鼓勵帶新互動
如果你的帖子吸引到他人參與活動,或者有好友評論“已參與/已交易”,將大幅提升你的獲獎概率!
NERO熱門活動(帖文需附以下活動連結):
NERO Chain (NERO) 生態周:Gate 已上線 NERO 現貨交易,爲回饋平台用戶,HODLer Airdrop、Launchpool、CandyDrop、餘幣寶已上線 NERO,邀您體驗。參與攻略見公告:https://www.gate.com/announcements/article/46284
高質量帖子Tips:
教程越詳細、圖片越直觀、互動量越高,獲獎幾率越大!
市場見解獨到、真實參與經歷、有帶新互動者,評選將優先考慮。
帖子需原創,字數不少於250字,且需獲得至少3條有效互動
用暫停 token 重新訓練大模型,AI 學會三思而後行
來源:量子位
讓ChatGPT給出答案之前多想想步驟,就能提高準確率。
那麼能不能省去提示詞,直接把這種能力內化在大模型里呢?
CMU與谷歌團隊的新研究,在訓練大模型時加入暫停token來實現這一點。
預訓練微調都加入暫停token
整個研究基於一個簡單的想法:
在輸入序列後面追加一系列(暫停token),從而延遲模型輸出下一個token。
這可以給模型額外的計算時間來處理更複雜的輸入。
下游任務微調時,輸入中也追加一定數量的暫停 token,然後對目標序列進行自回歸預測,同時微調模型參數。
推理階段也追加相同數量的暫停token,但忽略模型輸出直到最後一個暫停token,然後開始提取答案。
實驗使用了標準的Transformer純Decoder模型,分為130M參數和1B參數兩個版本。
其中暫停token只增加了1024個參數,也就是它本身的embedding大小。
在9個不同任務上的實驗表明,僅在微調階段引入暫停token的效果並不明顯,有些任務不會提升。
但如果在預訓練和finetune階段都使用暫停token,大多數任務上都獲得顯著提升。
論文還探究了暫停token的數量、位置等關鍵超參數。 發現對於不同的模型通常存在一個最優的數量。
最後作者也提出,這項工作也有不少局限性。
搜尋引擎 You.com 的CEO表示,接下來是不是應該把所有提高人類認知表現的技巧都對大模型試一試?
也許下一個爆款論文就是教大模型帶著問題睡一覺或者更離譜的健康飲食、注意鍛煉。
論文位址:
參考連結:
[1]