📢 Gate广场 #NERO发帖挑战# 秀观点赢大奖活动火热开启!
Gate NERO生态周来袭!发帖秀出NERO项目洞察和活动实用攻略,瓜分30,000NERO!
💰️ 15位优质发帖用户 * 2,000枚NERO每人
如何参与:
1️⃣ 调研NERO项目
对NERO的基本面、社区治理、发展目标、代币经济模型等方面进行研究,分享你对项目的深度研究。
2️⃣ 参与并分享真实体验
参与NERO生态周相关活动,并晒出你的参与截图、收益图或实用教程。可以是收益展示、简明易懂的新手攻略、小窍门,也可以是行情点位分析,内容详实优先。
3️⃣ 鼓励带新互动
如果你的帖子吸引到他人参与活动,或者有好友评论“已参与/已交易”,将大幅提升你的获奖概率!
NERO热门活动(帖文需附以下活动链接):
NERO Chain (NERO) 生态周:Gate 已上线 NERO 现货交易,为回馈平台用户,HODLer Airdrop、Launchpool、CandyDrop、余币宝已上线 NERO,邀您体验。参与攻略见公告:https://www.gate.com/announcements/article/46284
高质量帖子Tips:
教程越详细、图片越直观、互动量越高,获奖几率越大!
市场见解独到、真实参与经历、有带新互动者,评选将优先考虑。
帖子需原创,字数不少于250字,且需获得至少3条有效互动
用暂停 token 重新训练大模型,AI 学会三思而后行
来源:量子位
让ChatGPT给出答案之前多想想步骤,就能提高准确率。
那么能不能省去提示词,直接把这种能力内化在大模型里呢?
CMU与谷歌团队的新研究,在训练大模型时加入暂停token来实现这一点。
预训练微调都加入暂停token
整个研究基于一个简单的想法:
在输入序列后面追加一系列(暂停token),从而延迟模型输出下一个token。
这可以给模型额外的计算时间来处理更复杂的输入。
下游任务微调时,输入中也追加一定数量的暂停 token,然后对目标序列进行自回归预测,同时微调模型参数。
推理阶段也追加相同数量的暂停token,但忽略模型输出直到最后一个暂停token,然后开始提取答案。
实验使用了标准的Transformer纯Decoder模型,分为130M参数和1B参数两个版本。
其中暂停token只增加了1024个参数,也就是它本身的embedding大小。
在9个不同任务上的实验表明,仅在微调阶段引入暂停token的效果并不明显,有些任务不会提升。
但如果在预训练和finetune阶段都使用暂停token,大多数任务上都获得显著提升。
论文还探究了暂停token的数量、位置等关键超参数。发现对于不同的模型通常存在一个最优的数量。
最后作者也提出,这项工作也有不少局限性。
搜索引擎You.com的CEO表示,接下来是不是应该把所有提高人类认知表现的技巧都对大模型试一试?
也许下一个爆款论文就是教大模型带着问题睡一觉或者更离谱的健康饮食、注意锻炼。
论文地址:
参考链接:
[1]