📢 Gate广场 #NERO发帖挑战# 秀观点赢大奖活动火热开启!
Gate NERO生态周来袭!发帖秀出NERO项目洞察和活动实用攻略,瓜分30,000NERO!
💰️ 15位优质发帖用户 * 2,000枚NERO每人
如何参与:
1️⃣ 调研NERO项目
对NERO的基本面、社区治理、发展目标、代币经济模型等方面进行研究,分享你对项目的深度研究。
2️⃣ 参与并分享真实体验
参与NERO生态周相关活动,并晒出你的参与截图、收益图或实用教程。可以是收益展示、简明易懂的新手攻略、小窍门,也可以是行情点位分析,内容详实优先。
3️⃣ 鼓励带新互动
如果你的帖子吸引到他人参与活动,或者有好友评论“已参与/已交易”,将大幅提升你的获奖概率!
NERO热门活动(帖文需附以下活动链接):
NERO Chain (NERO) 生态周:Gate 已上线 NERO 现货交易,为回馈平台用户,HODLer Airdrop、Launchpool、CandyDrop、余币宝已上线 NERO,邀您体验。参与攻略见公告:https://www.gate.com/announcements/article/46284
高质量帖子Tips:
教程越详细、图片越直观、互动量越高,获奖几率越大!
市场见解独到、真实参与经历、有带新互动者,评选将优先考虑。
帖子需原创,字数不少于250字,且需获得至少3条有效互动
微软论文一张截图,曝出GPT-3.5仅有200亿参数?AI圈巨震,网友大呼太离谱!
原文来源:新智元
GPT-3.5只有200亿参数?
今天,大模型圈都被微软论文中的一纸截图刷爆了,究竟是怎么回事?
就在前几天,微软发表了篇论文并挂在了arXiv上,该论文提出了一个参数量只有75M的小规模扩散模型——CodeFusion。
性能方面,7500万参数的CodeFusion在top-1准确率指标上,可以与最先进的350M-175B模型相媲美。
这篇论文的工作很有意义,但引起大家格外注意的却是——
作者在对比ChatGPT(gpt-3.5-turbo)时,标称的参数量竟然只有20B!
消息一出,直接登上知乎热搜,网友们都炸了。
网友的爆料贴一出,瞬间就引发了激烈的讨论。
目前,已经有超过68万人前来围观。
「这也太难以想象了!Falcon-180B和Llama2-70B,竟然都无法击败这款20B的模型。」
而这次参数的「泄露」,正好从侧面印证了那些关于gpt-3.5-turbo表现不如旧版gpt-3.5的传言。
而爆出GPT3.5只有20B参数的微软论文,是想介绍一个用于代码生成的扩散模型。
研究人员针对Bash、Python和Microsoft Excel条件格式(CF)规则的自然语言生成代码的任务来评估这个模型——CodeFusion。
实验表明,CodeFusion(只有75M参数)在top-1精度方面与最先进的LLM(350M-175B参数)相当,并且在top-3和top-5精度方面性能和参数比非常优秀。
CODEFUSION用于代码生成任务,它的训练分为两个阶段,第一阶段是无监督预训练,第二阶段是有监督微调。
在第二阶段,CODEFUSION进行有监督的微调,使用来自文本-代码对数据。在这个阶段,编码器、降噪器和解码器都会得到调整,以更好地执行任务。
此外,CODEFUSION还借鉴了之前有关文本扩散的研究成果,将来自解码器的隐藏表示D融合到模型中。这是为了改进模型的性能。在训练过程中,在不同step中,模型引入一些噪声,然后计算损失函数,以确保生成的代码片段更符合预期的标准。
总之,CODEFUSION是一个执行代码生成工作的小模型,通过两个阶段的训练和噪声引入来不断提升其性能。这个模型的灵感来自于文本扩散的研究,并通过融合解码器的隐藏表示来改进损失函数,以更好地生成高质量的代码片段。
评估结果
下表总结了CODEFUSION模型与各个基线模型在top-1、top-3和top-5设置下的性能表现。
在top-1中,CODEFUSION的性能与自回归模型相媲美,甚至在某些情况下表现更出色,尤其是在Python任务中,只有GPT-3(175B)的性能稍微优于CODEFUSION(75M)。然而,在top-3和top-5方面,CODEFUSION明显优于所有基线模型。
相对于自回归模型,CODEFUSION生成更加多样化的结果,表现更出色。
这一方法有助于总结和展示CODEFUSION模型的逐步进展,如下图所示。
GPT-3.5是一个个小专家模型的集成还是一个通才模型?是通过更大模型的蒸馏还是更大数据训练?
这些问题的答案只能等到真正开源的时候才能揭晓了。
参考资料: