📢 Gate广场 #MBG任务挑战# 发帖赢大奖活动火热开启!
想要瓜分1,000枚MBG?现在就来参与,展示你的洞察与实操,成为MBG推广达人!
💰️ 本期将评选出20位优质发帖用户,每人可轻松获得50枚MBG!
如何参与:
1️⃣ 调研MBG项目
对MBG的基本面、社区治理、发展目标、代币经济模型等方面进行研究,分享你对项目的深度研究。
2️⃣ 参与并分享真实体验
参与MBG相关活动(包括CandyDrop、Launchpool或现货交易),并晒出你的参与截图、收益图或实用教程。可以是收益展示、简明易懂的新手攻略、小窍门,也可以是现货行情点位分析,内容详实优先。
3️⃣ 鼓励带新互动
如果你的帖子吸引到他人参与活动,或者有好友评论“已参与/已交易”,将大幅提升你的获奖概率!
MBG热门活动(帖文需附下列活动链接):
Gate第287期Launchpool:MBG — 质押ETH、MBG即可免费瓜分112,500 MBG,每小时领取奖励!参与攻略见公告:https://www.gate.com/announcements/article/46230
Gate CandyDrop第55期:CandyDrop x MBG — 通过首次交易、交易MBG、邀请好友注册交易即可分187,500 MBG!参与攻略见公告:https://www.gate.com/announcements
大模型可解释性你能理得清吗?综述已来,一文解你疑惑
大规模语言模型在自然语言处理方面展现出令人惊讶的推理能力,但其内在机理尚不清晰。随着大规模语言模型的广泛应用,阐明模型的运行机制对应用安全性、性能局限性和可控的社会影响至关重要。
近期,中美多家研究机构(新泽西理工学院、约翰斯・霍普金斯大学、维克森林大学、佐治亚大学、上海交大、百度等)联合发布了大模型可解释性技术的综述,分别对传统的 fine-tuning 模型和基于 ing 的超大模型的可解释性技术进行了全面的梳理,并探讨了模型解释的评估标准和未来的研究挑战。
为何解释大模型有点难?大语言模型在自然语言处理任务上的惊艳表现引起了社会广泛的关注。与此同时,如何解释大模型在跨任务中令人惊艳的表现是学术界面临的迫切挑战之一。不同于传统的机器学习或者深度学习模型,超大的模型架构和海量的学习资料使得大模型具备了强大的推理泛化能力。大语言模型 (LLMs) 提供可解释性的几个主要难点包括:
大模型的训练范式
为了更好的归纳总结大模型的可解释性,我们将 BERT 及以上级别的大模型的训练范式分为两种:1)传统 fine-tuning 范式;2)基于 ing 的范式。
传统 fine-tuning 范式
对于传统 fine-tuning 范式,首先在一个较大的未标记的文本库上预训练一个基础语言模型,再通过来自特定领域的标记数据集进行 fine-tuning。常见的此类模型有 BERT, RoBERTa, ELECTRA, DeBERTa 等。
基于 ing 的范式
基于 ing 的范式通过使用 s 实现 zero-shot 或者 few-shot learning。与传统 fine-tuning 范式相同,需要预训练基础模型。但是,基于 ing 范式的微调通常由 instruction tuning 和 reinforcement learning from human feedback (RLHF) 实现。常见的此类模型包括 GPT-3.5, GPT 4, Claude, LLaMA-2-Chat, Alpaca, Vicuna 等。其训练流程如下图:
基于传统 fine-tuning 范式的模型解释包括对单个预测的解释(局部解释)和对模型结构级别组分如神经元,网络层等的解释(全局解释)。
局部解释
局部解释对单个样本预测进行解释。其解释方法包括特征归因(feature attribution)、基于注意力机制的解释(attention-based)、基于样本的解释(example-based)、基于自然语言的解释(natural language explanation)。
全局解释
全局解释旨在从模型构成的层面包括如神经元,隐藏层和更大的组块,为大模型的工作机制提供更高阶的解释。主要探究在不同网络构成部分学习到的语义知识。
基于 ing 范式的模型解释
基于 ing 范式的模型解释,需要对基础模型和助手模型分别解释以区别两种模型的能力,并探究模型学习的路径。其探究的问题主要包括:为模型提供解释对 few-shot learning 的益处;理解 few-shot learning 和思维链能力的来源。
基础模型解释
助手模型解释
模型解释的评估
模型解释的评估指标包含合理性 (plausibility),忠实度 (faithfulness),稳定性 (stability),鲁棒性 (robustness) 等。论文主要讲述了两个被广泛关注的围度:1)对人类的合理性;2)对模型内在逻辑的忠实度。
对传统 fine-tuning 模型解释的评估主要集中在局部解释上。合理性通常需要将模型解释与人工标注的解释按照设计的标准进行测量评估。而忠实性更注重量化指标的表现,由于不同的指标关注模型或数据的方面不同,对于忠实性的度量依然缺乏统一的标准。基于 ing 模型解释的评估则有待进一步的研究。
未来研究挑战
**1. 缺乏有效的正确解释。**其挑战来源于两个方面:1)缺乏设计有效解释的标准;2)有效解释的缺乏导致对解释的评估同样缺乏支撑。
**2. 涌现现象的根源未知。**对大模型涌现能力的探究可以分别从模型和数据的角度进行,从模型的角度,1)引起涌现现象的模型结构;2)具备跨语言任务超强表现的最小模型尺度和复杂度。从数据的角度,1)决定特定预测的数据子集;2)涌现能力与模型训练和数据污染的关系;3)训练数据的质量和数量对预训练和微调各自的影响。
**3. Fine-tuning 范式与 ing 范式的区别。**两者在 in-distribution 和 out-of-distribution 的不同表现意味着不同的推理方式。1)在数据同分布(in-distribution)之下,其推理范式的不同之处;2)在数据不同分布的情况下,模型鲁棒性的差异根源。
**4. 大模型的捷径学习问题。**两种范式之下,模型的捷径学习问题存在于不同的方面。尽管大模型由于数据来源丰富,捷径学习的问题相对缓和。阐明捷径学习形成的机理并提出解决办法对模型的泛化依然重要。
**5. 注意力冗余。**注意力模块的冗余问题在两种范式之中广泛存在,对注意力冗余的研究可以为模型压缩技术提供一种解决方式。
**6. 安全性和道德性。**大模型的可解释性对控制模型并限制模型的负面影响至关重要。如偏差、不公平、信息污染、社会操控等问题。建立可解释的 AI 模型可以有效地避免上述问题,并形成符合道德规范的人工智能系统。