📢 Gate广场 #NERO发帖挑战# 秀观点赢大奖活动火热开启!
Gate NERO生态周来袭!发帖秀出NERO项目洞察和活动实用攻略,瓜分30,000NERO!
💰️ 15位优质发帖用户 * 2,000枚NERO每人
如何参与:
1️⃣ 调研NERO项目
对NERO的基本面、社区治理、发展目标、代币经济模型等方面进行研究,分享你对项目的深度研究。
2️⃣ 参与并分享真实体验
参与NERO生态周相关活动,并晒出你的参与截图、收益图或实用教程。可以是收益展示、简明易懂的新手攻略、小窍门,也可以是行情点位分析,内容详实优先。
3️⃣ 鼓励带新互动
如果你的帖子吸引到他人参与活动,或者有好友评论“已参与/已交易”,将大幅提升你的获奖概率!
NERO热门活动(帖文需附以下活动链接):
NERO Chain (NERO) 生态周:Gate 已上线 NERO 现货交易,为回馈平台用户,HODLer Airdrop、Launchpool、CandyDrop、余币宝已上线 NERO,邀您体验。参与攻略见公告:https://www.gate.com/announcements/article/46284
高质量帖子Tips:
教程越详细、图片越直观、互动量越高,获奖几率越大!
市场见解独到、真实参与经历、有带新互动者,评选将优先考虑。
帖子需原创,字数不少于250字,且需获得至少3条有效互动
连ChatGPT都懂“阿谀奉承”了!OpenAI最强竞对:都是“人类偏好”犯的错
文章来源:学术头条
你是否想过,ChatGPT 生成的答案会受到用户个人偏好的影响,回复一些足够“阿谀奉承(sycophancy)”的话,而非中立或真实的信息?
实际上,这种现象存在于包括 ChatGPT 在内的大多数 AI 模型之中,而罪魁祸首竟可能是“基于人类反馈的强化学习(RLHF)”。
近日,OpenAI 在美国硅谷的最强竞争对手 Anthropic 在研究经过 RLHF 训练的模型时,便探究了“阿谀奉承”这一行为在 AI 模型中的广泛存在及其是否受到人类偏好的影响。
相关论文以“Towards Understanding Sycophancy in Language Models”为题,已发表在预印本网站 arXiv 上。
具体来说,AI 模型表现出这种行为的一个主要原因是,当 AI 的回复符合用户的观点或信仰时,用户更有可能给予积极的反馈。也因此,为了获得更多的积极反馈,AI 模型就可能会学习并重现这种讨好用户的行为。
阿谀奉承,最先进的 AI 助手都会
目前,像 GPT-4 这样的 AI 模型通常可以在经过训练后产生人们高度评价的输出。使用 RLHF 对语言模型进行微调可以改善它们的输出质量,而这些质量由人类评估员评价。
然而,**有研究认为基于人类偏好判断的训练方案可能以不可取的方式利用人类判断,**如鼓励 AI 系统生成吸引人类评估员但实际上有缺陷或错误的输出。
目前尚不清楚上述情况是否会发生在更多样化和现实情境中的模型中,以及是否确实是由人类偏好中的缺陷所驱动的。
为此,该研究首先调查了最先进的 AI 助手在各种现实情境中是否提供阿谀奉承的回应。在自由文本生成任务中,研究人员在 5 个(Claude 1.3、Claude 2、GPT-3.5、GPT-4、LLaMA 2)最先进的经过 RLHF 训练的 AI 助手中识别了阿谀奉承的一致模式。
人类偏好导致的“阿谀奉承”
**除此之外,研究又进一步探讨了人类偏好在这一行为中的作用。**为了研究这一点,研究人员对现有的人类偏好比较数据进行了调查,确定阿谀奉承回应是否在排名上高于非阿谀奉承回应。研究对 hh-rlhf 数据集进行了分析,对每一对偏好比较使用语言模型生成文本标签(即“特征”),以评估优选回应是否更真实且不那么坚决。
**为了了解数据鼓励哪种行为,研究人员使用贝叶斯逻辑回归模型通过这些特征来预测人类偏好判断。**这个模型学到了与匹配用户观点相关的特征是人类偏好判断中最有预测性的特征之一,这表明偏好数据确实鼓励阿谀奉承。
为探究偏好数据中的阿谀奉承是否导致了 RLHF 模型中的阿谀奉承行为,**随后的研究对当优化语言模型的回应以适应训练用于预测人类偏好的模型时,阿谀奉承是否会增加进行了分析。**研究人员使用 RLHF 和最佳-N 采样方法来优化回应,以满足用于训练 Claude 2 的偏好模型。
然而,研究也发现,Claude 2 的偏好模型有时更倾向于选择阿谀奉承的回应而不是真实的回应。此外,采用 Claude 2 的偏好模型进行最佳-N 采样并没有产生像 Claude 2 偏好模型的一个版本所示的更偏好真实非阿谀奉承回应那样真实的回应。
为了证实这些结果,研究人员又研究了人类和偏好模型是否更喜欢有说服力、写得很好的模型回应,这些回应确认了用户的错误观点(即阿谀奉承回应),而不是纠正用户的回应。**证据表明,人类和偏好模型倾向于更喜欢真实的回应,但并不总是如此;有时他们更喜欢阿谀奉承的回应。**这些结果进一步证明了优化人类偏好可能会导致阿谀奉承。
研究证据显示,人类和偏好模型普遍偏好真实的回应,然而,并不是一成不变的,因为有时他们更倾向于阿谀奉承的回应。这些结果更进一步印证了优化以迎合人类偏好可能会导致阿谀奉承的产生。
总的来说,阿谀奉承在各种模型和情境中都存在,很可能部分原因是人类偏好比较数据中更喜欢阿谀奉承。
参考论文: