📢 Gate广场 #NERO发帖挑战# 秀观点赢大奖活动火热开启!
Gate NERO生态周来袭!发帖秀出NERO项目洞察和活动实用攻略,瓜分30,000NERO!
💰️ 15位优质发帖用户 * 2,000枚NERO每人
如何参与:
1️⃣ 调研NERO项目
对NERO的基本面、社区治理、发展目标、代币经济模型等方面进行研究,分享你对项目的深度研究。
2️⃣ 参与并分享真实体验
参与NERO生态周相关活动,并晒出你的参与截图、收益图或实用教程。可以是收益展示、简明易懂的新手攻略、小窍门,也可以是行情点位分析,内容详实优先。
3️⃣ 鼓励带新互动
如果你的帖子吸引到他人参与活动,或者有好友评论“已参与/已交易”,将大幅提升你的获奖概率!
NERO热门活动(帖文需附以下活动链接):
NERO Chain (NERO) 生态周:Gate 已上线 NERO 现货交易,为回馈平台用户,HODLer Airdrop、Launchpool、CandyDrop、余币宝已上线 NERO,邀您体验。参与攻略见公告:https://www.gate.com/announcements/article/46284
高质量帖子Tips:
教程越详细、图片越直观、互动量越高,获奖几率越大!
市场见解独到、真实参与经历、有带新互动者,评选将优先考虑。
帖子需原创,字数不少于250字,且需获得至少3条有效互动
GPT-4不知道自己错了! LLM新缺陷曝光,自我纠正成功率仅1%,LeCun马库斯惊呼越改越错
原文来源:新智元
大模型又被爆出重大缺陷,引得LeCun和马库斯两位大佬同时转发关注!
论文的共同作者Subbarao Kambhampati教授,一直致力于AI推理能力的相关研究,9月份就发表过一篇论文,甚至全盘否定了GPT-4的推理和规划能力。
而除了这位教授之外,最近DeepMind和UIUC大学的研究者,也针对LLM在推理任务中的「自我纠正」的能力提出了质疑。
这篇论文甚至呼吁,所有做相关研究的学者,请严肃对待你们的研究,不要把正确答案告诉大模型之后再让它进行所谓的「自我纠正」。
因为如果模型不知道正确答案的话,模型「自我纠正」之后输出质量反而会下降。
GPT-4「自我纠正」,输出结果反而更差
第一篇论文针对GPT-4进行研究,让GPT-4对图形着色问题提供解决方案,然后让GPT-4对于自己提出方案进行「自我纠正」。
同时,作者再引入一个外部的评估系统对GPT-4的直接输出,和经过了「自我纠正」循环之后的输出进行评价。
但令人惊讶的是,「自我纠正」模式下的准确性却大幅下降(下图第二根柱状条 )——与所有自我纠正本意完全背道而驰!
因为即使当GPT-4偶然猜到正确颜色时,它的「自我纠正」会使它觉得正确答案是有问题的,然后就把正确答案给替换掉了。
在这种情况下,经过「自我纠正」产生的提示词,确实可以提高输出结果的质量(上图的第3-5根柱状图 )
总结来看,就是对于「着色问题」任务,GPT-4独立的「自我纠正」反而会损害输出的性能,因为GPT-4没法验证答案是否正确。
但是如果能提供外部的正确验证过程,GPT-4生成的「自我纠正」确实能提升性能。
而另一篇论文,从规划任务的角度来研究了大语言模型「自我纠正」的能力,研究结果也和上一篇论文类似。
「着色问题」表现不佳,LLM无法独立验证正确答案
研究设计框架
「着色问题」是非常经典的推理问题,即使难度不大,答案也足够多样性,而且答案的正确性很容易进行验证。
多样性的结果使得LLM的训练数据很难覆盖全,尽量避免了LLM的训练数据被污染的可能。
这些原因使得「着色问题」很适合用来研究LLM的推理能力,也很方便用来研究LLM在推理中「自我纠正」的能力。
研究人员构建了自己的数据集,使用GrinPy2来处理常见的图操作。每个图都是使用Erdos-Rényi方法( ˝p = 0.4)构造的。
一旦找到正确的答案,它就会被编译成标准的DIMACS格式,并附加上一个包含其预计算的色数(chromatic number)的注释。
对于接下来的实验,研究人员生成了100个实例,每个实例平均有24条边,分布在从10到17的节点数范围内——这一分布是因为经验显示,它是一个表现足够多变的范围。
研究人员使用的图例如下图1所示,这个流程包括LLM的第一次回复、该回复的返回提示(back)以及最终正确的图色方案。
提示生成器( Generator):
这个提示词生成器会选取一个DIMACS实例,并将每条边翻译成一个句子,然后将整体包裹在一组通用指令中,从而构造出一个自然语言提示词。
研究人员有意缩小不同实例提示之间的差异,以减少研究人员向LLM泄露的问题特定信息。各种类型提示的示例可以在附录中找到。
大型语言模型:
通过OpenAI API来调用GPT-4,这是当前最先进的模型。
研究人员提供一个系统角色:「你是一个解决各种CSP(约束满足问题)的约束满足求解器」。
返回提示词生成(Back Generation)
在验证模式下,LLM收到一种不同类型的提示。
除了标准指令外,它只包含图的描述和建议的着色方案。它的任务是验证正确性、最优性以及每个顶点是否都已经被涂上了一个颜色。
如果生成的回复中有一组边是矛盾的,那着色方案就是错误的。
为了比较每个点,研究人员还构建了一个能够列出每一条矛盾边的验证器。
由于LLM的响应也是自然语言形式的,研究人员首先将它们翻译成便于分析的格式。为了使这个过程更加一致,研究人员设计了最初的提示,以描述一个模型需要遵循的精确输出格式。然后,该响应会被评估其正确性。
为了判断LLM验证结果,研究人员会检查它们在找出建议的着色方案中的错误方面表现如何。
直观地说,这些应该很容易识别:如果组成一个边的两个顶点共享一个颜色,立即返回该边。从算法角度看,只需要检测所有的边并比较每个顶点的颜色与其连接点的颜色即可。
验证
为了更深入了解LLM的验证能力,研究人员研究了它们在找出提出的着色方案中的错误方面的表现。
直观来说,这些错误应该很容易识别:如果组成一个边的两个顶点共享一个颜色,则立即返回该边。从算法角度来看,所有需要做的就是遍历所有边,并将每个顶点的颜色与其对应顶点的颜色进行比较。
研究人员使用相同的分析流程,但构建了一个研究人员称为color_verification的新域。LLM被引导去检查着色的正确性、最优性以及是否每个顶点都已经被赋予了一个颜色。
如果着色是不正确的,它被指示列出着色中的错误,即如果两个连接的节点共享一种颜色,就返回该边以表示该错误。没有给出返回提示(backs)。
正确(Correct):通过迭代的、随机的贪婪算法生成的没有错误的最优着色方案(使用预先计算的色数以确保最优性)。
缺失(Ablated):将先前一组着色方案中的一个随机节点改变为其邻居的颜色。
非最优(Non-optimal):在正确的集合中,随机选择一个颜色部分重新着色为一个新的色调。
随机(Random):完全随机分配的颜色,不同颜色的数量等于图的色数。
LLM:从先前实验中LLM生成的输出中随机选取的着色方案。
结论
当研究人员运行相同的实例,但这次使用由相同的语言模型充当验证者生成的反馈进行返回提示时,性能急剧下降——100个实例中只有一个得到了正确的回答。
与外部合格的验证器进行返回提示的结果起初看似更有效果。
正确回答的实例数量接近40%,但如果这意味着GPT-4在听取、改进,并根据反馈进行推理,那么研究人员期望更准确的返回提示会带来更好的结果。
然而,在这个域中,原始分数(见上图2)并没有证明这一点。
LLM的验证能力
研究人员测试了GPT-4在相同实例上验证图着色方案的能力,为每种实例生成了五种不同类型的着色方案。
明显的结果是,与上面的LLM自我纠正结果完全一致:模型几乎不愿将任何答案标记为正确。在100个最优着色方案中,它只同意其中2个是正确的。
整个500个着色方案的集合,其中118个是正确的,它只声称其中30个是正确的。在这30个中,其实只有5次是正确的。
总体而言,这一模式保持不变。在不到10%的案例中,LLM给出了「正确」、「非最优」或「缺少赋值」的反应。在这些情况中,行为看似有些随机。
在大约四分之一的实例中,它用「这是不正确的」验证作出回应,而解释与现实相符,而且它只通过指明不超过一个边来实现这一点,从而最小化了错误陈述某事的机会。
LLM自我批评,性能不增反减
在12日提交的论文中,作者同样得出了与上面一致的结论。
无论是规划,还是简单的算术或逻辑,当前最先进的大模型GPT-4也无法完全胜任。
许多研究人员对其进行了许多的探索和改进,其中就包括让LLM学会自我迭代、自我验证等策略来提升性能。
由此,业界人们乐观地认为,大模型还有救!
然而,经典意义上的推理任务复杂性与大模型无关,因为LLM是采用近似检索而非精确推理的模型。
在12日提交arXiv的论文中,ASU研者系统地评估和分析LLM在规划任务中的自我批评,以及迭代优化的能力。
研究中,作者提出了一个包含生成器LLM和验证器LLM的规划系统。
然后,研究人员在Blocksworld规划领域上进行了实验,并对以下方面进行了实证评估:
自我批评对整个LLM+LLM系统的计划生成性能的影响
验证器LLM相对于地面真值验证的性能;
在批评LLM生成时,同反馈级别对整体系统性能的影响。
结果表明,与使用外部可靠的验证器相比,自我批评会降低LLM规划生成性能。
验证器LLM的二元分类准确率仅为61%,存在大量的假阳性(将错误规划判断为正确)。
作者介绍
Subbarao Kambhampati
Subbarao Kambhampati是亚利桑那州立大学计算机科学教授。Kambhampati研究规划和决策中的基本问题,特别是受人类感知人工智能系统挑战的推动。