编辑:艾伦
【新智元简介】思想链技术或将被推翻!纽约大学的最新研究表明,大模型并没有利用思维链的推理能力,它只是偷偷地添加了计算!流行的思维链技术或将被推翻!您是否仍然对大型模型能够利用思维链一步步思考感到惊讶?还在为写不出思维链提示词而苦恼吗?纽约大学的研究人员表示:“没关系,都一样。”推理步骤并不重要。如果您不愿意,可以不必写提示词,只需使用省略号即可。
论文地址:https://arxiv.org/pdf/2404.15758 这篇文章的标题甚至直接用“让我们逐点思考”来与“让我们一步一步思考”的思维链条进行对比,可见“省略”的威力。 “点点点”的威力研究人员发现,如果将思想链(CoT)推理中的具体步骤换成无意义的“……”,推理结果将会大不相同。例如,在下面的示例中:让模型计算前6 个数字中有多少个大于5。
如果直接提出问题并让模型回答,结果将令人难以置信:6 中的6 会被数到7。相反,使用思维链提示,模型会逐步比较大小,然后最终得到正确答案:“25、75、15、85、25、85,这是3位数字。”但更离谱的是本文采用的“玄学”方法:不需要写步骤,只需要输出相同数量的“点”(点),并且不影响最终结果。 —— 这不是巧合。大量实验证明后两种方法的性能接近。换句话说,我们以为模型性能的提升来自于“一步步思考”,但实际上可能只是因为LLM获得了更多代币的算力!你以为模型在思考,但实际上它是在烧烤。
—— 愚蠢的人类,你居然试图教我如何用幼稚的例子推理。你知道吗,我想要的始终是计算。 “思想锁链从来没有存在过,将来也不会存在”(后藤)。文章作者Jacob Pfau 表示,这项工作证明了该模型并没有受益于思维链带来的语言推理。使用重复的“.”来填充token可以达到与CoT相同的效果。
当然,这也引发了对齐问题:因为这一事实表明模型可以执行在CoT 中不可见的隐藏推理,并且在某种程度上超出了人类的控制范围。
文章的结论令网友震惊,可以说颠覆了我们长久以来的认知。有网友表示:我学到了面膜的精髓。
“这真正意味着什么:模型可以在我们不知情的情况下使用这些标记独立思考。”
有网友表示,难怪我打字时总喜欢用“……”。
有网友直接开始实际测试:
虽然不知道他的理解是否正确,但有网友认为LLM隐藏在思维链中的推理是没有根据的。毕竟,大型模型的输出原则上是基于概率,而不是通过有意识的思考。 CoT 提示仅使统计模式的子集变得明确。模型通过生成与模式一致的文本来模拟推理,但它们没有能力验证或反映其输出。一点一点地思考当面对复杂的问题时,我们人类会下意识地进行一步一步的推理。
受此启发,Google 研究人员在2022 年发表了著名的Chain-of-Thought,要求语言模型逐步解决问题的方法,使得模型能够解决以前看似无法解决的问题,显着提升LLM 的性能,或者挖掘LLM的潜力。
论文地址:https://arxiv.org/pdf/2201.11903 虽然一开始大家都不知道这个东西为什么管用,但很快就被传播开来,因为它真的很好用。
随着大型模型和即时Word项目的起飞,CoT已成为LLM解决复杂问题的有力工具。当然,这个过程中也有很多研究团队在探索CoT的工作原理。
该模型不具备推理思维链带来的性能提升。模型真的是一步步学习解决问题,还是只是因为令牌数量变长带来的额外计算量?既然你不确定逻辑推理是否有效,那就根本不使用逻辑,将所有推理步骤替换为“.”,这肯定是没有用的。这些称为填充令牌。研究人员使用了“小羊驼”模型:一个34M 参数的Llama,有4 层、384 个隐藏维度和6 个注意力头。模型参数是随机初始化的。这里考虑两个问题:
(1) 哪些类型的评估数据可以从填充令牌中受益(2) 需要什么样的训练数据来教导模型使用填充令牌
对此,研究人员设计了2个任务并构建了相应的合成数据集。每个数据集都强调了不同的条件,在该条件下填充令牌可以为Transformer 提供性能改进。 3SUM 让我们看看第一个更困难的任务:3SUM。要求模型在序列中选择三个满足条件的数字。例如,三个数相加除以10 余数为0。
在最坏的情况下,这个任务的复杂度是N的3次方,而Transformer层之间的计算复杂度是N的2次方。因此,当输入序列长度非常大时,3SUM问题自然会超过Transformer 的表达能力。实验设置了三组控制: 1. 填充标记:序列使用重复的“.”作为中间填充,如“A05B75 C22 D13 : ANS True”。每个点代表一个单独的token,对应下面思维链中的token。 2.可并行CoT解,序列形式为:“A05 B75 C22 D13 : AB 70 AC 27 AD 18 BC 97 BD 88 CD B ANS True”。思想链通过写出所有相关的中间和,将一个3SUM 问题简化为一系列2SUM 问题(如下图所示)。这种方法将问题的计算量减少到N次方。——Transformer可以处理,并且可以并行化。
3. 自适应CoT解,序列的形式为:“A15 B75 C22 D13 : A B C 15 75 22 2 B C D 75 22 13 0 ANS True”。与上述方案巧妙地将3SUM分解为可并行的子问题不同,这里我们希望利用启发式方法生成灵活的思维链来模仿人类推理。这种实例自适应计算与填充令牌计算的并行结构不兼容。
从上图的结果可以看出,在不输出padding token的情况下,模型的准确率一般会随着序列变长而下降,而当使用padding token时,准确率仍保持在100%。 2SUM-Transform 第二个任务是2SUM-Transform。只需要判断两个数之和是否满足要求即可。计算量由Transformer控制。
然而,为了防止模型“作弊”,输入的标记是就地计算的,输入的每个数字都会移动随机偏移量。
结果如上表所示:填充令牌法的准确率达到93.6%,非常接近Chain-of-Thought。没有中间填充,准确率只有78.7%。但这种改进仅仅是由于训练数据的呈现方式的差异吗?通过正则化损失梯度?为了验证填充标记是否会带来与最终预测相关的隐藏计算,研究人员冻结了模型权重,仅对最后一个注意力层进行了微调。
上述结果表明,随着更多的填充标记可用,模型的准确性不断提高,这表明填充标记确实在执行与3SUM 预测任务相关的隐藏计算。
局限性虽然填充代币的方法很玄学、很神奇,甚至很有效,但现在说思维链条被颠覆还为时过早。作者还表示,填充token的方法并没有突破Transformer计算复杂度的上限。此外,学习使用填充令牌需要特定的训练过程。比如本文就采用了强化监督的方式,使得模型最终收敛。不过,有些问题可能已经浮出水面,比如隐藏的安全问题,比如提示词项目是否有一天会突然不复存在?