思维链不存在了？纽约大学最新研究：推理步骤可省略

新闻资讯2024-06-09 13:46小乐

编辑：艾伦

【新智元简介】思想链技术或将被推翻！纽约大学的最新研究表明，大模型并没有利用思维链的推理能力，它只是偷偷地添加了计算！流行的思维链技术或将被推翻！您是否仍然对大型模型能够利用思维链一步步思考感到惊讶？还在为写不出思维链提示词而苦恼吗？纽约大学的研究人员表示：“没关系，都一样。”推理步骤并不重要。如果您不愿意，可以不必写提示词，只需使用省略号即可。

论文地址：https://arxiv.org/pdf/2404.15758 这篇文章的标题甚至直接用“让我们逐点思考”来与“让我们一步一步思考”的思维链条进行对比，可见“省略”的威力。 “点点点”的威力研究人员发现，如果将思想链（CoT）推理中的具体步骤换成无意义的“……”，推理结果将会大不相同。例如，在下面的示例中：让模型计算前6 个数字中有多少个大于5。

如果直接提出问题并让模型回答，结果将令人难以置信：6 中的6 会被数到7。相反，使用思维链提示，模型会逐步比较大小，然后最终得到正确答案：“25、75、15、85、25、85，这是3位数字。”但更离谱的是本文采用的“玄学”方法：不需要写步骤，只需要输出相同数量的“点”（点），并且不影响最终结果。 —— 这不是巧合。大量实验证明后两种方法的性能接近。换句话说，我们以为模型性能的提升来自于“一步步思考”，但实际上可能只是因为LLM获得了更多代币的算力！你以为模型在思考，但实际上它是在烧烤。

—— 愚蠢的人类，你居然试图教我如何用幼稚的例子推理。你知道吗，我想要的始终是计算。 “思想锁链从来没有存在过，将来也不会存在”（后藤）。文章作者Jacob Pfau 表示，这项工作证明了该模型并没有受益于思维链带来的语言推理。使用重复的“.”来填充token可以达到与CoT相同的效果。

当然，这也引发了对齐问题：因为这一事实表明模型可以执行在CoT 中不可见的隐藏推理，并且在某种程度上超出了人类的控制范围。

文章的结论令网友震惊，可以说颠覆了我们长久以来的认知。有网友表示：我学到了面膜的精髓。

“这真正意味着什么：模型可以在我们不知情的情况下使用这些标记独立思考。”

有网友表示，难怪我打字时总喜欢用“……”。

有网友直接开始实际测试：

虽然不知道他的理解是否正确，但有网友认为LLM隐藏在思维链中的推理是没有根据的。毕竟，大型模型的输出原则上是基于概率，而不是通过有意识的思考。 CoT 提示仅使统计模式的子集变得明确。模型通过生成与模式一致的文本来模拟推理，但它们没有能力验证或反映其输出。一点一点地思考当面对复杂的问题时，我们人类会下意识地进行一步一步的推理。

受此启发，Google 研究人员在2022 年发表了著名的Chain-of-Thought，要求语言模型逐步解决问题的方法，使得模型能够解决以前看似无法解决的问题，显着提升LLM 的性能，或者挖掘LLM的潜力。

论文地址：https://arxiv.org/pdf/2201.11903 虽然一开始大家都不知道这个东西为什么管用，但很快就被传播开来，因为它真的很好用。

随着大型模型和即时Word项目的起飞，CoT已成为LLM解决复杂问题的有力工具。当然，这个过程中也有很多研究团队在探索CoT的工作原理。

该模型不具备推理思维链带来的性能提升。模型真的是一步步学习解决问题，还是只是因为令牌数量变长带来的额外计算量？既然你不确定逻辑推理是否有效，那就根本不使用逻辑，将所有推理步骤替换为“.”，这肯定是没有用的。这些称为填充令牌。研究人员使用了“小羊驼”模型：一个34M 参数的Llama，有4 层、384 个隐藏维度和6 个注意力头。模型参数是随机初始化的。这里考虑两个问题：

(1) 哪些类型的评估数据可以从填充令牌中受益(2) 需要什么样的训练数据来教导模型使用填充令牌

对此，研究人员设计了2个任务并构建了相应的合成数据集。每个数据集都强调了不同的条件，在该条件下填充令牌可以为Transformer 提供性能改进。 3SUM 让我们看看第一个更困难的任务：3SUM。要求模型在序列中选择三个满足条件的数字。例如，三个数相加除以10 余数为0。

在最坏的情况下，这个任务的复杂度是N的3次方，而Transformer层之间的计算复杂度是N的2次方。因此，当输入序列长度非常大时，3SUM问题自然会超过Transformer 的表达能力。实验设置了三组控制： 1. 填充标记：序列使用重复的“.”作为中间填充，如“A05B75 C22 D13 : ANS True”。每个点代表一个单独的token，对应下面思维链中的token。 2.可并行CoT解，序列形式为：“A05 B75 C22 D13 : AB 70 AC 27 AD 18 BC 97 BD 88 CD B ANS True”。思想链通过写出所有相关的中间和，将一个3SUM 问题简化为一系列2SUM 问题（如下图所示）。这种方法将问题的计算量减少到N次方。——Transformer可以处理，并且可以并行化。

3. 自适应CoT解，序列的形式为：“A15 B75 C22 D13 : A B C 15 75 22 2 B C D 75 22 13 0 ANS True”。与上述方案巧妙地将3SUM分解为可并行的子问题不同，这里我们希望利用启发式方法生成灵活的思维链来模仿人类推理。这种实例自适应计算与填充令牌计算的并行结构不兼容。

从上图的结果可以看出，在不输出padding token的情况下，模型的准确率一般会随着序列变长而下降，而当使用padding token时，准确率仍保持在100%。 2SUM-Transform 第二个任务是2SUM-Transform。只需要判断两个数之和是否满足要求即可。计算量由Transformer控制。

然而，为了防止模型“作弊”，输入的标记是就地计算的，输入的每个数字都会移动随机偏移量。

结果如上表所示：填充令牌法的准确率达到93.6%，非常接近Chain-of-Thought。没有中间填充，准确率只有78.7%。但这种改进仅仅是由于训练数据的呈现方式的差异吗？通过正则化损失梯度？为了验证填充标记是否会带来与最终预测相关的隐藏计算，研究人员冻结了模型权重，仅对最后一个注意力层进行了微调。

上述结果表明，随着更多的填充标记可用，模型的准确性不断提高，这表明填充标记确实在执行与3SUM 预测任务相关的隐藏计算。

局限性虽然填充代币的方法很玄学、很神奇，甚至很有效，但现在说思维链条被颠覆还为时过早。作者还表示，填充token的方法并没有突破Transformer计算复杂度的上限。此外，学习使用填充令牌需要特定的训练过程。比如本文就采用了强化监督的方式，使得模型最终收敛。不过，有些问题可能已经浮出水面，比如隐藏的安全问题，比如提示词项目是否有一天会突然不复存在？

思维链不存在了？纽约大学最新研究：推理步骤可省略

猜你喜欢