数学推理中在推理规模化下检查假阳性解
25年2月来自中科大和微软亚洲研究院的论文“Examining False Positives under Inference Scaling for Mathematical Reasoning”。
语言模型的最新进展已带来各种基准测试中数学推理能力的显著提升。然而,大多数基准测试依赖于自动评估方法,这些方法仅使用启发式方法比较最终答案,而不验证底层推理步骤。这种限制导致假阳性解,其中模型可能会产生正确的最终答案,但推理路径有缺陷。本文系统地研究语言模型求解数学问题中假阳性解的普遍性。其分析不同开源模型、不同难度级别数据集和解码策略中该问题的特征和程度。具体来说,探讨“假阳性”如何影响语言模型的推理-时间规模化行为。实验结果表明:(1)假阳性解在不同的模型、数据集和解码方法中仍然存在;(2)基于采样的推理-时间规模化方法无法缓解该问题;(3)pass@N 评估指标更容易受到“假阳性”的影响,这表明扩展上限明显低于自动评估所显示的上限。此外,分析“假阳性”的具体实例,并讨论在这种情况下自我改进技术和合成数据生成的潜在限制。
语言模型的最新发展,包括推理-时间规模化和自我改进技术的改进,显著提高数学推理任务的性能(Snell,2024;Shao,2024)。闭源和开源模型都在主要基准测试中展示解决数学问题的能力(Yang,2024;OpenAI,2024)。然而,许多这些基准测试依赖于自动评估方法,这些方法通常使用启发式方法,仅将模型生成的最终答案与参考答案进行比较。这些方法不能保证得出最终答案所采取推理步骤的正确性,从而引发人们对评估指标可靠性的担忧,并可能破坏基于生成解决方案的自我改进技术有效性。
“假阳性”解的问题主要源于用于评估大语言模型 (LLM) 在数学任务上表现的评估方法。许多现有方法仅侧重于将最终生成的答案与真值注释进行比较。在这些方法中,最终答案是通过预定义规则或使用 LLM 本身提取的,然后进行规范化并与黄金标准解决方案进行比较。这种评估策略高效、廉价且完全自动化;然而,它没有考虑到生成解决方案所涉及的中间推理步骤。此外,它不适用于数学证明等没有单一最终答案的任务。为了克服这些限制,一些研究利用强大的 LLM 将生成解决方案中的推理步骤与参考答案进行比较或直接识别推理路径中的步骤错误,试图评估数学推理的有效性(He,2023;Tyen,2023;Hao,2024)。这种方法的有效性在很大程度上取决于所使用 LLM 的能力,而且 LLM 能够多大可靠地检测强 LLM 本身产生的推理缺陷,仍不确定。另外,其他研究探索将形式化证明系统用于数学推理。诸如 MiniF2F(Zheng,2021)和 ProofNet(Azerbayev,2023)等基准测试使用 Lean(Moura & Ullrich,2021)等形式语言来指定数学问题,而 LLM 的任务是生成形式化证明,这些证明可以通过形式化系统进行严格检查。虽然形式化证明本质上避免自然语言解决方案中存在的“假阳性”解问题,但将非正式数学陈述转化为形式化系统仍然是一项重大挑战,限制这种方法的更广泛适用性。
先前的研究,例如 Hao(2024)和 Zheng (2024) 也强调 LLM 生成的数学解决方案中存在“假阳性”。 一个重要的研究方向集中在通过过程监督提高推理步骤的准确性(Lightman,2023;Setlur,2024;Luo,2024)。 例如,Lightman (2023) 证明,对推理路径中明确注释的缺陷进行训练可以提高奖励模型的性能,从而提高数学基准的准确性。 Luong (2024) 和 Shao (2024) 等研究采用强化学习技术,从最终答案注释中生成更高质量的推理路径,然后利用这些路径以自我改进的方式训练更好的策略模型。 此外,Golovneva(2022)、Prasad(2023)和 Xia(2024)等研究提出过滤和重新评分策略以及指标,以识别错误的推理步骤并减轻“假阳性”问题。虽然 Snell(2024)研究 LLM 在数学问题上的推理-时间规模化,但他们的工作并没有考虑“假阳性”的影响。此外,Stroebl(2024)研究“假阳性”问题如何影响编码域的推理时间规模化,表明随分配的计算资源越来越多,有缺陷的验证器会导致真实准确率下降,这是由于生成的解决方案中“假阳性”率不断增加。
本文系统地研究语言模型执行的求解数学问题任务中“假阳性”的普遍性和特征。
在数学评估中,通常采用两种主要的评估方法:自动评估和人工评估。自动评估包括基于规则的评估和使用大语言模型 (LLM) 进行评估。目前,大多数数学模型基准测试通常依赖于基于规则的自动评估 (Yang,2024;Shao,2024)。这种方法利用预定义的启发式规则,通过将模型的最终答案与真值进行比较来评估模型输出的正确性。虽然这种方法简单易行,但它有明显的局限性。具体来说,它无法有效评估中间推理步骤的正确性和逻辑连贯性,从而导致“假阳性”现象。当最终答案正确,但解决过程包含错误或缺乏逻辑有效性时,就会出现“假阳性”。这种“假阳性”的检测可以通过基于模型的方法或人工评估进行。
为了评估当前模型在中间推理步骤中检测错误的能力,可以使用 M(True or False | P, x, y),其中 M 表示用于错误检测的模型,x 和 y 分别代表问题和模型生成的答案,P 表示使用的提示。虽然使用该模型进行错误检测的成本相对较低,但其有效性仍然有限。
由于现有模型在识别推理步骤中错误方面的能力有限,引入人工评估作为补充方法,以更好地理解“假阳性”的发生。人工评估需要人工注释者对模型的响应进行细致、逐步的审查,不仅要确保最终答案的正确性,还要确保中间解决步骤的逻辑连贯性和数学有效性。虽然这种方法需要更多的资源,但它显著提高评估的准确性和全面性,为模型的推理过程提供更深入的见解。
在人工评估中,如果模型的响应出现以下任何错误,尽管最终答案是正确的,注释者也会将其归类为“假阳性”:
- 推理跳跃:当省略必要的逻辑步骤或中间计算时,就会发生这种情况,导致在没有充分理由的情况下直接跳到最终答案。即使答案本身是正确的,这种省略也会破坏解决方案的有效性。
- 逻辑错误:此类别包括定理或规则的误用、依赖不合理的假设、矛盾的推理以及纳入问题陈述中不存在的条件等错误。
- 计算错误:算术或代数计算中的错误虽然可能被其他错误抵消,但仍反映解决过程的不精确性。
- 概念错误:对数学定理、概念或问题本身的误解。
此外,人类注释者可能会忽略推理路径中不影响最终答案的小错误。这种方法关注实质性缺陷同时避免对无关紧要的错误进行惩罚,确保平衡的评估,从而更清楚地评估模型的推理能力和“假阳性”的普遍性。
最近的研究表明,为推理阶段分配额外的计算资源可以显著提高模型在数学任务中的性能(Snell,2024;Wu,2024)。然而,这些研究通常依赖于基于规则的评估方法,这可能会导致“假阳性”。为了调查“假阳性”是否也体现在推理扩展中,本节全面概述研究中使用的推理规模化方法。
将当前的推理规模化方法分为两类:解决方案-级的推理规模化和步骤-级的推理规模化。解决方案-级推理规模化是指大语言模型 (LLM) 在单个采样过程中生成完整推理路径的方法,使用奖励模型或启发式方法选择最优解决方案。相反,步骤-级推理规模化,一次得出一个推理步骤,通常由奖励模型或启发式值指导。
如图直观地表示这些方法:图中的数字表示 MCTS 的潜在多项式上置信度树 (PUCT)分数以及其他方法的过程奖励模型 (PRM) 或结果奖励模型 (ORM) 的可能奖励示例。对于 MCTS,该图描绘其第一次迭代。
解决方案-级的推理规模化
目前,最广泛使用的解决方案级推理规模化方法是 Best-of-N(Charniak & Johnson,2005;Pauls & Klein,2009)、自洽(Wang &,2022)和加权自洽(Li,2023)。这些方法已证明其在推理任务中的有效性(Cobbe,2021;Lightman,2023)。让 Y 表示大语言模型的输出空间,A 对应于答案空间,其中答案是从模型输出中提取的,v:Y → R 表示得分函数。
Best-of-N:Best-of-N 是一种简单但有效的重排序算法(Welleck,2024)。它首先生成 N 个候选解决方案,然后选择得分函数分配的最高得分。推理任务中的常见做法,是训练奖励模型来预测解决方案的正确性,并将其用作得分函数。
自洽性:自洽性是一种转换算法(Welleck,2024),基于这样的想法:正确的推理过程虽然各不相同,但往往收敛到同一个答案。该方法首先对 N 个候选推理路径进行采样,然后通过选择出现频率最高的路径来确定最终答案。
加权自洽性:加权自洽性结合奖励模型提供的分数来衡量候选解决方案,从而扩展自洽性。
步骤-级推理规模化
多样化验证器树搜索。多样化验证器树搜索(DVTS) (Beeching,2024),是步骤-级波束搜索 (Welleck,2022;Yao,2024) 的扩展,它将初始波束划分为独立的子树。DVTS 中的搜索过程由过程奖励模型 (PRM) 指导。此外,DVTS 结合前瞻步骤,以提高 PRM 在搜索过程每个步骤中的价值估计准确性。
DVTS 的详细细节可以在如下算法中找到:
蒙特卡洛树搜索
蒙特卡洛树搜索 (MCTS)(Browne,2012) 是一种旨在有效平衡探索和利用的树搜索算法。它在国际象棋、将棋和围棋等游戏领域取得显著的成功 (Silver,2016、2018)。最近的研究强调 MCTS 在大语言模型 (LLM) 推理中的潜力 (Hao,2023;Zhang,2024)。
在这项工作中,利用 Wang (2024a) 的原始 MCTS 实现,它包括四个主要步骤:选择、扩展、评估和反向传播。在选择阶段,原始 MCTS 采用 PUCT 算法 (Silver,2016) 的变型来选择子节点。在评估阶段,它利用过程奖励模型 (PRM) 来计算状态值。算法的每次迭代都会持续进行,直到获得完整的推理路径。
有关原始 MCTS 的更多详细信息,如下算法所示:
为了验证所提出的现象,在三个数学基准上进行实验:MATH(Hendrycks,2021)、AIME(Numina)、Omni-MATH(Gao,2024)。MATH 基准包括从高中数学竞赛中收集的问题。根据 Lightman(2023)的做法,使用 MATH500 作为测试集。AIME 基准包括来自 AIME22、AIME23 和 AIME24 的问题,共计 90 道题。Omni-MATH 是一个专为奥林匹克级数学推理而设计的极具挑战性基准,用 Omni-MATH-Rule(Gao,2024),这是一个适合基于规则的评估子集。为了进一步方便人工评估,从 MATH500 中随机选择 100 个问题,从 Omni-MATH-Rule 中随机选择 100 个问题,分别称为 MATH100 和 Omni-MATH100。
策略模型。选择开源的通用模型和数学模型作为基础,调查所提出的现象是否存在于这两种类型的模型中。具体而言,Llama-3.2-3B-Instruct、Llama-3.1-8B-Instruct 和 Llama-3.1-70B-Instruct (Dubey et al., 2024) 被选为通用模型的代表,而 Qwen2.5-Math-1.5B-Instruct、Qwen2.5-Math-7B-Instruct 和 Qwen2.5-Math-72B-Instruct (Yang et al., 2024) 则作为数学模型的代表。
奖励模型。实验同时利用结果奖励模型 (ORM) 和过程奖励模型 (PRM)。对于 ORM,采用在 Qwen2.5-Math 的后训练阶段训练的 Qwen2.5-Math-RM-72B (Yang et al., 2024),以确定解决方案-级推理规模化方法中的最佳模型响应。对于 PRM,利用 Skywork-o1-Open-PRM-Qwen-2.5-7B (o1 Team, 2024),它在 Qwen2.5-Math-7B-Instruct 上进行微调,并在各种模型和基准上表现出色,以指导 DVTS 或 MCTS 流程。
指标。主要使用三个指标来评估性能:自动准确率、误报率和手动准确率。自动准确率衡量通过应用基于规则的方法从模型的响应中提取最终答案并将其与真值进行比较而获得的准确率。采用与 Qwen2.5-Math (Yang et al., 2024) 相同的实现来计算自动准确率。假阳性率,定义为自动评估中“假阳性”与正确响应总数的比例。最后,通过人工评估确定手动准确率。它表示最终答案与真值相符且没有“假阳性”的模型响应比例。