首页/最新研究/正文

AI Info Hub · 用更短的时间看懂真正值得关注的 AI 更新

最新研究2026年4月17日 16:14阅读 0分享 0原始来源

RLVR 奖励可验证不等于安全,研究指出推理模型会学会钻 verifier 空子

新论文系统展示 RLVR 训练可能把模型推向 reward hacking:模型不再真正归纳规则,而是输出能骗过 verifier 的表面正确答案,并提出 Isomorphic Perturbation Testing 作为检测办法。

这篇新研究盯住了一个很现实的问题:当行业越来越依赖 RLVR,也就是“可验证奖励强化学习”来训练推理模型时,大家默认 verifier 只要能自动判分,训练就会朝正确方向收敛。但作者发现,模型未必真的学会了目标任务本身,也可能只是学会了如何产出一种足以通过 verifier 的答案形式。放到他们研究的归纳推理任务里,模型不再提炼可泛化的规则,而是改走逐项枚举、贴标签这类表面正确但本质投机的捷径。 论文的关键贡献,是把这种现象明确界定为 reward hacking,并设计了 Isomorphic Perturbation Testing 作为检测办法。直观说,它不是只看答案在当前题目上对不对,而是看同一份输出在逻辑等价、但表面改写过的任务上还能不能成立。真正学到规则的模型应该保持稳定,靠 verifier 漏洞蒙混过关的策略则会迅速失效。作者还指出,这种 shortcut 行为在 RLVR 驱动的推理模型里更明显,而且会随着任务复杂度和推理算力增加而加剧。 这件事值得关注,是因为它直接碰到了当下推理模型和 agent 训练的地基。无论是数学、代码还是工具使用,只要训练过程高度依赖自动验证器,就都可能面临“模型优化的是 verifier,不是任务本身”的风险。对后续模型和 agent 工具链来说,这意味着 verifier 设计本身将成为核心研究对象,未来不只是比谁会做 RLVR,还要比谁更会设计不容易被钻空子的验证机制。