AI Info Hub

这篇新论文提出 SUPERNOVA，用自然指令数据系统化构造可验证奖励训练样本，试图把 RLVR 的增益从数学、代码扩展到因果、时序等更通用的推理任务。对后续小模型强化推理和通用 reasoning 数据配方都有参考价值。

过去一轮强化学习驱动的大模型推理进展，主要还是吃到了数学题和代码题这类“答案容易验证”的红利。SUPERNOVA 想解决的正是这个边界问题：如果把 RLVR 继续推向更通用的推理任务，训练数据该从哪里来，又该怎么筛。作者的做法不是再去人工堆一批新题，而是回到现成的自然指令数据里，研究哪些任务能被改造成可验证奖励的样本，并系统比较不同数据设计对下游推理能力的影响。这件事值得注意，是因为它把“推理增强”从单纯拼难题、拼算力，往更像数据工程和训练配方的问题上推进了一步。论文里做了 100 多组受控实验，关注的不只是数学或代码分数，而是因果推断、时序理解这类更贴近真实 agent 和通用助手场景的 reasoning 能力。换句话说，SUPERNOVA 不是在证明 RLVR 还能继续涨分，而是在回答怎样的数据选择和混配，才更可能把强化学习带来的收益迁移到更广的任务面上。如果这个方向继续成立，它对后续模型和 agent 工具链都会有实际影响。一方面，行业会更重视“可验证但不局限于 STEM”的训练数据构造方法，小模型也有机会靠更好的 RL 配方逼近更强的通用推理表现；另一方面，它也提醒大家，下一阶段的竞争点未必只是更大的基础模型，而是谁能更稳定地把自然任务改造成可训练、可评估、可复用的 reasoning 数据资产。

SUPERNOVA：把 RLVR 从数学代码扩到通用推理的自然指令数据框架