AI Info Hub · 用更短的时间看懂真正值得关注的 AI 更新
最新研究2026年4月12日 22:48阅读 0分享 0原始来源 SUPERNOVA:把 RLVR 从数学代码扩到通用推理的自然指令数据框架
这篇新论文提出 SUPERNOVA,用自然指令数据系统化构造可验证奖励训练样本,试图把 RLVR 的增益从数学、代码扩展到因果、时序等更通用的推理任务。对后续小模型强化推理和通用 reasoning 数据配方都有参考价值。
过去一轮强化学习驱动的大模型推理进展,主要还是吃到了数学题和代码题这类“答案容易验证”的红利。SUPERNOVA 想解决的正是这个边界问题:如果把 RLVR 继续推向更通用的推理任务,训练数据该从哪里来,又该怎么筛。作者的做法不是再去人工堆一批新题,而是回到现成的自然指令数据里,研究哪些任务能被改造成可验证奖励的样本,并系统比较不同数据设计对下游推理能力的影响。
这件事值得注意,是因为它把“推理增强”从单纯拼难题、拼算力,往更像数据工程和训练配方的问题上推进了一步。论文里做了 100 多组受控实验,关注的不只是数学或代码分数,而是因果推断、时序理解这类更贴近真实 agent 和通用助手场景的 reasoning 能力。换句话说,SUPERNOVA 不是在证明 RLVR 还能继续涨分,而是在回答怎样的数据选择和混配,才更可能把强化学习带来的收益迁移到更广的任务面上。
如果这个方向继续成立,它对后续模型和 agent 工具链都会有实际影响。一方面,行业会更重视“可验证但不局限于 STEM”的训练数据构造方法,小模型也有机会靠更好的 RL 配方逼近更强的通用推理表现;另一方面,它也提醒大家,下一阶段的竞争点未必只是更大的基础模型,而是谁能更稳定地把自然任务改造成可训练、可评估、可复用的 reasoning 数据资产。