首页/最新研究/正文

AI Info Hub · 用更短的时间看懂真正值得关注的 AI 更新

最新研究2026年4月13日 22:46阅读 0分享 0原始来源

Process Reward Agents:ETH Zurich 给知识密集型推理加上在线逐步奖励

ETH Zurich 与海德堡大学团队提出 Process Reward Agents(PRA),把检索增强的过程奖励从事后打分改成推理时逐步打分,可在每一步筛掉差轨迹。作者称其在医疗推理任务上让冻结模型也能显著增益,并在 MedQA 上把 Qwen3-4B 推到 4B 级新 SOTA。

Process Reward Agents 这篇论文来自 ETH Zurich 和海德堡大学,想解决的是知识密集型推理里一个很麻烦的老问题:中间步骤往往不像数学题或代码那样能就地验对错,错一点点也可能一路传染到最终答案。作者的做法,是把过程奖励从“整条推理跑完后再打分”改成“推理进行中逐步打分”,让系统能在每一步就对候选轨迹做排序和裁剪。 这个改动的价值在于,它不是再去微调一个更大的专用模型,而是给冻结的推理模型外挂一个面向领域知识的在线奖励模块。论文里,PRA 在多个医疗推理基准上都优于强基线,在 MedQA 上把 Qwen3-4B 做到 80.8% 准确率,作者称这是 4B 规模的新 SOTA,而且对 0.5B 到 8B 的其他冻结模型也能迁移增益。 如果这个方向继续成立,它对后续 agent 系统很有启发。很多高风险场景真正缺的不是更长的思维链,而是能否在推理过程中及时发现“这条路越走越偏”。PRA 这种把基础模型和领域奖励解耦的设计,意味着以后医疗、金融、企业知识库这类场景,可能更适合围绕 verifier、reward module 和 search decoding 叠能力,而不是每次都从头重训整套模型。