AI Info Hub

ETH Zurich 与海德堡大学团队提出 Process Reward Agents（PRA），把检索增强的过程奖励从事后打分改成推理时逐步打分，可在每一步筛掉差轨迹。作者称其在医疗推理任务上让冻结模型也能显著增益，并在 MedQA 上把 Qwen3-4B 推到 4B 级新 SOTA。

Process Reward Agents 这篇论文来自 ETH Zurich 和海德堡大学，想解决的是知识密集型推理里一个很麻烦的老问题：中间步骤往往不像数学题或代码那样能就地验对错，错一点点也可能一路传染到最终答案。作者的做法，是把过程奖励从“整条推理跑完后再打分”改成“推理进行中逐步打分”，让系统能在每一步就对候选轨迹做排序和裁剪。这个改动的价值在于，它不是再去微调一个更大的专用模型，而是给冻结的推理模型外挂一个面向领域知识的在线奖励模块。论文里，PRA 在多个医疗推理基准上都优于强基线，在 MedQA 上把 Qwen3-4B 做到 80.8% 准确率，作者称这是 4B 规模的新 SOTA，而且对 0.5B 到 8B 的其他冻结模型也能迁移增益。如果这个方向继续成立，它对后续 agent 系统很有启发。很多高风险场景真正缺的不是更长的思维链，而是能否在推理过程中及时发现“这条路越走越偏”。PRA 这种把基础模型和领域奖励解耦的设计，意味着以后医疗、金融、企业知识库这类场景，可能更适合围绕 verifier、reward module 和 search decoding 叠能力，而不是每次都从头重训整套模型。

Process Reward Agents：ETH Zurich 给知识密集型推理加上在线逐步奖励