AI Info Hub · 用更短的时间看懂真正值得关注的 AI 更新
Process Reward Agents:ETH Zurich 给知识密集型推理加上在线逐步奖励
ETH Zurich 与海德堡大学团队提出 Process Reward Agents(PRA),把检索增强的过程奖励从事后打分改成推理时逐步打分,可在每一步筛掉差轨迹。作者称其在医疗推理任务上让冻结模型也能显著增益,并在 MedQA 上把 Qwen3-4B 推到 4B 级新 SOTA。
AI Info Hub · 用更短的时间看懂真正值得关注的 AI 更新
ETH Zurich 与海德堡大学团队提出 Process Reward Agents(PRA),把检索增强的过程奖励从事后打分改成推理时逐步打分,可在每一步筛掉差轨迹。作者称其在医疗推理任务上让冻结模型也能显著增益,并在 MedQA 上把 Qwen3-4B 推到 4B 级新 SOTA。