首页/最新研究/正文

AI Info Hub · 用更短的时间看懂真正值得关注的 AI 更新

最新研究2026年4月11日 09:47阅读 0分享 0原始来源

HDPO 试图解决多模态 Agent 的盲目调工具问题

论文《Act Wisely》提出 HDPO,把工具效率从与准确率竞争的单一奖励里拆出来,只在正确轨迹上约束工具调用。作者称据此训练出的 Metis 能在提升推理准确率的同时,把工具调用次数降到原来的数量级以下。

这篇论文盯住了一个很现实、但常被 RL 指标掩盖的问题,多模态 Agent 明明能直接从当前视觉上下文或内部知识里回答,却还是会条件反射式地去调工具。表面上看这只是多绕了一步,实际会把延迟、额外噪声和错误链路一起带进推理过程,最后让 Agent 看起来更忙,却不一定更聪明。 作者提出的 HDPO,核心是把“做对任务”和“少调工具”从一个混在一起的标量奖励里拆开。它不再粗暴地给工具调用统一扣分,而是先让模型把任务做对,再只在正确轨迹上优化调用效率。按照论文描述,这种条件式优化能避免旧方案里常见的两难,惩罚太重会压制必要调用,惩罚太轻又会被准确率奖励的波动吞掉。 如果这个思路后续被更多 Agent 训练流程吸收,影响可能不只是省几次 API 调用,而是让工具使用从“默认乱试”变成更接近策略决策的一层能力。对接下来做浏览器 Agent、工具链编排和多模态助手的人来说,这类方法的价值在于,它开始正面回答一个关键问题,Agent 不是会不会调工具,而是什么时候该忍住不调。