AI Info Hub

论文《Act Wisely》提出 HDPO，把工具效率从与准确率竞争的单一奖励里拆出来，只在正确轨迹上约束工具调用。作者称据此训练出的 Metis 能在提升推理准确率的同时，把工具调用次数降到原来的数量级以下。

这篇论文盯住了一个很现实、但常被 RL 指标掩盖的问题，多模态 Agent 明明能直接从当前视觉上下文或内部知识里回答，却还是会条件反射式地去调工具。表面上看这只是多绕了一步，实际会把延迟、额外噪声和错误链路一起带进推理过程，最后让 Agent 看起来更忙，却不一定更聪明。作者提出的 HDPO，核心是把“做对任务”和“少调工具”从一个混在一起的标量奖励里拆开。它不再粗暴地给工具调用统一扣分，而是先让模型把任务做对，再只在正确轨迹上优化调用效率。按照论文描述，这种条件式优化能避免旧方案里常见的两难，惩罚太重会压制必要调用，惩罚太轻又会被准确率奖励的波动吞掉。如果这个思路后续被更多 Agent 训练流程吸收，影响可能不只是省几次 API 调用，而是让工具使用从“默认乱试”变成更接近策略决策的一层能力。对接下来做浏览器 Agent、工具链编排和多模态助手的人来说，这类方法的价值在于，它开始正面回答一个关键问题，Agent 不是会不会调工具，而是什么时候该忍住不调。

HDPO 试图解决多模态 Agent 的盲目调工具问题