AI Info Hub · 用更短的时间看懂真正值得关注的 AI 更新
最新研究2026年4月21日 22:49阅读 0分享 0原始来源 GTA-2:把通用工具代理评测扩展到真实长流程工作流
GTA-2 把工具代理评测从原子级工具调用扩展到开放式长流程工作流,使用真实用户查询、真实部署工具和多模态上下文,并提出递归检查点评估;实验显示顶级模型在工作流任务上的成功率仅 14.39%。
这篇工作想解决的是 agent 研究里一个很实际的问题,很多工具调用 benchmark 评到的其实只是短步骤、封闭式的小任务,离真实办公和个人助理场景还差得很远。GTA-2 把评测拆成两个层级,一层是延续原有 benchmark 的原子级工具调用准确性,另一层则是更接近真实使用的开放式工作流任务,数据来源也从合成提示转向真实用户查询、真实部署工具和多模态上下文。
更有意思的是它的评估设计。面对开放式工作流很难直接打分的问题,作者提出递归式 checkpoint 评估,把最终目标拆成一串可验证的子目标,同时把模型能力和执行框架能力一起纳入考察。结果并不乐观,论文里提到顶级模型在 workflow 任务上的成功率只有 14.39%,说明即便单轮推理和单步调工具已经进步很快,距离稳定完成长流程任务仍有明显断层。
这也是 GTA-2 值得进入“最新研究”栏目的原因。它提供的不只是一个新榜单,而是把 agent 领域的关注点从“模型会不会调工具”推进到“整套系统能不能把事情做完”。对后续模型后训练、执行 harness、反馈循环和任务分解方法来说,这类 benchmark 很可能会变成更重要的北极星,因为它更接近企业自动化和个人 AI 助理真正要面对的工作负载。