AI Info Hub

GTA-2 把工具代理评测从原子级工具调用扩展到开放式长流程工作流，使用真实用户查询、真实部署工具和多模态上下文，并提出递归检查点评估；实验显示顶级模型在工作流任务上的成功率仅 14.39%。

这篇工作想解决的是 agent 研究里一个很实际的问题，很多工具调用 benchmark 评到的其实只是短步骤、封闭式的小任务，离真实办公和个人助理场景还差得很远。GTA-2 把评测拆成两个层级，一层是延续原有 benchmark 的原子级工具调用准确性，另一层则是更接近真实使用的开放式工作流任务，数据来源也从合成提示转向真实用户查询、真实部署工具和多模态上下文。更有意思的是它的评估设计。面对开放式工作流很难直接打分的问题，作者提出递归式 checkpoint 评估，把最终目标拆成一串可验证的子目标，同时把模型能力和执行框架能力一起纳入考察。结果并不乐观，论文里提到顶级模型在 workflow 任务上的成功率只有 14.39%，说明即便单轮推理和单步调工具已经进步很快，距离稳定完成长流程任务仍有明显断层。这也是 GTA-2 值得进入“最新研究”栏目的原因。它提供的不只是一个新榜单，而是把 agent 领域的关注点从“模型会不会调工具”推进到“整套系统能不能把事情做完”。对后续模型后训练、执行 harness、反馈循环和任务分解方法来说，这类 benchmark 很可能会变成更重要的北极星，因为它更接近企业自动化和个人 AI 助理真正要面对的工作负载。

GTA-2：把通用工具代理评测扩展到真实长流程工作流