首页/最新研究/正文

AI Info Hub · 用更短的时间看懂真正值得关注的 AI 更新

最新研究2026年4月11日 16:14阅读 0分享 0原始来源

Claw-Eval:把 autonomous agents 的评测从结果导向推进到轨迹可审计

Claw-Eval 提出覆盖 300 个任务的 agent 评测框架,不只看最终答案,而是同时审计执行轨迹、日志和环境快照,用于衡量完成度、安全性与稳健性。

这篇工作想解决的其实是一个很现实的问题,今天不少 agent 基准仍然主要看“最后答对没有”,但对 agent 来说,真正重要的往往还包括它中间怎么搜、怎么调工具、有没有走偏、有没有踩安全线。Claw-Eval 把这件事系统化了,提出一套可审计执行流程的评测框架,不只记录最终输出,还同时保留执行轨迹、运行日志和环境快照,试图把完成度、安全性和稳健性放到同一套评测口径里。 从设计上看,Claw-Eval 一共覆盖 300 个任务,分成 General、Multimodal 和 Multi-turn Dialogue 三个维度,分别对应通用工作流、多模态交互以及多轮专业对话,进一步细分为 9 个类别。这个结构的意义在于,它不再把 agent 当成单轮问答模型来测,而是更接近真实使用里的“持续行动体”。论文披露的结果也很有代表性,多模态任务明显更难,支持视觉输入的模型里最高 Pass^3 只有 25.7%,而在 General 任务上最强模型可到 70.8%,说明目前 agent 在文本工具使用上的可靠性已经开始拉开差距,但一旦进入视觉感知和跨模态操作,短板仍然很明显。 这类研究值得关注,不只是因为它又多了一个 benchmark,而是它可能影响后面整条 agent 工具链的优化方向。过去很多团队优先卷模型最终答案,现在如果评测开始更强调过程证据、轨迹审计和鲁棒性,训练、工具设计、观测接口乃至安全策略都可能跟着调整。对做模型后训练、agent 框架和企业级自动化的人来说,Claw-Eval 更像是在补一块基础设施,帮助行业把“会不会做”逐步推进到“能不能稳定、可信地做”。