AI Info Hub

Claw-Eval 提出覆盖 300 个任务的 agent 评测框架，不只看最终答案，而是同时审计执行轨迹、日志和环境快照，用于衡量完成度、安全性与稳健性。

这篇工作想解决的其实是一个很现实的问题，今天不少 agent 基准仍然主要看“最后答对没有”，但对 agent 来说，真正重要的往往还包括它中间怎么搜、怎么调工具、有没有走偏、有没有踩安全线。Claw-Eval 把这件事系统化了，提出一套可审计执行流程的评测框架，不只记录最终输出，还同时保留执行轨迹、运行日志和环境快照，试图把完成度、安全性和稳健性放到同一套评测口径里。从设计上看，Claw-Eval 一共覆盖 300 个任务，分成 General、Multimodal 和 Multi-turn Dialogue 三个维度，分别对应通用工作流、多模态交互以及多轮专业对话，进一步细分为 9 个类别。这个结构的意义在于，它不再把 agent 当成单轮问答模型来测，而是更接近真实使用里的“持续行动体”。论文披露的结果也很有代表性，多模态任务明显更难，支持视觉输入的模型里最高 Pass^3 只有 25.7%，而在 General 任务上最强模型可到 70.8%，说明目前 agent 在文本工具使用上的可靠性已经开始拉开差距，但一旦进入视觉感知和跨模态操作，短板仍然很明显。这类研究值得关注，不只是因为它又多了一个 benchmark，而是它可能影响后面整条 agent 工具链的优化方向。过去很多团队优先卷模型最终答案，现在如果评测开始更强调过程证据、轨迹审计和鲁棒性，训练、工具设计、观测接口乃至安全策略都可能跟着调整。对做模型后训练、agent 框架和企业级自动化的人来说，Claw-Eval 更像是在补一块基础设施，帮助行业把“会不会做”逐步推进到“能不能稳定、可信地做”。

Claw-Eval：把 autonomous agents 的评测从结果导向推进到轨迹可审计