AI Info Hub

ClawBench 把网页 agent 评测从沙盒拉到真实生产网站，覆盖购物、预约、申请等 153 个写操作任务。论文显示 7 个前沿模型整体通过率仍不高，说明通用网页代理距离可靠落地还有明显差距。

这篇论文把网页 Agent 评测往前推了一大步。作者没有继续停留在静态页面或封闭沙盒，而是搭了一个覆盖 144 个真实网站、15 个任务类别的评测框架，任务从购物、预约、表单填写到求职申请，核心都是真实用户每天会遇到的多步骤在线操作。为了避免真下单、真提交带来的副作用，ClawBench 只在最终提交请求前做拦截，但保留了前面几乎完整的真实交互链路。更值得关注的是，它测出来的结果并不乐观。论文评测了 7 个前沿模型，即便是表现最好的 Claude Sonnet 4.6，通过率也只有 33.3%。这说明当前 Agent 的短板已经不只是“会不会找信息”，而是能不能在动态网页、长流程、多表单和写操作场景里稳定把事情做完。对外界很热的通用数字助理叙事来说，这是一盆挺及时的冷水。如果这个方向继续扩展，它对后续 Agent 工具链和评测体系的影响会很直接。一方面，研究社区会更难再用封闭环境里的高分来代表真实可用性；另一方面，做浏览器代理、办公自动化和个人助理产品的团队，接下来大概率都得围绕真实网站鲁棒性、任务安全拦截和过程级验证来补课。换句话说，ClawBench 不只是多了一个 benchmark，而是在把“能演示”与“能交付”之间的差距量化出来。

ClawBench：144 个真实网站上的日常在线任务，前沿 AI Agent 完成率仍偏低