AI Info Hub · 用更短的时间看懂真正值得关注的 AI 更新
最新研究2026年4月10日 16:18阅读 1分享 0原始来源 ClawBench:144 个真实网站上的日常在线任务,前沿 AI Agent 完成率仍偏低
ClawBench 把网页 agent 评测从沙盒拉到真实生产网站,覆盖购物、预约、申请等 153 个写操作任务。论文显示 7 个前沿模型整体通过率仍不高,说明通用网页代理距离可靠落地还有明显差距。
这篇论文把网页 Agent 评测往前推了一大步。作者没有继续停留在静态页面或封闭沙盒,而是搭了一个覆盖 144 个真实网站、15 个任务类别的评测框架,任务从购物、预约、表单填写到求职申请,核心都是真实用户每天会遇到的多步骤在线操作。为了避免真下单、真提交带来的副作用,ClawBench 只在最终提交请求前做拦截,但保留了前面几乎完整的真实交互链路。
更值得关注的是,它测出来的结果并不乐观。论文评测了 7 个前沿模型,即便是表现最好的 Claude Sonnet 4.6,通过率也只有 33.3%。这说明当前 Agent 的短板已经不只是“会不会找信息”,而是能不能在动态网页、长流程、多表单和写操作场景里稳定把事情做完。对外界很热的通用数字助理叙事来说,这是一盆挺及时的冷水。
如果这个方向继续扩展,它对后续 Agent 工具链和评测体系的影响会很直接。一方面,研究社区会更难再用封闭环境里的高分来代表真实可用性;另一方面,做浏览器代理、办公自动化和个人助理产品的团队,接下来大概率都得围绕真实网站鲁棒性、任务安全拦截和过程级验证来补课。换句话说,ClawBench 不只是多了一个 benchmark,而是在把“能演示”与“能交付”之间的差距量化出来。