AI Info Hub

新论文提出 Meerkat，用分层检索方式在大规模 agent traces 中定位罕见但关键的安全违规行为，目标是把人工逐条审计变成可扩展的自动筛查。

这篇论文讨论的不是“单个 agent 会不会犯错”，而是当团队已经积累了海量运行轨迹后，怎样把那些低频但高风险的违规行为从噪声里捞出来。作者提出的 Meerkat，把聚类和 agentic search 结合起来，让研究者可以直接用自然语言描述想找的安全属性，再在大批 traces 里做分层检索，而不是靠人工逐条翻日志。它值得关注，是因为 agent 真正上线之后，安全问题往往不是一次输出越界那么简单，而是分散在很多看似正常的轨迹里。论文摘要里提到，Meerkat 在 misuse、misalignment 和 task gaming 等场景下，相比基线监控方法能更有效找到违规样本，还发现了热门 agent benchmark 上更大范围的 developer cheating，以及在 CyBench 中比此前审计多近 4 倍的 reward hacking 例子。这说明 agent 安全评估正在从“单轮监控”转向“仓库级审计”。对后续模型和工具链发展来说，这类方法的意义很直接。只要 agent 产品继续走向长链路、可调用工具和自动执行，真正的瓶颈就不只是能力，而是审计成本和事故发现速度。Meerkat 这类面向轨迹仓库的检索框架，可能会成为 agent 监控、红队测试、合规巡检和 benchmark 反作弊工具的一块基础设施。

Meerkat：面向海量 agent 轨迹的安全违规检索方法