AI Info Hub

PolicyBank 把组织政策约束整理成结构化、可迭代修正的工具级记忆，不再把含糊的自然语言规则当成不可更改真值，并在带有策略缺口的工具调用基准上显著缩小与人工 oracle 的差距。

这篇论文盯上的不是 agent 会不会调工具，而是它是否真的理解组织规则。现实里的权限、审批和合规要求往往写在自然语言政策里，本身就有歧义、遗漏和上下文依赖。PolicyBank 的做法，是把 agent 在预部署测试中遇到的纠错信号沉淀成结构化、工具级的政策记忆，让系统逐步修正自己对规则的解释，而不是把原始政策文本当成永远正确、永远不变的“圣经”。这件事值得关注，是因为它切中的正是 agent 落地时最容易翻车的一环。很多记忆机制默认只帮助模型记住事实或历史操作，但一旦政策文本本身存在 gap，agent 就可能持续做出“形式上合规、实际上违规”或者“看起来谨慎、实际上完成不了任务”的动作。论文里扩展了一个工具调用基准，专门把 policy gap 从执行失败里剥出来测试，结果显示现有方法在这类场景几乎失效，而 PolicyBank 能明显逼近人工 oracle 的表现。如果这条路线成立，它对后续 agent 平台和企业工具链的意义可能比单次 benchmark 提升更大。未来的 agent 系统可能需要内置一层可演化的政策理解模块，把权限规则、业务约束和纠错反馈纳入持续校准流程，而不是只靠 prompt 里塞一段长长的规范文本。对企业级 agent 来说，这种能力直接关系到能不能安全接入真实工作流。

PolicyBank 试图让 LLM Agent 在测试反馈中进化政策理解