AI Info Hub · 用更短的时间看懂真正值得关注的 AI 更新
最新研究2026年4月20日 22:49阅读 0分享 0原始来源 PolicyBank 试图让 LLM Agent 在测试反馈中进化政策理解
PolicyBank 把组织政策约束整理成结构化、可迭代修正的工具级记忆,不再把含糊的自然语言规则当成不可更改真值,并在带有策略缺口的工具调用基准上显著缩小与人工 oracle 的差距。
这篇论文盯上的不是 agent 会不会调工具,而是它是否真的理解组织规则。现实里的权限、审批和合规要求往往写在自然语言政策里,本身就有歧义、遗漏和上下文依赖。PolicyBank 的做法,是把 agent 在预部署测试中遇到的纠错信号沉淀成结构化、工具级的政策记忆,让系统逐步修正自己对规则的解释,而不是把原始政策文本当成永远正确、永远不变的“圣经”。
这件事值得关注,是因为它切中的正是 agent 落地时最容易翻车的一环。很多记忆机制默认只帮助模型记住事实或历史操作,但一旦政策文本本身存在 gap,agent 就可能持续做出“形式上合规、实际上违规”或者“看起来谨慎、实际上完成不了任务”的动作。论文里扩展了一个工具调用基准,专门把 policy gap 从执行失败里剥出来测试,结果显示现有方法在这类场景几乎失效,而 PolicyBank 能明显逼近人工 oracle 的表现。
如果这条路线成立,它对后续 agent 平台和企业工具链的意义可能比单次 benchmark 提升更大。未来的 agent 系统可能需要内置一层可演化的政策理解模块,把权限规则、业务约束和纠错反馈纳入持续校准流程,而不是只靠 prompt 里塞一段长长的规范文本。对企业级 agent 来说,这种能力直接关系到能不能安全接入真实工作流。