AI Info Hub

一篇来自 Daniel Khashabi、Benjamin Van Durme 团队的新论文提出把 agent 的指令优先级从固定少层级扩展为可细粒度伸缩的多层体系，目标是让系统提示、开发者约束、工具输出与外部内容在冲突时更稳定地执行高权限指令。对 agent 安全、提示注入防御和复杂工具链编排都有直接意义。

这篇论文关注的是一个越来越现实的问题，LLM agent 在真实环境里并不只接收“系统提示”和“用户提示”两层指令，还会同时受到开发者约束、工具返回、检索内容、网页注入信息甚至多代理协作消息的影响。作者认为，现有 instruction hierarchy 往往只假设少数固定层级，已经不足以覆盖复杂 agent 工作流里的权限冲突，因此提出 many-tier 的指令层级框架，让模型在面对来源众多、可信度不同的指令时，能更细致地区分“谁应该优先被听从”。它值得关注，不只是因为这是个安全问题，更因为它直接碰到 agent 可用性的天花板。现在很多 prompt injection、防误执行、防数据外泄方案，本质上都依赖模型能否稳定理解指令权限边界。如果层级过粗，模型容易在高优先级规则和外部上下文之间摇摆，轻则任务跑偏，重则被工具链或网页内容带偏。many-tier 的思路，相当于把这套权限判断从“几个硬编码角色”推进到更接近操作系统权限模型的细粒度治理，这对浏览器 agent、代码 agent 和企业内部多工具自动化都很关键。如果这条路线后续被更多团队采纳，它可能影响两类工作。一类是模型训练与对齐，未来 instruction hierarchy 可能不再是附加 safety patch，而会成为 agent 基座能力的一部分；另一类是 agent 框架设计，开发者需要把工具、记忆、外部文档和用户命令显式映射到更清晰的权限层。对整个 agent 生态来说，这篇论文的意义在于，它把“提示词工程问题”进一步改写成了“权限与执行控制问题”。

Many-Tier Instruction Hierarchy in LLM Agents