AI Info Hub · 用更短的时间看懂真正值得关注的 AI 更新
最新研究 2026年4月13日 09:48 阅读 1 分享 0原始来源 Many-Tier Instruction Hierarchy in LLM Agents 一篇来自 Daniel Khashabi、Benjamin Van Durme 团队的新论文提出把 agent 的指令优先级从固定少层级扩展为可细粒度伸缩的多层体系,目标是让系统提示、开发者约束、工具输出与外部内容在冲突时更稳定地执行高权限指令。对 agent 安全、提示注入防御和复杂工具链编排都有直接意义。
这篇论文关注的是一个越来越现实的问题,LLM agent 在真实环境里并不只接收“系统提示”和“用户提示”两层指令,还会同时受到开发者约束、工具返回、检索内容、网页注入信息甚至多代理协作消息的影响。作者认为,现有 instruction hierarchy 往往只假设少数固定层级,已经不足以覆盖复杂 agent 工作流里的权限冲突,因此提出 many-tier 的指令层级框架,让模型在面对来源众多、可信度不同的指令时,能更细致地区分“谁应该优先被听从”。
它值得关注,不只是因为这是个安全问题,更因为它直接碰到 agent 可用性的天花板。现在很多 prompt injection、防误执行、防数据外泄方案,本质上都依赖模型能否稳定理解指令权限边界。如果层级过粗,模型容易在高优先级规则和外部上下文之间摇摆,轻则任务跑偏,重则被工具链或网页内容带偏。many-tier 的思路,相当于把这套权限判断从“几个硬编码角色”推进到更接近操作系统权限模型的细粒度治理,这对浏览器 agent、代码 agent 和企业内部多工具自动化都很关键。
如果这条路线后续被更多团队采纳,它可能影响两类工作。一类是模型训练与对齐,未来 instruction hierarchy 可能不再是附加 safety patch,而会成为 agent 基座能力的一部分;另一类是 agent 框架设计,开发者需要把工具、记忆、外部文档和用户命令显式映射到更清晰的权限层。对整个 agent 生态来说,这篇论文的意义在于,它把“提示词工程问题”进一步改写成了“权限与执行控制问题”。 分享这篇