AI Info Hub · 用更短的时间看懂真正值得关注的 AI 更新
最新研究2026年4月24日 16:23阅读 0分享 0原始来源 Tool Attention:给多工具 Agent 做一层动态工具门控
新论文提出 Dynamic Tool Gating 与 Lazy Schema Loading,只把少量高相关工具 schema 注入上下文,目标是显著压缩多工具 agent 的上下文负担,缓解 MCP 场景里的 token 成本和推理退化。
这篇论文盯上的不是模型参数本身, 而是 agent 系统里一个越来越现实的工程瓶颈, 也就是 MCP 或多工具工作流里每轮都要把大量工具 schema 塞进上下文, 导致 token 成本、KV cache 压力和推理质量一起上涨。作者提出的 Tool Attention 试图把这个问题前移到中间层处理, 先用语义匹配和状态约束筛掉大部分不相关工具, 再只为少数候选工具懒加载完整 schema, 而不是默认把整套工具说明一次性注入模型。
它的核心价值不在于又多做了一个 agent benchmark, 而在于把“工具选择”本身当作一个独立优化层来设计。论文里给出的模拟结果显示, 在 120 个工具、6 个服务器的设定下, 这种动态门控可以把每轮工具相关 token 大幅压缩, 让上下文预算更多留给真实任务。虽然其中任务成功率、延迟和成本改善有一部分仍属于基于 token 变化做出的投影, 但方向本身很清晰, 就是先解决协议层和上下文层的浪费, 再谈更大上下文和更复杂 agent。
这条路线值得关注, 因为它直接碰到了 agent 工具链接下来最容易爆炸的一环。随着 MCP、函数调用和多服务编排越来越重, 真正限制系统扩展的往往不是模型会不会调用工具, 而是工具一多以后上下文还能不能撑住。若这类门控和延迟加载机制被验证有效, 后续 agent 框架、MCP server 设计和工具注册方式都可能跟着变。