AI Info Hub · 用更短的时间看懂真正值得关注的 AI 更新
最新研究2026年4月25日 09:49阅读 0分享 0原始来源 Breaking MCP:新论文把 agent 工具调用攻击面直接打到函数选择层
新论文提出 Function Hijacking Attack,声称可在与语义弱相关的情况下强行劫持 agent 的工具选择流程,并在 BFCL 数据集上对 5 类模型打出 70% 到 100% 攻击成功率,直接击中 MCP 和函数调用栈的安全短板。
这篇论文瞄准的是 agent 系统里一个很现实、但过去没被讲透的风险点,也就是模型在决定“该调用哪个工具”时,本身就可能被攻击者操纵。作者提出的 Function Hijacking Attack 不是单纯继续做提示注入,而是试图让模型在工具选择阶段偏向攻击者预设的函数,即便这个函数和当前任务语义并不天然匹配。换句话说,问题不只是模型会不会被一句恶意提示带偏,而是整个函数调用接口本身可能成为新的控制入口。
它值得关注,是因为 MCP、函数调用和 agent 工作流这两年正在快速变成主流基础设施,很多团队默认把重点放在工具能力扩展、上下文编排和执行可靠性上,安全假设却还停留在“防 prompt injection”这一层。论文里给出的实验声称,在 BFCL 数据集和 5 类模型上,这类攻击可以达到 70% 到 100% 的成功率,而且作者还强调这种方法对具体语义上下文不太敏感,甚至可以训练出更通用的对抗函数。这意味着未来真正需要防守的,不只是用户输入和网页内容,还包括工具注册方式、函数描述、选择策略和执行前校验。
如果这类结果后续被更多团队复现,它对 agent 工具链的影响会非常直接。MCP server、函数调用 API 和各类 agent 框架,可能都得补上更严格的工具级权限控制、选择审计和调用前验证层,而不是把安全责任全部推给底层大模型。对行业来说,这篇论文释放的信号很明确,agent 的下一轮竞争不只是“能调多少工具”,还包括“在复杂工具环境里能不能安全地调工具”。