AI Info Hub

新论文提出 Function Hijacking Attack，声称可在与语义弱相关的情况下强行劫持 agent 的工具选择流程，并在 BFCL 数据集上对 5 类模型打出 70% 到 100% 攻击成功率，直接击中 MCP 和函数调用栈的安全短板。

这篇论文瞄准的是 agent 系统里一个很现实、但过去没被讲透的风险点，也就是模型在决定“该调用哪个工具”时，本身就可能被攻击者操纵。作者提出的 Function Hijacking Attack 不是单纯继续做提示注入，而是试图让模型在工具选择阶段偏向攻击者预设的函数，即便这个函数和当前任务语义并不天然匹配。换句话说，问题不只是模型会不会被一句恶意提示带偏，而是整个函数调用接口本身可能成为新的控制入口。它值得关注，是因为 MCP、函数调用和 agent 工作流这两年正在快速变成主流基础设施，很多团队默认把重点放在工具能力扩展、上下文编排和执行可靠性上，安全假设却还停留在“防 prompt injection”这一层。论文里给出的实验声称，在 BFCL 数据集和 5 类模型上，这类攻击可以达到 70% 到 100% 的成功率，而且作者还强调这种方法对具体语义上下文不太敏感，甚至可以训练出更通用的对抗函数。这意味着未来真正需要防守的，不只是用户输入和网页内容，还包括工具注册方式、函数描述、选择策略和执行前校验。如果这类结果后续被更多团队复现，它对 agent 工具链的影响会非常直接。MCP server、函数调用 API 和各类 agent 框架，可能都得补上更严格的工具级权限控制、选择审计和调用前验证层，而不是把安全责任全部推给底层大模型。对行业来说，这篇论文释放的信号很明确，agent 的下一轮竞争不只是“能调多少工具”，还包括“在复杂工具环境里能不能安全地调工具”。

Breaking MCP：新论文把 agent 工具调用攻击面直接打到函数选择层