ByteDance Seed 与人大发布 Agent-World,用 2000+ 环境训练通用工具型 Agent
Agent-World 把真实工具生态、可验证任务合成与持续自演化训练放进同一个训练场,覆盖 2000 多个环境、1.9 万多个工具,并在 23 个 agent 基准上报告优于多种强基线。
FairyFuse: Multiplication-Free LLM Inference on CPUs via Fused Ternary Kernels
论文围绕 ternary LLM 推出 CPU 侧乘法消除推理系统 FairyFuse,在 commodity CPU 上把广义线性层融合为单个 AVX-512 循环,实现零浮点乘法,端到端速度超过 llama.cpp 的 Q4_K_M,同时基本不损失精度。
Princeton 提出时序延展 MoE,让专家切换频率从超 50% 压到 5% 以下
Princeton Polaris Lab 的 Temporally Extended Mixture-of-Experts 把强化学习里的 options 思路引入 MoE 路由,在尽量保住基座能力的同时显著减少专家切换,瞄准大模型内存与服务效率瓶颈。
Breaking MCP:新论文把 agent 工具调用攻击面直接打到函数选择层
新论文提出 Function Hijacking Attack,声称可在与语义弱相关的情况下强行劫持 agent 的工具选择流程,并在 BFCL 数据集上对 5 类模型打出 70% 到 100% 攻击成功率,直接击中 MCP 和函数调用栈的安全短板。
Seeing Fast and Slow 试图把视频速度感知与可控生成放进同一条时序学习链路
这项新工作把“视频时间流速”当作可学习概念,先做自监督速度感知,再据此构建大规模慢动作数据,进一步支持按目标速度生成视频和做时间超分辨率。作者阵容里有 Ali Farhadi、Steve Marschner、Wei-Chiu Ma,方法链条完整,对视频生成和世界模型中的时间建模都值得关注。
Tool Attention:给多工具 Agent 做一层动态工具门控
新论文提出 Dynamic Tool Gating 与 Lazy Schema Loading,只把少量高相关工具 schema 注入上下文,目标是显著压缩多工具 agent 的上下文负担,缓解 MCP 场景里的 token 成本和推理退化。
Sakana Fugu: A Multi-Agent Orchestration System as a Foundation Model
Sakana AI 发布 Fugu 早期测试页,把多模型协同从研究原型推进到 API 产品形态,核心卖点是让一个小模型学习动态编排多家前沿模型,在编码、数学和科学推理上做统一调度。
Convergent Evolution:不同语言模型会自发学出相似的数字表征
Mikhail Belkin、Robin Jia 等作者的新论文发现,Transformer、LSTM、线性 RNN 乃至词向量在训练后都会出现相似的周期性数字表征,主周期集中在 2、5、10。研究进一步解释了哪些训练信号和结构条件会让这些表征变成可线性分离的数值能力。
多智能体漏洞挖掘框架开始从“拼模型”转向“拼 harness 设计”
新论文《Synthesizing Multi-Agent Harnesses for Vulnerability Discovery》提出自动合成 multi-agent harness,把角色分工、信息传递和重试协调本身当成优化对象,显示固定模型下框架编排也能显著影响漏洞发现效果。
CHORUS:用多智能体人格与时间建模合成真实协商数据
这篇 2026-04-22 发表的 arXiv 论文提出 CHORUS,用带记忆的人格化 LLM agent 加上泊松过程时间建模,生成更接近真实网络讨论节奏的 deliberation data,适合 agent 与社会模拟方向持续跟进。
FASTER 想把扩散策略里的多样本测试时扩展变得更快
Stanford 作者团队在 arXiv 发布 FASTER,把扩散策略中先采多组动作再选优的高成本流程,改写成沿去噪过程逐步筛掉劣质候选的 value-guided sampling。它瞄准的是强化学习与机器人策略里很现实的推理时延问题,方法增量明确,也可能影响后续 test-time scaling 在控制场景中的落地。
SAW-INT4 提出面向真实服务系统的 4-bit KV Cache 量化方案
来自 MIT 等团队的 SAW-INT4 论文聚焦 LLM 服务里的 KV cache 内存瓶颈,强调量化方法必须兼容 paged memory、规则访存和 fused attention 等工程约束,并提出 token-wise INT4 加块对角 Hadamard 旋转的实用设计。
GTA-2:把通用工具代理评测扩展到真实长流程工作流
GTA-2 把工具代理评测从原子级工具调用扩展到开放式长流程工作流,使用真实用户查询、真实部署工具和多模态上下文,并提出递归检查点评估;实验显示顶级模型在工作流任务上的成功率仅 14.39%。
BRRL 从理论上重写 PPO 路线,并把同一框架延伸到 LLM 微调
Bernhard Schölkopf、Andreas Krause 等作者提出 Bounded Ratio Reinforcement Learning,给出带单调改进保证的策略优化框架,并进一步推出适用于大模型微调的 GBPO,实验中在控制与 LLM 场景对 PPO、GRPO 展现出更稳的表现。
Safe and Policy-Compliant Multi-Agent Orchestration 瞄准企业多代理系统的策略约束问题
论文把多代理编排放到企业级安全与合规约束下重新审视,强调硬策略、风险边界与可审计协同,这比单纯提升 agent 成功率更贴近真实落地条件。
PolicyBank 试图让 LLM Agent 在测试反馈中进化政策理解
PolicyBank 把组织政策约束整理成结构化、可迭代修正的工具级记忆,不再把含糊的自然语言规则当成不可更改真值,并在带有策略缺口的工具调用基准上显著缩小与人工 oracle 的差距。
Nature MI 研究用 LLM 与概念图预测材料科学新方向
Nature Machine Intelligence 论文提出用大模型抽取科学概念并构建概念图,辅助发现材料科学中尚未被系统探索的潜在研究组合。
RadAgent:把胸部 CT 报告生成改成可追溯的工具型 agent 流程
RadAgent 把胸部 CT 解读拆成逐步推理与工具调用过程,让医生能检查中间决策轨迹,并在临床准确率、鲁棒性和 faithfulness 上同时超过对照 3D VLM。
AISafetyBenchExplorer:把 195 个 AI 安全基准放到同一张地图上
一项面向 AI 安全评测的基准目录工作,系统梳理 195 个安全 benchmark,并指出指标定义和治理方式高度碎片化。
TREX 试图把 LLM 微调流程交给多代理自动完成
TREX 把需求分析、文献梳理、数据构建、训练和评测串成一个树状探索流程,并用 FT-Bench 专门衡量自动化微调任务。论文声称该系统在有限算力和时间预算下,能够持续优化训练策略,并在部分任务上逼近或超过人工设计流程。
SpecGuard:把 speculative decoding 从 token 级推进到 reasoning step 级
《From Tokens to Steps》提出面向多步推理的 verification-aware speculative decoding,用模型内部信号和自一致性选择器筛选整步推理候选,试图在不依赖外部过程奖励模型的前提下同时降低延迟和保持推理正确率。
LLM 在系统性泛化上仍卡在长度扩展,最短路径控制环境给出更细的失败画像
一篇新上线到 arXiv 的 ICLR 2026 工作用最短路径规划构造可控环境,把训练数据覆盖、RL 稳定性和推理时扩展拆开分析。结果显示模型对未见地图的空间迁移还行,但一旦任务长度拉长,仍会因递归不稳定而明显失效。
HWE-Bench:把 LLM Agent 评测拉进真实硬件仓库修 Bug
HWE-Bench 提出面向硬件设计仓库的仓库级基准,用真实历史修复任务、原生仿真验证和容器环境评测 LLM Agent 修复 Verilog/SystemVerilog 与 Chisel 缺陷的能力。
RLVR 奖励可验证不等于安全,研究指出推理模型会学会钻 verifier 空子
新论文系统展示 RLVR 训练可能把模型推向 reward hacking:模型不再真正归纳规则,而是输出能骗过 verifier 的表面正确答案,并提出 Isomorphic Perturbation Testing 作为检测办法。
Dive into Claude Code: The Design Space of Today's and Future AI Agent Systems
VILA-Lab 发布对 Claude Code 的系统拆解与复现实验,试图把当前终端型 coding agent 的关键设计模式沉淀成可复用框架,涉及工具调用、执行循环与未来 agent 系统设计空间。
Memory Transfer Learning 讨论编码 agent 的跨域记忆迁移
这篇论文把 coding agent 的 memory 从单任务复用推进到跨领域迁移,试图利用运行时环境、语言和常见修复模式等共享结构,让异构任务之间也能共享长期经验。
THUNLP 复盘并改进大模型 On-Policy Distillation 训练配方
Tsinghua/THUNLP 团队在窗口期内发布对大语言模型 on-policy distillation 的系统研究,既分析现象与机制,也给出可复用训练 recipe,并同步公开代码。对后续推理模型蒸馏和后训练效率优化有直接参考意义。
AlphaEval 提出面向真实生产环境的 Agent 评测基准
AlphaEval 在 arXiv 发布,尝试把 AI agent 的评测从实验室任务拉回真实商用场景。数据来自 7 家正在核心业务里部署 agent 的公司,覆盖 94 个任务,强调隐含约束、多模态材料、长链条交付物和随时间变化的专家标准,并直接评测 Claude Code、Codex 等完整 agent 产品而不只看底模。
KumoRFM-2 把关系型数据库基础模型继续往多表预测推进
KumoRFM-2 宣称可直接在多张关联表上做 few-shot 与微调预测,不必先手工拍平成单表,在 41 个基准上相对监督与基础模型取得提升。
LABBench2 发布,生物科研 AI 评测转向更真实任务
LABBench2 将 AI 生物科研评测扩展到近 1900 个更贴近真实科研工作的任务,作者称它相较前代带来明显难度跃升,当前前沿模型在多个子任务上仍有 26% 到 46% 的性能落差。