AI Info Hub · 用更短的时间看懂真正值得关注的 AI 更新
最新研究2026年4月25日 16:17阅读 0分享 0原始来源 Princeton 提出时序延展 MoE,让专家切换频率从超 50% 压到 5% 以下
Princeton Polaris Lab 的 Temporally Extended Mixture-of-Experts 把强化学习里的 options 思路引入 MoE 路由,在尽量保住基座能力的同时显著减少专家切换,瞄准大模型内存与服务效率瓶颈。
Mixture-of-Experts 这几年一直是大模型扩容的主线之一,但它有个很现实的问题,理论上每个 token 只激活少量专家,实际部署时却可能因为专家切换太频繁,把显存、预取和 offloading 优化都拖垮。Princeton Polaris Lab 这篇工作盯住的不是再堆更多专家,而是减少“来回换专家”这件事本身。他们把强化学习里的 options 框架引入到每层路由里,让模型学会什么时候该继续沿用当前专家集合,什么时候才值得切换。
论文给出的结果挺直接,在 gpt-oss-20b 上叠加低秩适配和自蒸馏奖励后,专家切换率可以从超过 50% 压到 5% 以下,同时尽量保住 MATH、MMLU 和 MMMLU 上的基础能力。换句话说,它不是单纯做一个更“聪明”的路由器,而是在能力与系统开销之间加入了一个可以显式调节的控制杆,让训练者可以把切换成本也纳入目标函数。
这类方法对后续 agent 和工具链也有现实意义。越来越多推理链路会把模型部署到受限显存、异构加速器或需要频繁冷热切换的服务环境里,如果 MoE 能在结构上减少专家抖动,后面的缓存、调度和推理服务栈都会更好做。相比只谈模型精度,这篇工作更像是在为“大模型怎么真正跑起来”补一块系统层的研究拼图。