AI Info Hub

Princeton Polaris Lab 的 Temporally Extended Mixture-of-Experts 把强化学习里的 options 思路引入 MoE 路由，在尽量保住基座能力的同时显著减少专家切换，瞄准大模型内存与服务效率瓶颈。

Mixture-of-Experts 这几年一直是大模型扩容的主线之一，但它有个很现实的问题，理论上每个 token 只激活少量专家，实际部署时却可能因为专家切换太频繁，把显存、预取和 offloading 优化都拖垮。Princeton Polaris Lab 这篇工作盯住的不是再堆更多专家，而是减少“来回换专家”这件事本身。他们把强化学习里的 options 框架引入到每层路由里，让模型学会什么时候该继续沿用当前专家集合，什么时候才值得切换。论文给出的结果挺直接，在 gpt-oss-20b 上叠加低秩适配和自蒸馏奖励后，专家切换率可以从超过 50% 压到 5% 以下，同时尽量保住 MATH、MMLU 和 MMMLU 上的基础能力。换句话说，它不是单纯做一个更“聪明”的路由器，而是在能力与系统开销之间加入了一个可以显式调节的控制杆，让训练者可以把切换成本也纳入目标函数。这类方法对后续 agent 和工具链也有现实意义。越来越多推理链路会把模型部署到受限显存、异构加速器或需要频繁冷热切换的服务环境里，如果 MoE 能在结构上减少专家抖动，后面的缓存、调度和推理服务栈都会更好做。相比只谈模型精度，这篇工作更像是在为“大模型怎么真正跑起来”补一块系统层的研究拼图。

Princeton 提出时序延展 MoE，让专家切换频率从超 50% 压到 5% 以下