AI Info Hub · 用更短的时间看懂真正值得关注的 AI 更新
最新研究2026年4月15日 22:54阅读 0分享 0原始来源 THUNLP 复盘并改进大模型 On-Policy Distillation 训练配方
Tsinghua/THUNLP 团队在窗口期内发布对大语言模型 on-policy distillation 的系统研究,既分析现象与机制,也给出可复用训练 recipe,并同步公开代码。对后续推理模型蒸馏和后训练效率优化有直接参考意义。
这篇工作聚焦的不是“再做一个蒸馏模型”,而是重新拆解 on-policy distillation 在大语言模型后训练里的真实作用。THUNLP 团队把它当成一个值得系统研究的训练范式来处理,既讨论现象层面的收益,也追问背后的机制,并最终沉淀成一套更明确的 recipe。对现在大量依赖蒸馏来做推理能力迁移、压缩训练成本的行业来说,这种总结型研究通常比单次刷榜更有扩散价值。
它的意义在于,把原本偏经验主义的做法往可解释、可复现、可迁移的方向推了一步。很多团队已经在用 on-policy 数据来提升学生模型,但常见问题是稳定性不足、收益来源不清楚、配方依赖具体任务。论文如果能把哪些环节决定效果、哪些设置更稳、哪些现象只是表面增益说清楚,后续无论是 reasoning model 蒸馏,还是面向 agent 场景的后训练优化,都更容易形成标准化工作流。
从趋势看,这类研究对模型层和工具链层都会有影响。一方面,它可能帮助团队用更低成本复制前沿推理能力,缩短从大模型到可部署模型的落地路径;另一方面,配套公开代码也意味着 OPD 相关实验更容易进入研究社区和工程栈,成为后训练阶段的常规选项。如果这套方法论被更多团队验证,未来围绕蒸馏、对齐和 test-time reasoning 的训练工程,可能会变得更像一门可以复用的工艺,而不是只能靠少数大厂反复试错。