AI Info Hub

Tsinghua/THUNLP 团队在窗口期内发布对大语言模型 on-policy distillation 的系统研究，既分析现象与机制，也给出可复用训练 recipe，并同步公开代码。对后续推理模型蒸馏和后训练效率优化有直接参考意义。

这篇工作聚焦的不是“再做一个蒸馏模型”，而是重新拆解 on-policy distillation 在大语言模型后训练里的真实作用。THUNLP 团队把它当成一个值得系统研究的训练范式来处理，既讨论现象层面的收益，也追问背后的机制，并最终沉淀成一套更明确的 recipe。对现在大量依赖蒸馏来做推理能力迁移、压缩训练成本的行业来说，这种总结型研究通常比单次刷榜更有扩散价值。它的意义在于，把原本偏经验主义的做法往可解释、可复现、可迁移的方向推了一步。很多团队已经在用 on-policy 数据来提升学生模型，但常见问题是稳定性不足、收益来源不清楚、配方依赖具体任务。论文如果能把哪些环节决定效果、哪些设置更稳、哪些现象只是表面增益说清楚，后续无论是 reasoning model 蒸馏，还是面向 agent 场景的后训练优化，都更容易形成标准化工作流。从趋势看，这类研究对模型层和工具链层都会有影响。一方面，它可能帮助团队用更低成本复制前沿推理能力，缩短从大模型到可部署模型的落地路径；另一方面，配套公开代码也意味着 OPD 相关实验更容易进入研究社区和工程栈，成为后训练阶段的常规选项。如果这套方法论被更多团队验证，未来围绕蒸馏、对齐和 test-time reasoning 的训练工程，可能会变得更像一门可以复用的工艺，而不是只能靠少数大厂反复试错。

THUNLP 复盘并改进大模型 On-Policy Distillation 训练配方