AI Info Hub

SeLaR 提出选择性 latent reasoning 机制，不再默认全程展开高成本推理链，而是按需切换到潜空间计算，试图在推理质量与成本之间找到更实用的平衡点。

SeLaR 讨论的是一个越来越现实的问题：大家都在追求更强推理能力，但一旦把推理链写得更长、算得更深，成本和延迟也会一起上去。论文提出的思路不是让模型永远进入“重推理模式”，而是做成选择性的 latent reasoning，只在确实需要时才把计算转入潜空间推理过程，尽量避免把每个请求都按最高规格处理。这类方法的意思在于，推理不再只是“多生成一点思维链”这么简单，而是把一部分思考放到离散 token 之外的表示空间里完成，再决定什么时候值得调用、什么时候直接走更轻路径。对大模型系统来说，这相当于把“会不会推理”和“值不值得为这次问题付出推理成本”拆开处理，目标是同时守住效果和效率。它值得关注的地方，在于这条路线很贴近真实产品约束。很多团队现在最头疼的，不是模型完全不会推理，而是高质量推理太贵、太慢、也不适合默认全量开启。如果选择性潜空间推理能在更多任务上验证有效，后面无论是 reasoning model 的服务分层，还是低时延 AI 产品的推理调度，都会多出一种比单纯拉长 CoT 更精细的优化手段。

SeLaR：让大模型只在必要时走潜空间推理