AI Info Hub

《From Tokens to Steps》提出面向多步推理的 verification-aware speculative decoding，用模型内部信号和自一致性选择器筛选整步推理候选，试图在不依赖外部过程奖励模型的前提下同时降低延迟和保持推理正确率。

这篇论文想解决的问题很直接，多步推理模型越来越强，但一到长链思考场景，推理速度和成本就会迅速上升。作者提出的做法是把 speculative decoding 的处理粒度从单个 token 提升到完整 reasoning step，不再只看下一个词是否可接受，而是一次生成并筛选若干候选思考步骤，再决定哪一步进入正式推理轨迹。它的关键改动在于“怎么验收这一步”。论文没有额外接一个昂贵的外部过程奖励模型，而是调用模型内部的轻量信号，比如注意力归因和对数概率，再配合自一致性选择器，从多条候选步骤里挑出更稳的一条。这样做的意义是，把推理加速从单纯工程技巧，推进到和推理正确性绑定的验证问题上，尤其适合数学题、复杂问答和 agent 长链规划这类场景。如果这类 step-level speculative decoding 能继续做实，一个直接影响是长推理模型的可部署性会更强。后续不只是聊天模型的深度思考更便宜，依赖多步计划、工具调用和反思修正的 agent 系统，也可能受益于更低延迟的中间推理过程。对行业来说，这类研究的价值在于，它开始把“如何更快地产生正确推理”当成独立系统问题来优化。

SpecGuard：把 speculative decoding 从 token 级推进到 reasoning step 级