AI Info Hub

Stanford 作者团队在 arXiv 发布 FASTER，把扩散策略中先采多组动作再选优的高成本流程，改写成沿去噪过程逐步筛掉劣质候选的 value-guided sampling。它瞄准的是强化学习与机器人策略里很现实的推理时延问题，方法增量明确，也可能影响后续 test-time scaling 在控制场景中的落地。

FASTER 这篇论文抓住的是扩散策略在强化学习和机器人控制里一个很现实的瓶颈。现在不少高性能方法会在测试时同时采样多组动作候选，再从中选出最好的一条，但这套做法计算代价很高，真正部署时经常卡在时延和算力上。作者把这个过程重写成一个沿去噪步骤逐步过滤候选的 value-guided sampling 问题，希望在不跑完整多样本采样的前提下，保住大部分性能收益。它的增量比较清楚，不是泛泛谈“加速推理”，而是针对扩散式策略的 test-time scaling 结构动刀。论文的关键观点是，多候选动作的优势并不一定要等所有样本完整生成后才能体现，部分优劣信息可以更早暴露出来，因此可以把筛选动作前移。这个思路如果成立，意味着扩散策略不必总在“效果最好”和“推理太慢”之间二选一。这件事值得跟进，是因为 test-time scaling 正在从语言模型向控制和机器人系统外溢。过去大家更熟悉的是在推理题上多采样、多投票，但真实控制场景对延迟更敏感，不能简单照搬。FASTER 如果后续被更多策略学习工作吸收，可能会推动一批更偏实用的扩散控制方法，也会让“用额外推理换更强策略”这条路线更接近可部署状态。

FASTER 想把扩散策略里的多样本测试时扩展变得更快