AI Info Hub

一篇新上线到 arXiv 的 ICLR 2026 工作用最短路径规划构造可控环境，把训练数据覆盖、RL 稳定性和推理时扩展拆开分析。结果显示模型对未见地图的空间迁移还行，但一旦任务长度拉长，仍会因递归不稳定而明显失效。

关于大模型到底有没有“系统性泛化”能力，社区这些年争论很多，但不同论文常把训练数据、训练范式和推理策略混在一起讨论，最后很难看清问题到底出在哪。这篇新工作把任务缩到一个更可控的最短路径环境里，用空间迁移和长度扩展两条轴分别测试模型表现，希望把泛化失败的来源拆开来看。结果很直接，模型在没见过的新地图上还能表现出一定的空间迁移能力，但当路径长度被持续拉长时，性能会明显崩掉，论文把核心原因归为递归不稳定。更值得注意的是，强化学习主要改善了训练稳定性，却没有真正扩大能力边界，而推理时扩展虽然能抬高一部分结果，也救不了长度扩展上的根本失效。这类发现对后续 agent 和推理模型设计有现实意义。很多长流程 agent 任务，本质上都依赖模型在更长决策链上保持一致性，如果底层问题求解能力一到长程就失稳，那单靠更多采样、更多测试时算力或者轻量后训练，可能都只是延后暴露问题。对想做长链任务、复杂规划和自动研究系统的团队来说，这篇论文算是给“长度扩展仍是硬伤”补了一组更清晰的证据。

LLM 在系统性泛化上仍卡在长度扩展，最短路径控制环境给出更细的失败画像