首页/最新研究/正文

AI Info Hub · 用更短的时间看懂真正值得关注的 AI 更新

最新研究2026年4月18日 09:47阅读 0分享 0原始来源

LLM 在系统性泛化上仍卡在长度扩展,最短路径控制环境给出更细的失败画像

一篇新上线到 arXiv 的 ICLR 2026 工作用最短路径规划构造可控环境,把训练数据覆盖、RL 稳定性和推理时扩展拆开分析。结果显示模型对未见地图的空间迁移还行,但一旦任务长度拉长,仍会因递归不稳定而明显失效。

关于大模型到底有没有“系统性泛化”能力,社区这些年争论很多,但不同论文常把训练数据、训练范式和推理策略混在一起讨论,最后很难看清问题到底出在哪。这篇新工作把任务缩到一个更可控的最短路径环境里,用空间迁移和长度扩展两条轴分别测试模型表现,希望把泛化失败的来源拆开来看。 结果很直接,模型在没见过的新地图上还能表现出一定的空间迁移能力,但当路径长度被持续拉长时,性能会明显崩掉,论文把核心原因归为递归不稳定。更值得注意的是,强化学习主要改善了训练稳定性,却没有真正扩大能力边界,而推理时扩展虽然能抬高一部分结果,也救不了长度扩展上的根本失效。 这类发现对后续 agent 和推理模型设计有现实意义。很多长流程 agent 任务,本质上都依赖模型在更长决策链上保持一致性,如果底层问题求解能力一到长程就失稳,那单靠更多采样、更多测试时算力或者轻量后训练,可能都只是延后暴露问题。对想做长链任务、复杂规划和自动研究系统的团队来说,这篇论文算是给“长度扩展仍是硬伤”补了一组更清晰的证据。