AI Info Hub

Mikhail Belkin、Robin Jia 等作者的新论文发现，Transformer、LSTM、线性 RNN 乃至词向量在训练后都会出现相似的周期性数字表征，主周期集中在 2、5、10。研究进一步解释了哪些训练信号和结构条件会让这些表征变成可线性分离的数值能力。

这篇论文讨论的是一个很基础但又很关键的问题, 语言模型到底是怎么“理解数字”的。作者发现，不只是 Transformer，连 LSTM、线性 RNN 和传统词向量这类差异很大的模型，在训练自然语言文本后都会学出带有周期性的数字表征，而且最显著的周期往往落在 2、5、10 这些人类数字系统本来就高度依赖的结构上。更有意思的是，论文没有把“看起来学到了模式”和“真的形成了可用能力”混为一谈。作者指出，频域里出现周期峰值只是第一层现象，只有当这些特征进一步变成几何上可分的表示时，模型才更容易稳定处理 mod-T 这类数值关系。论文还系统比较了数据分布、模型结构、优化器和 tokenizer 的作用，解释了为什么有些模型会把数字规律学成可泛化能力，有些则停留在表面相关性。这类工作未必会像新模型发布那样立刻刷屏，但它对后续模型训练和 agent 能力设计很有参考价值。数值、时间、计数、规划本来就是模型和工具链最容易出错的地方之一，如果我们能更清楚地知道数字能力是从哪些训练信号里长出来的，后面无论做更稳的推理模型、代码 agent，还是带外部工具的执行系统，都会更容易针对性补短板。

Convergent Evolution：不同语言模型会自发学出相似的数字表征