AI Info Hub · 用更短的时间看懂真正值得关注的 AI 更新
Convergent Evolution:不同语言模型会自发学出相似的数字表征
Mikhail Belkin、Robin Jia 等作者的新论文发现,Transformer、LSTM、线性 RNN 乃至词向量在训练后都会出现相似的周期性数字表征,主周期集中在 2、5、10。研究进一步解释了哪些训练信号和结构条件会让这些表征变成可线性分离的数值能力。
AI Info Hub · 用更短的时间看懂真正值得关注的 AI 更新
Mikhail Belkin、Robin Jia 等作者的新论文发现,Transformer、LSTM、线性 RNN 乃至词向量在训练后都会出现相似的周期性数字表征,主周期集中在 2、5、10。研究进一步解释了哪些训练信号和结构条件会让这些表征变成可线性分离的数值能力。