AI Info Hub

新论文 ELT 提出 Elastic Looped Transformers，把视觉生成里的深层 Transformer 改成循环共享权重结构，并通过单次训练产出可按算力预算伸缩的模型族，在图像和视频生成上把参数效率再往前推。

ELT 这篇论文瞄准的是视觉生成里一个越来越现实的问题, 模型越做越深, 但参数和算力成本也越堆越高。作者把传统多层且彼此独立的 Transformer 堆叠, 改成循环执行的共享权重结构, 也就是所谓 Elastic Looped Transformers。这样做的直接效果是, 同样的推理预算下可以显著压缩参数量, 而模型又能按预算灵活决定循环次数, 变成一套可伸缩的生成骨架。为了让这种“同一套参数跑不同深度”的方式真的稳定可用, 论文还提出了 Intra-Loop Self Distillation。简单说, 就是在一次训练里让较浅配置向较深配置对齐, 让中间循环步数也能维持一致的生成质量, 最终产出一组可以随时截断或加深的 Any-Time 模型。按论文给出的结果, ELT 在图像和视频生成任务上把参数效率边界往前推了一截, 在参数减少约四倍的情况下仍保持很强的生成指标。这类方法的意义不只在于省参数。对视频生成、端侧部署、可变延迟推理, 以及未来更像 agent 组件的多模态生成系统来说, “同一模型按场景切预算”会比单纯追求更大模型更实用。如果后续更多视觉模型沿着这条路走, 生成系统的训练和部署形态都可能变得更像弹性基础设施, 而不只是一次性定死的超大模型。

ELT：用循环共享层把视觉生成模型做成可弹性伸缩