AI Info Hub

这项新工作把“视频时间流速”当作可学习概念，先做自监督速度感知，再据此构建大规模慢动作数据，进一步支持按目标速度生成视频和做时间超分辨率。作者阵容里有 Ali Farhadi、Steve Marschner、Wei-Chiu Ma，方法链条完整，对视频生成和世界模型中的时间建模都值得关注。

这篇工作讨论的是一个过去在视频模型里常被弱化的问题，模型不仅要看懂画面里发生了什么，还要理解“事情发生得有多快”。作者把时间流速本身当成可学习的视觉概念，先通过视频天然带有的多模态线索和时序结构，训练模型识别视频是否被加速或减速，并估计播放速度。这个环节不是噱头，它直接为后面更大的一步铺路，也就是从海量嘈杂视频里筛出高质量慢动作素材。有了这批慢动作数据后，论文继续往前推进到两类更实用的任务，一类是按指定速度生成视频，另一类是把低帧率、模糊的视频补成更高帧率、时间细节更丰富的序列。换句话说，它不只是提升视频清晰度或一致性，而是在尝试给生成模型补上一种更明确的“时间控制能力”，让模型对动作快慢、时间展开方式和细粒度运动信息有更稳定的建模。这件事值得注意，主要是因为视频生成和世界模型接下来都绕不开时间理解。过去很多方法更关注空间细节、镜头一致性和文本对齐，但如果模型对时间流速本身没有扎实表征，它在复杂运动、物理过程和长时序场景里的可控性就会很快碰顶。Seeing Fast and Slow 把时间感知、数据构建和生成控制串成了一条完整路径，说明“时间”正在从视频模型里的隐含变量，变成可以被直接学习和操控的核心维度。

Seeing Fast and Slow 试图把视频速度感知与可控生成放进同一条时序学习链路