AI Info Hub

来自 MIT 等团队的 SAW-INT4 论文聚焦 LLM 服务里的 KV cache 内存瓶颈，强调量化方法必须兼容 paged memory、规则访存和 fused attention 等工程约束，并提出 token-wise INT4 加块对角 Hadamard 旋转的实用设计。

SAW-INT4 这篇论文盯住的是 LLM 服务里一个越来越现实的瓶颈, 也就是 KV cache 占掉的大量显存和内存。很多量化方法在离线评测里看起来不错, 但一到真实服务系统里就会撞上分页内存布局、规则访存模式和 fused attention 内核这些硬约束, 导致论文方案很难直接落地。SAW-INT4 的切入点, 就是先承认这些系统限制存在, 再去设计仍然可部署的 4-bit KV cache 方案。作者给出的核心做法是 token-wise 的 INT4 量化, 再配合块对角 Hadamard 旋转, 尽量在压缩率、精度和工程兼容性之间找平衡。这个思路的意义在于, 它不是单纯追求更激进的压缩数字, 而是把“真实服务栈能不能接住”当成第一原则, 因而更接近推理框架和推理加速器真正会采纳的研究方向。这类工作值得关注, 因为长上下文推理、并发请求和低成本部署都会继续把 KV cache 推到性能瓶颈中心。如果 SAW-INT4 这类系统感知量化方案被更多 serving 框架吸收, 后面模型厂商和 agent 平台在同样硬件上承载更长上下文和更高并发的空间都会被直接打开。

SAW-INT4 提出面向真实服务系统的 4-bit KV Cache 量化方案