AI Info Hub · 用更短的时间看懂真正值得关注的 AI 更新
SAW-INT4 提出面向真实服务系统的 4-bit KV Cache 量化方案
来自 MIT 等团队的 SAW-INT4 论文聚焦 LLM 服务里的 KV cache 内存瓶颈,强调量化方法必须兼容 paged memory、规则访存和 fused attention 等工程约束,并提出 token-wise INT4 加块对角 Hadamard 旋转的实用设计。
AI Info Hub · 用更短的时间看懂真正值得关注的 AI 更新
来自 MIT 等团队的 SAW-INT4 论文聚焦 LLM 服务里的 KV cache 内存瓶颈,强调量化方法必须兼容 paged memory、规则访存和 fused attention 等工程约束,并提出 token-wise INT4 加块对角 Hadamard 旋转的实用设计。