AI Info Hub · 用更短的时间看懂真正值得关注的 AI 更新
最新研究2026年4月25日 22:54阅读 6分享 0原始来源 FairyFuse: Multiplication-Free LLM Inference on CPUs via Fused Ternary Kernels
论文围绕 ternary LLM 推出 CPU 侧乘法消除推理系统 FairyFuse,在 commodity CPU 上把广义线性层融合为单个 AVX-512 循环,实现零浮点乘法,端到端速度超过 llama.cpp 的 Q4_K_M,同时基本不损失精度。
大模型本地推理的一个老问题是,很多“压缩得很漂亮”的论文最后没有真正变成可用吞吐,原因往往出在运行时。FairyFuse 这篇论文抓的就是这件事。作者把 ternary 权重的结构特性用到底,不再像常见量化方案那样先反量化再做浮点乘法,而是把广义线性层拆成的多个实值子运算直接融合进单个 AVX-512 循环里,用条件加减和跳过操作替代浮点乘法,真正做到了 CPU 上的 multiplication-free 推理。
这件事的工程价值很直接。论文给出的分析是,16 倍权重压缩可以把原本受内存带宽限制的 GEMV 拉回更接近算力受限的区间,因此这种优化在 CPU-only 场景格外有效。作者报告 FairyFuse 在单颗 Intel Xeon 8558P 上实现了 32.4 tokens/s,端到端速度超过 llama.cpp 的 Q4_K_M,同时 WikiText-2 困惑度和下游任务精度基本贴近 FP16 基线,说明这不是单纯拿质量换速度。
如果这条路线后续被更多开源模型和推理框架接住,它对 agent 和工具链的意义可能不小。因为很多实际部署并不在高端 GPU 上,而是在服务器 CPU、边缘设备或成本敏感的私有环境里。FairyFuse 说明,三值模型的价值不只是“模型更小”,而是可以连运行时一起重写成更贴近硬件的执行路径,这比继续在传统量化栈上挤百分点改进更像一条新方向。