AI Info Hub

论文围绕 ternary LLM 推出 CPU 侧乘法消除推理系统 FairyFuse，在 commodity CPU 上把广义线性层融合为单个 AVX-512 循环，实现零浮点乘法，端到端速度超过 llama.cpp 的 Q4_K_M，同时基本不损失精度。

大模型本地推理的一个老问题是，很多“压缩得很漂亮”的论文最后没有真正变成可用吞吐，原因往往出在运行时。FairyFuse 这篇论文抓的就是这件事。作者把 ternary 权重的结构特性用到底，不再像常见量化方案那样先反量化再做浮点乘法，而是把广义线性层拆成的多个实值子运算直接融合进单个 AVX-512 循环里，用条件加减和跳过操作替代浮点乘法，真正做到了 CPU 上的 multiplication-free 推理。这件事的工程价值很直接。论文给出的分析是，16 倍权重压缩可以把原本受内存带宽限制的 GEMV 拉回更接近算力受限的区间，因此这种优化在 CPU-only 场景格外有效。作者报告 FairyFuse 在单颗 Intel Xeon 8558P 上实现了 32.4 tokens/s，端到端速度超过 llama.cpp 的 Q4_K_M，同时 WikiText-2 困惑度和下游任务精度基本贴近 FP16 基线，说明这不是单纯拿质量换速度。如果这条路线后续被更多开源模型和推理框架接住，它对 agent 和工具链的意义可能不小。因为很多实际部署并不在高端 GPU 上，而是在服务器 CPU、边缘设备或成本敏感的私有环境里。FairyFuse 说明，三值模型的价值不只是“模型更小”，而是可以连运行时一起重写成更贴近硬件的执行路径，这比继续在传统量化栈上挤百分点改进更像一条新方向。

FairyFuse: Multiplication-Free LLM Inference on CPUs via Fused Ternary Kernels