AI Info Hub

新开源项目 nanoPD 在本轮窗口内创建，主打从零实现 Prefill/Decode disaggregation，聚焦大模型推理阶段的解耦调度。

nanoPD 是一个刚在本轮窗口内开源的 LLM 推理项目，核心卖点是把 Prefill 和 Decode 两个阶段拆开来做调度与执行。这个方向这两年一直被高性能推理系统反复验证有价值，因为预填充和逐 token 生成的负载形态差异很大，混在一起跑，往往会拖累吞吐和时延。值得关注的点在于，它不是又一个套壳服务，而是明确把自己定位成 from-scratch 的推理引擎实现。对于想研究大模型服务栈的人来说，这类项目的意义不只是“能不能直接上线”，更在于它把 Prefill/Decode 解耦这件事做成了可读、可改、可实验的开源样本，方便开发者观察调度策略、资源分配和系统权衡。如果后续社区继续补上 benchmark、并发压测和更多模型适配，nanoPD 可能会成为推理基础设施圈里一个不错的教学型项目，甚至给一些小团队做自研推理框架提供参考。对热门开源栏目来说，它代表的不是单点功能，而是大模型推理工程正在继续往更细粒度的系统优化走。

nanoPD：从零实现的 LLM Prefill/Decode 解耦推理引擎