AI Info Hub

开源项目 Litmus 在本轮时间窗内创建并获得关注，定位是给 AI 应用补上类似软件单元测试的流程，支持测试提示词、横向比较模型，并估算不同模型方案的调用成本。

Litmus 是一个刚上线的开源项目，想解决的是 AI 应用开发里最缺的那块基础设施：提示词和模型效果往往靠人工试、靠感觉改，很难像传统软件那样做稳定回归测试。它把这件事包装成类似单元测试的流程，开发者可以为提示词写测试集、比较不同模型在同一任务上的表现，再结合调用量去估算成本差异。从仓库给出的定位看，Litmus 不只是在做“跑分面板”，而是想把质量控制和成本控制放到同一条链路里。对于已经在 OpenAI、Anthropic、Google 或 Hugging Face 模型之间切换的团队，这类工具的实际价值很直接：上线前先验证效果是否退化，换模型时同步看价格变化，避免因为默认选了更贵模型而把推理预算越烧越高。这类项目现在受到关注，也说明 AI 工具链的热点正在从“再做一个聊天壳子”往工程化转移。随着越来越多团队把大模型接入生产环境，测试提示词、比较模型、量化成本会变成更刚需的环节。如果 Litmus 后续把测试组织、CI 集成和结果可视化继续补强，它有机会成为 AI 应用开发流程里很实用的一块标准组件。

Litmus：把大模型评测做成单元测试，新仓库主打提示词回归与成本比较