AI Info Hub

AlphaEval 在 arXiv 发布，尝试把 AI agent 的评测从实验室任务拉回真实商用场景。数据来自 7 家正在核心业务里部署 agent 的公司，覆盖 94 个任务，强调隐含约束、多模态材料、长链条交付物和随时间变化的专家标准，并直接评测 Claude Code、Codex 等完整 agent 产品而不只看底模。

AlphaEval 的重要之处，在于它不再把 agent 当成做题机器来评估。论文收集了 7 家企业在核心业务里真实使用 agent 的任务，整理出 94 个生产导向样本，覆盖多种职业领域。和传统 benchmark 不同，这些任务往往没有写得很完整的需求说明，输入也不是一段干净文本，而是分散在多模态资料、业务规则和上下游流程里的碎片信息，最终交付物还要接受领域专家而非固定答案的判断。这让 AlphaEval 更像一套“生产评测框架”而不只是数据集。作者不仅评测了 Claude Code、Codex 等完整 agent 产品，还把 LLM-as-a-Judge、参考答案比对、形式化验证、rubric 评分和自动化 UI 测试等多种评测方式混合使用，尽量贴近企业里真实的验收过程。换句话说，它测的是一个 agent 系统到底能不能把活干完，而不是单轮回答看起来是否聪明。对后续 agent 工具链和企业部署来说，这个方向的价值很直接。随着越来越多团队开始把编码、研究、运营和文档流程交给 agent，评测基准如果还停留在静态小任务上，就很难指导采购、集成和迭代。AlphaEval 把“从真实需求到可执行 benchmark”的构建方法也一起公开出来，后面很可能会推动更多公司建立自己的内部 agent 评测集，让 agent 竞争从模型能力转向更接近生产结果的整体交付能力。

AlphaEval 提出面向真实生产环境的 Agent 评测基准