AI Info Hub

LABBench2 将 AI 生物科研评测扩展到近 1900 个更贴近真实科研工作的任务，作者称它相较前代带来明显难度跃升，当前前沿模型在多个子任务上仍有 26% 到 46% 的性能落差。

这篇新论文提出的 LABBench2，可以看作对生物科研 AI 评测的一次“升难度”重做。作者把任务规模扩展到近 1900 项，继续覆盖科研工作中常见的能力需求，但不再满足于考知识记忆或局部推理，而是更强调 AI 系统是否能在更真实、更复杂的实验语境里完成有用工作。它值得关注的地方，在于把“科学研究 agent 到底行不行”这件事测得更接近现实。论文明确提到，虽然前沿模型在旧版 LAB-Bench 上已经有明显提升，但到了 LABBench2，不同子任务上的准确率会出现 26% 到 46% 的下滑。这说明很多模型在看起来会答题之后，离真正参与科研流程还差一大截，尤其是在跨步骤、上下文更重、结果更贴近真实研究产出的任务里。对后续模型和 agent 工具链来说，LABBench2 可能会成为更有分量的参照系。它一方面给研究团队提供了新的“硬基线”，避免大家继续拿已经趋于饱和的旧题目报喜；另一方面也会推动实验型 agent、科研 copilot 乃至自动化实验室系统，开始围绕更真实的科研任务去优化，而不是只追求通用 benchmark 上的漂亮分数。

LABBench2 发布，生物科研 AI 评测转向更真实任务