首页/最新研究/正文

AI Info Hub · 用更短的时间看懂真正值得关注的 AI 更新

最新研究2026年4月14日 22:48阅读 0分享 0原始来源

LABBench2 发布,生物科研 AI 评测转向更真实任务

LABBench2 将 AI 生物科研评测扩展到近 1900 个更贴近真实科研工作的任务,作者称它相较前代带来明显难度跃升,当前前沿模型在多个子任务上仍有 26% 到 46% 的性能落差。

这篇新论文提出的 LABBench2,可以看作对生物科研 AI 评测的一次“升难度”重做。作者把任务规模扩展到近 1900 项,继续覆盖科研工作中常见的能力需求,但不再满足于考知识记忆或局部推理,而是更强调 AI 系统是否能在更真实、更复杂的实验语境里完成有用工作。 它值得关注的地方,在于把“科学研究 agent 到底行不行”这件事测得更接近现实。论文明确提到,虽然前沿模型在旧版 LAB-Bench 上已经有明显提升,但到了 LABBench2,不同子任务上的准确率会出现 26% 到 46% 的下滑。这说明很多模型在看起来会答题之后,离真正参与科研流程还差一大截,尤其是在跨步骤、上下文更重、结果更贴近真实研究产出的任务里。 对后续模型和 agent 工具链来说,LABBench2 可能会成为更有分量的参照系。它一方面给研究团队提供了新的“硬基线”,避免大家继续拿已经趋于饱和的旧题目报喜;另一方面也会推动实验型 agent、科研 copilot 乃至自动化实验室系统,开始围绕更真实的科研任务去优化,而不是只追求通用 benchmark 上的漂亮分数。