AI Info Hub

一项面向 AI 安全评测的基准目录工作，系统梳理 195 个安全 benchmark，并指出指标定义和治理方式高度碎片化。

这项工作没有继续追加一个新的 AI 安全 benchmark，而是先回头整理现有基础设施。作者系统盘点了 195 个安全评测基准，试图回答一个经常被忽略的问题, 当行业不断讨论模型是否“更安全”时，大家手里用的到底是不是同一套尺子。论文给出的结论并不轻松。现有安全 benchmark 在覆盖维度、任务设计、指标口径和维护方式上都相当分散，很多名称相近的评测其实考察对象并不一致，同一类风险在不同榜单里的分值也很难直接横向比较。AISafetyBenchExplorer 的价值因此不只是做目录，而是把这套碎片化现状显性化，让研究者和产品团队更容易发现哪些评测在重复建设，哪些关键风险反而还没有被稳定覆盖。这类工作之所以值得关注，是因为 AI 安全正在从“研究社区内部话题”变成模型上线、审计和治理的共同底座。如果评测语义本身不统一，后续再多的安全声明和排行榜都容易失真。相比单篇新方法论文，这种偏元研究的梳理未必最热，但它更可能影响后续安全 benchmark、合规审查和模型发布流程的标准化方向。

AISafetyBenchExplorer：把 195 个 AI 安全基准放到同一张地图上