AI Info Hub

HWE-Bench 提出面向硬件设计仓库的仓库级基准，用真实历史修复任务、原生仿真验证和容器环境评测 LLM Agent 修复 Verilog/SystemVerilog 与 Chisel 缺陷的能力。

HWE-Bench 这篇工作的亮点，在于它没有继续沿着“给一段 HDL 代码、看模型能不能补全”的老路走，而是把评测单位直接抬到真实硬件仓库里的修 Bug 任务。作者从真实历史修复记录里整理出 417 个实例，覆盖 Verilog、SystemVerilog 和 Chisel，并让 agent 在完整仓库、Bug report、原生工具链和容器环境里完成补丁生成，再用项目自带仿真流程做验证。这让它和传统软件 agent 基准的关系有点像硬件版 SWE-bench，但门槛其实更高。硬件问题往往不是单文件改动，很多错误要跨模块理解时序、接口和验证逻辑，最终还得跑仿真才能知道修没修对。换句话说，这篇论文讨论的不只是“模型会不会写 HDL”，而是 agent 能不能在更接近真实 EDA 工作流的环境里完成诊断、修改、验证这一整套闭环。如果后面 AI 代码代理继续往芯片设计、硬件验证和 EDA 工具链渗透，这类仓库级 benchmark 会越来越重要。它一方面给研究社区提供了比小样例更可信的能力标尺，另一方面也会迫使后续方法把注意力从单次生成，转向检索、工具调用、迭代调试和执行验证这些真正决定落地效果的环节。

HWE-Bench：把 LLM Agent 评测拉进真实硬件仓库修 Bug