AI Info Hub

RadAgent 把胸部 CT 解读拆成逐步推理与工具调用过程，让医生能检查中间决策轨迹，并在临床准确率、鲁棒性和 faithfulness 上同时超过对照 3D VLM。

医疗影像生成这条线，过去常见做法是让模型直接吐出最后报告，临床人员只能看结果，很难知道中间到底依据了什么。RadAgent 选择了另一条路，它把胸部 CT 解读改造成逐步推理加工具调用的 agent 流程，每份报告都附带可检查的中间决策轨迹。这样一来，医生不只是接收答案，还能回看模型是如何一步步形成结论的，这对医疗场景尤其关键。从结果看，这种 agent 化改造带来的增量不只是“更可解释”。论文显示，RadAgent 相比对照的 3D VLM 基线 CT-Chat，在胸部 CT 报告生成上同时提升了临床准确率、对抗条件下的鲁棒性，以及过去几乎缺失的 faithfulness 指标。换句话说，它不只是把过程摊开给人看，还让输出本身更稳、更接近真实证据链，这一点比单纯堆模型规模更有现实意义。这项工作的潜在影响，在于它给高风险 AI 应用提供了一个更像样的范式参考。未来不管是医学影像、金融审计还是科研助手，大家可能都会越来越在意“模型有没有轨迹、轨迹能不能审、审完能不能信”，而不只是最终答案像不像。对 agent 研究来说，RadAgent 也说明了一件事，工具调用和显式中间状态不只是通用 agent 的花活，在专业场景里，它们可能正是把系统从能演示推向能落地的关键一步。

RadAgent：把胸部 CT 报告生成改成可追溯的工具型 agent 流程