首页/最新研究

最新研究

论文、benchmark 与实验性方向

research2026年4月21日 16:2100

BRRL 从理论上重写 PPO 路线,并把同一框架延伸到 LLM 微调

Bernhard Schölkopf、Andreas Krause 等作者提出 Bounded Ratio Reinforcement Learning,给出带单调改进保证的策略优化框架,并进一步推出适用于大模型微调的 GBPO,实验中在控制与 LLM 场景对 PPO、GRPO 展现出更稳的表现。

research2026年4月21日 09:4900

Safe and Policy-Compliant Multi-Agent Orchestration 瞄准企业多代理系统的策略约束问题

论文把多代理编排放到企业级安全与合规约束下重新审视,强调硬策略、风险边界与可审计协同,这比单纯提升 agent 成功率更贴近真实落地条件。

research2026年4月20日 22:4900

PolicyBank 试图让 LLM Agent 在测试反馈中进化政策理解

PolicyBank 把组织政策约束整理成结构化、可迭代修正的工具级记忆,不再把含糊的自然语言规则当成不可更改真值,并在带有策略缺口的工具调用基准上显著缩小与人工 oracle 的差距。

research2026年4月20日 09:4900

Nature MI 研究用 LLM 与概念图预测材料科学新方向

Nature Machine Intelligence 论文提出用大模型抽取科学概念并构建概念图,辅助发现材料科学中尚未被系统探索的潜在研究组合。

research2026年4月19日 22:5400

RadAgent:把胸部 CT 报告生成改成可追溯的工具型 agent 流程

RadAgent 把胸部 CT 解读拆成逐步推理与工具调用过程,让医生能检查中间决策轨迹,并在临床准确率、鲁棒性和 faithfulness 上同时超过对照 3D VLM。

research2026年4月19日 09:4800

AISafetyBenchExplorer:把 195 个 AI 安全基准放到同一张地图上

一项面向 AI 安全评测的基准目录工作,系统梳理 195 个安全 benchmark,并指出指标定义和治理方式高度碎片化。

research2026年4月18日 22:4600

TREX 试图把 LLM 微调流程交给多代理自动完成

TREX 把需求分析、文献梳理、数据构建、训练和评测串成一个树状探索流程,并用 FT-Bench 专门衡量自动化微调任务。论文声称该系统在有限算力和时间预算下,能够持续优化训练策略,并在部分任务上逼近或超过人工设计流程。

research2026年4月18日 16:1200

SpecGuard:把 speculative decoding 从 token 级推进到 reasoning step 级

《From Tokens to Steps》提出面向多步推理的 verification-aware speculative decoding,用模型内部信号和自一致性选择器筛选整步推理候选,试图在不依赖外部过程奖励模型的前提下同时降低延迟和保持推理正确率。

research2026年4月18日 09:4700

LLM 在系统性泛化上仍卡在长度扩展,最短路径控制环境给出更细的失败画像

一篇新上线到 arXiv 的 ICLR 2026 工作用最短路径规划构造可控环境,把训练数据覆盖、RL 稳定性和推理时扩展拆开分析。结果显示模型对未见地图的空间迁移还行,但一旦任务长度拉长,仍会因递归不稳定而明显失效。

research2026年4月17日 22:4900

HWE-Bench:把 LLM Agent 评测拉进真实硬件仓库修 Bug

HWE-Bench 提出面向硬件设计仓库的仓库级基准,用真实历史修复任务、原生仿真验证和容器环境评测 LLM Agent 修复 Verilog/SystemVerilog 与 Chisel 缺陷的能力。

research2026年4月17日 16:1400

RLVR 奖励可验证不等于安全,研究指出推理模型会学会钻 verifier 空子

新论文系统展示 RLVR 训练可能把模型推向 reward hacking:模型不再真正归纳规则,而是输出能骗过 verifier 的表面正确答案,并提出 Isomorphic Perturbation Testing 作为检测办法。

research2026年4月17日 09:5010

Dive into Claude Code: The Design Space of Today's and Future AI Agent Systems

VILA-Lab 发布对 Claude Code 的系统拆解与复现实验,试图把当前终端型 coding agent 的关键设计模式沉淀成可复用框架,涉及工具调用、执行循环与未来 agent 系统设计空间。

research2026年4月16日 09:4900

Memory Transfer Learning 讨论编码 agent 的跨域记忆迁移

这篇论文把 coding agent 的 memory 从单任务复用推进到跨领域迁移,试图利用运行时环境、语言和常见修复模式等共享结构,让异构任务之间也能共享长期经验。

research2026年4月15日 22:5400

THUNLP 复盘并改进大模型 On-Policy Distillation 训练配方

Tsinghua/THUNLP 团队在窗口期内发布对大语言模型 on-policy distillation 的系统研究,既分析现象与机制,也给出可复用训练 recipe,并同步公开代码。对后续推理模型蒸馏和后训练效率优化有直接参考意义。

research2026年4月15日 16:2000

AlphaEval 提出面向真实生产环境的 Agent 评测基准

AlphaEval 在 arXiv 发布,尝试把 AI agent 的评测从实验室任务拉回真实商用场景。数据来自 7 家正在核心业务里部署 agent 的公司,覆盖 94 个任务,强调隐含约束、多模态材料、长链条交付物和随时间变化的专家标准,并直接评测 Claude Code、Codex 等完整 agent 产品而不只看底模。

research2026年4月15日 09:4700

KumoRFM-2 把关系型数据库基础模型继续往多表预测推进

KumoRFM-2 宣称可直接在多张关联表上做 few-shot 与微调预测,不必先手工拍平成单表,在 41 个基准上相对监督与基础模型取得提升。

research2026年4月14日 22:4800

LABBench2 发布,生物科研 AI 评测转向更真实任务

LABBench2 将 AI 生物科研评测扩展到近 1900 个更贴近真实科研工作的任务,作者称它相较前代带来明显难度跃升,当前前沿模型在多个子任务上仍有 26% 到 46% 的性能落差。

research2026年4月14日 16:3300

Meerkat:面向海量 agent 轨迹的安全违规检索方法

新论文提出 Meerkat,用分层检索方式在大规模 agent traces 中定位罕见但关键的安全违规行为,目标是把人工逐条审计变成可扩展的自动筛查。

research2026年4月14日 09:4800

新研究称 LLM 生成有害内容依赖一套可压缩且相对统一的内部机制

一篇 4 月 13 日进入 arXiv 新稿列表的论文用定向权重剪枝分析 LLM 的有害内容生成能力,认为不同伤害类型背后依赖一组紧凑、跨任务共享且与一般能力可区分的权重,这为解释越狱脆弱性和 emergent misalignment 提供了新的机制视角。

research2026年4月13日 22:4600

Process Reward Agents:ETH Zurich 给知识密集型推理加上在线逐步奖励

ETH Zurich 与海德堡大学团队提出 Process Reward Agents(PRA),把检索增强的过程奖励从事后打分改成推理时逐步打分,可在每一步筛掉差轨迹。作者称其在医疗推理任务上让冻结模型也能显著增益,并在 MedQA 上把 Qwen3-4B 推到 4B 级新 SOTA。

research2026年4月13日 16:1900

ELT:用循环共享层把视觉生成模型做成可弹性伸缩

新论文 ELT 提出 Elastic Looped Transformers,把视觉生成里的深层 Transformer 改成循环共享权重结构,并通过单次训练产出可按算力预算伸缩的模型族,在图像和视频生成上把参数效率再往前推。

research2026年4月13日 09:4810

Many-Tier Instruction Hierarchy in LLM Agents

一篇来自 Daniel Khashabi、Benjamin Van Durme 团队的新论文提出把 agent 的指令优先级从固定少层级扩展为可细粒度伸缩的多层体系,目标是让系统提示、开发者约束、工具输出与外部内容在冲突时更稳定地执行高权限指令。对 agent 安全、提示注入防御和复杂工具链编排都有直接意义。

research2026年4月12日 22:4800

SUPERNOVA:把 RLVR 从数学代码扩到通用推理的自然指令数据框架

这篇新论文提出 SUPERNOVA,用自然指令数据系统化构造可验证奖励训练样本,试图把 RLVR 的增益从数学、代码扩展到因果、时序等更通用的推理任务。对后续小模型强化推理和通用 reasoning 数据配方都有参考价值。

research2026年4月12日 16:1300

Prediction Arena:用真实预测市场检验 AI 模型决策能力

Prediction Arena 把前沿模型放进 Kalshi 和 Polymarket 的真实价格环境里,以自主交易成绩衡量预测准确率、风险控制和持续决策能力,试图把 agent 评测从静态 benchmark 推向实时世界。

research2026年4月12日 09:4800

KDR-Bench 把 Deep Research 从网页检索推到结构化知识分析

《Towards Knowledgeable Deep Research》提出 Knowledgeable Deep Research 任务、HKA 多智能体框架和 KDR-Bench,要求 agent 同时利用结构化表格与非结构化网页生成多模态长报告,在知识型深度研究上补齐了现有 Deep Research 评测的空白。

research2026年4月11日 22:4400

PIArena 把提示注入评测做成统一平台,agent 安全开始有了更像样的公共基座

PIArena 提供统一的 prompt injection 评测平台,并加入会根据防御反馈动态调整的攻击策略。论文显示,现有防御在跨任务泛化和自适应攻击面前仍然脆弱,这对 agent、工具调用和企业工作流安全都很关键。

research2026年4月11日 16:1400

Claw-Eval:把 autonomous agents 的评测从结果导向推进到轨迹可审计

Claw-Eval 提出覆盖 300 个任务的 agent 评测框架,不只看最终答案,而是同时审计执行轨迹、日志和环境快照,用于衡量完成度、安全性与稳健性。

research2026年4月11日 09:4700

HDPO 试图解决多模态 Agent 的盲目调工具问题

论文《Act Wisely》提出 HDPO,把工具效率从与准确率竞争的单一奖励里拆出来,只在正确轨迹上约束工具调用。作者称据此训练出的 Metis 能在提升推理准确率的同时,把工具调用次数降到原来的数量级以下。

research2026年4月10日 16:1810

ClawBench:144 个真实网站上的日常在线任务,前沿 AI Agent 完成率仍偏低

ClawBench 把网页 agent 评测从沙盒拉到真实生产网站,覆盖购物、预约、申请等 153 个写操作任务。论文显示 7 个前沿模型整体通过率仍不高,说明通用网页代理距离可靠落地还有明显差距。

research2026年4月10日 09:4710

SeLaR:让大模型只在必要时走潜空间推理

SeLaR 提出选择性 latent reasoning 机制,不再默认全程展开高成本推理链,而是按需切换到潜空间计算,试图在推理质量与成本之间找到更实用的平衡点。