AI Info Hub

Bernhard Schölkopf、Andreas Krause 等作者提出 Bounded Ratio Reinforcement Learning，给出带单调改进保证的策略优化框架，并进一步推出适用于大模型微调的 GBPO，实验中在控制与 LLM 场景对 PPO、GRPO 展现出更稳的表现。

这篇论文瞄准的是一个很多人都默认接受、但其实一直没有被讲透的问题，为什么 PPO 这么常用，却和它声称继承的 trust region 理论并不完全对得上。作者提出的 BRRL 先从一个新的正则化加约束优化问题出发，推导出解析最优解，再据此给出可训练的 BPO 算法，试图把 PPO 这条工程上行之有效的路线重新拉回到一个更清晰的理论框架里。它值得关注，不只是因为又多了一个 RL 缩写，而是因为作者进一步把同一框架延伸到了大模型后训练，提出了面向 LLM 微调的 GBPO。论文里给出的结果显示，这套方法在 MuJoCo、Atari、IsaacLab 等控制任务里能和 PPO 打平或更稳，在 LLM 微调场景中也能对标甚至优于 GRPO。这意味着它不是纯理论修补，而是在尝试统一传统强化学习和大模型后训练里常见的“比值裁剪”范式。如果这个方向后续被更多团队复现，它可能影响的不只是单个算法名词，而是整个 RLHF、GRPO 变体和 agent policy optimization 的实现习惯。过去很多训练系统是在 PPO 的经验成功上继续堆工程，这篇工作的潜在价值，则是给这些系统提供一个更一致的目标函数解释和新的替代接口，让后续优化器、奖励建模和训练稳定性工具链有机会一起重构。

BRRL 从理论上重写 PPO 路线，并把同一框架延伸到 LLM 微调