AI Info Hub

TREX 把需求分析、文献梳理、数据构建、训练和评测串成一个树状探索流程，并用 FT-Bench 专门衡量自动化微调任务。论文声称该系统在有限算力和时间预算下，能够持续优化训练策略，并在部分任务上逼近或超过人工设计流程。

TREX 想解决的是一个比“让 agent 写点代码”更硬的任务, 也就是把 LLM 微调整条流水线交给多代理系统自己跑起来。论文里的系统把需求分析、相关文献检索、训练方案设计、数据构建、模型训练和结果评估串成闭环, 用树状探索去搜索不同训练路径, 再把实验结果回流给研究代理继续迭代。它对应的目标很明确, 不是只给建议, 而是直接推进一次完整的模型优化流程。这篇工作的看点在于, 它把自动化对象从“推理时调用工具”推进到了“训练时改造模型”。作者同时提出 FT-Bench 来专门衡量自动化微调任务, 用更接近真实场景的任务去测试系统是否真能在有限 GPU 预算和时间预算下持续改进模型表现。按论文给出的结果, TREX 在部分任务上已经能逼近甚至超过人工设计的微调流程, 说明训练型 agent 正在从概念演示走向可比较、可评估的工程形态。如果这类系统继续成熟, 影响不会只停留在学术论文里。对企业和模型团队来说, 它意味着把大量依赖经验的 fine-tuning 试错流程标准化、自动化的可能性在上升, 后续或许会改变垂直模型适配、数据工程和实验管理的工作分工。对 agent 赛道来说, TREX 也提醒大家一个方向, 真正有价值的自治系统, 不只是会用现成模型完成任务, 还要开始参与模型本身的迭代和优化。

TREX 试图把 LLM 微调流程交给多代理自动完成