AI Info Hub · 用更短的时间看懂真正值得关注的 AI 更新
最新研究2026年4月15日 09:47阅读 0分享 0原始来源 KumoRFM-2 把关系型数据库基础模型继续往多表预测推进
KumoRFM-2 宣称可直接在多张关联表上做 few-shot 与微调预测,不必先手工拍平成单表,在 41 个基准上相对监督与基础模型取得提升。
关系型数据一直是基础模型比较尴尬的一块。文本模型擅长非结构化语料,表格模型通常又只适合单表输入,但真实业务数据往往分散在多张相互关联的表里,既有外键关系,也有时间顺序,还常常伴随噪声和冷启动问题。KumoRFM-2 试图解决的,就是这类“数据库原生”预测任务,不再要求团队先把多表数据硬拍平成单表,再为每个任务单独造特征和训练模型。
这篇论文的关键改动,是把任务信息更早注入模型,让模型在读多表数据时更快聚焦到真正相关的列和关系;预训练上则覆盖行、列、外键和跨样本四个维度,强调对关系结构本身的建模。按论文说法,它在 41 个基准上相对传统监督方法和同类基础方法最多提升 8%,而且在冷启动和噪声更重的场景下也保持住了表现。
如果这条路线成立,影响不会只停留在“表格建模”这个小圈子里。很多 agent、企业分析工具和自动化运营系统,最终都要接数据库做预测、排序、推荐、风控或流失判断。过去这些环节高度依赖特征工程和专门的数据科学流水线,而关系型基础模型若能稳定跨表泛化,后面的数据 agent 很可能会更像直接在业务数据库上做 few-shot 推理,而不是每个任务都从头搭一套传统机器学习系统。