AI Info Hub

KumoRFM-2 宣称可直接在多张关联表上做 few-shot 与微调预测，不必先手工拍平成单表，在 41 个基准上相对监督与基础模型取得提升。

关系型数据一直是基础模型比较尴尬的一块。文本模型擅长非结构化语料，表格模型通常又只适合单表输入，但真实业务数据往往分散在多张相互关联的表里，既有外键关系，也有时间顺序，还常常伴随噪声和冷启动问题。KumoRFM-2 试图解决的，就是这类“数据库原生”预测任务，不再要求团队先把多表数据硬拍平成单表，再为每个任务单独造特征和训练模型。这篇论文的关键改动，是把任务信息更早注入模型，让模型在读多表数据时更快聚焦到真正相关的列和关系；预训练上则覆盖行、列、外键和跨样本四个维度，强调对关系结构本身的建模。按论文说法，它在 41 个基准上相对传统监督方法和同类基础方法最多提升 8%，而且在冷启动和噪声更重的场景下也保持住了表现。如果这条路线成立，影响不会只停留在“表格建模”这个小圈子里。很多 agent、企业分析工具和自动化运营系统，最终都要接数据库做预测、排序、推荐、风控或流失判断。过去这些环节高度依赖特征工程和专门的数据科学流水线，而关系型基础模型若能稳定跨表泛化，后面的数据 agent 很可能会更像直接在业务数据库上做 few-shot 推理，而不是每个任务都从头搭一套传统机器学习系统。

KumoRFM-2 把关系型数据库基础模型继续往多表预测推进