首页/最新研究/正文

AI Info Hub · 用更短的时间看懂真正值得关注的 AI 更新

最新研究2026年4月12日 16:13阅读 0分享 0原始来源

Prediction Arena:用真实预测市场检验 AI 模型决策能力

Prediction Arena 把前沿模型放进 Kalshi 和 Polymarket 的真实价格环境里,以自主交易成绩衡量预测准确率、风险控制和持续决策能力,试图把 agent 评测从静态 benchmark 推向实时世界。

Prediction Arena 的做法很直接,也很少见,它不是再做一套静态选择题式 benchmark,而是把模型接到真实预测市场的价格流里,让它们像 agent 一样持续观察、下单、管理仓位,并在 Kalshi 和 Polymarket 这类真实市场环境中接受结果检验。论文强调,模型不只是回答“会发生什么”,而是要在有价格、有波动、有风险约束的场景里把判断变成连续决策,这让评测对象从语言能力进一步转向行动能力。 这项工作的价值,在于它把不少 agent 系统一直缺的“外部反馈回路”补上了。传统 benchmark 往往容易被提示工程、数据污染或题型适配影响,Prediction Arena 则把模型放进一个很难投机取巧的环境里,因为市场价格、交易时机和盈亏结果都在实时变化。论文摘要里也点出,不同模型之间的差异不只体现在初始预测准确率,还体现在风险纪律和是否继续交易这类更贴近真实部署的问题上。 如果这条路线继续发展,它可能会影响后续 agent benchmark、金融类决策系统,甚至更广义的“长期任务评测”设计。原因很简单,很多高价值 agent 并不是靠一次答对,而是靠在不确定环境中持续更新判断、控制风险、接受反馈再调整。Prediction Arena 提供的,正是一个把这种能力显式量化的研究框架。