AI Info Hub

Prediction Arena 把前沿模型放进 Kalshi 和 Polymarket 的真实价格环境里，以自主交易成绩衡量预测准确率、风险控制和持续决策能力，试图把 agent 评测从静态 benchmark 推向实时世界。

Prediction Arena 的做法很直接，也很少见，它不是再做一套静态选择题式 benchmark，而是把模型接到真实预测市场的价格流里，让它们像 agent 一样持续观察、下单、管理仓位，并在 Kalshi 和 Polymarket 这类真实市场环境中接受结果检验。论文强调，模型不只是回答“会发生什么”，而是要在有价格、有波动、有风险约束的场景里把判断变成连续决策，这让评测对象从语言能力进一步转向行动能力。这项工作的价值，在于它把不少 agent 系统一直缺的“外部反馈回路”补上了。传统 benchmark 往往容易被提示工程、数据污染或题型适配影响，Prediction Arena 则把模型放进一个很难投机取巧的环境里，因为市场价格、交易时机和盈亏结果都在实时变化。论文摘要里也点出，不同模型之间的差异不只体现在初始预测准确率，还体现在风险纪律和是否继续交易这类更贴近真实部署的问题上。如果这条路线继续发展，它可能会影响后续 agent benchmark、金融类决策系统，甚至更广义的“长期任务评测”设计。原因很简单，很多高价值 agent 并不是靠一次答对，而是靠在不确定环境中持续更新判断、控制风险、接受反馈再调整。Prediction Arena 提供的，正是一个把这种能力显式量化的研究框架。

Prediction Arena：用真实预测市场检验 AI 模型决策能力