“AI 预测未来”赛道登顶!北京中关村学院信息智能团队统斩获全球桂冠
近日,北京中关村学院信息智能团队自主研发的智能体系统Milkyway,在 FutureX 评测中凭借 60.9 分登全球榜首。 FutureX 是专门考验“AI 预言能力”的国际动态评测基准,由字节跳动、斯坦福、复旦、普林斯顿大学等顶尖学术机构团队联合发起,在 HuggingFace 上公开数据集,用尚未揭晓的真实事件考验 AI 预测能力 ——地缘博弈、政策走向、经济波动,答案由现实裁定,没有模糊空间。首期冠军是埃隆·马斯克公司(Elon Musk)旗下的 Grok4,马斯克本人曾在社交媒体公开表示:“预测未来的能力,是对模型智能性最好的测试”。 本期 Grok4 得分 25.9,而 Milkyway 凭借 60.9 分登顶 ——超出一倍有余。 2025 年 9 月,埃隆·马斯克公开表示:“预测未来的能力,是对模型智能性最好的测试。” 近期,越来越多重量级玩家看到了“AI 预测未来”这一方向的价值。Thinking Machines 于 3 月 19 日发布技术博客,展示了用强化学习微调 120B 开源模型做事件预测的方案——以真实世界结果作为 reward 信号训练,微调后的模型性能追平 frontier LLM,并能与之形成互补。陈天桥近期宣布组建的 MiroMind 则推出 235B 参数的 MiroThinker 推理模型,采用双层验证器架构实时审核推理步骤与逻辑一致性,配合 DAG 推理协议支持分支探索和动态重规划。 系统需要从全球碎片化的蛛丝马迹中搜寻信号,自主推论,甚至构建模拟。真实世界提供真实反馈,对错由现实裁定,形成持续进化的闭环。能做到这一点,意味着对世界运转规律的理解达到了新深度——这是 AI 智能性实现跃迁的重要方向。Milkyway 的突破不仅靠模型本身,更靠我们在 harness 层的深度攻关——让系统具备跨长周期持续工作、多智能体协作、自我评估与迭代修正的能力,从而能持续跟踪事件演化、动态修正判断。以实例说明,OpenAI 原生模型在该榜单上最高排第九,说明模型之上的智能体系统层同样决定成败。后续,北京中关村学院将持续发布系列相关工作。 Milkyway 由北京中关村学院“AI 核心”学部大模型方向的郑书新副教授带领信息智能团队研发,团队聚焦下一代 AI 核心能力的探索与突破。这一突破背后,是一支充满无限热情与探索精神的团队。团队招募中,期待同行人。

预测未来为什么重要?