AI突破奥赛难题解题能力媲美银牌选手

必读文章
邓嘉豪https://www.aistar.news
专注于人工智能和网络安全领域,爱好侦探小说,善于将枯燥的技术内容包装成引人入胜的故事。

编辑:马青禾

突破性进展:AlphaProof与AlphaGeometry 2为数学推理AI树立新标杆

2024年7月25日,Google DeepMind发布了其在人工智能数学推理领域的最新成就:两套突破性系统AlphaProof和AlphaGeometry 2,以优异表现解析了国际数学奥林匹克竞赛(IMO)中的高难度问题,总分达到了28分,相当于人类参赛者的银牌水平。这一进展不仅标志着AI在抽象数学推理领域取得历史性飞跃,也为人工智能推动科学技术的未来发展开辟了全新路径。

作为全球最古老、规模最大、最具声望的青少年数学竞赛,IMO每年吸引来自世界各地的年轻数学精英参赛,其设题涵盖代数、组合数学、几何和数论的最前沿问题,解决难度极大。从1959年创办以来,诸多IMO获奖选手最终成为数学界翘楚,其中甚至包括菲尔兹奖得主。近年来,IMO也被视为人工智能领域的重大挑战之一,为衡量AI解决复杂数学推理能力提供了重要衡量基准。

在今年的IMO竞赛中,AlphaProof和AlphaGeometry 2成功解决了六道题目中的四道,成绩达28分,仅差1分便可进入金牌门槛。两套系统的表现得到了评审组的权威认可,其中包括一名曾获得多枚IMO金牌并摘得菲尔兹奖的数学家,以及2024年IMO问题遴选委员会主席。

AlphaProof是一种基于强化学习的革命性AI系统,专注于形式化数学语言的推理,其设计灵感来源于AlphaZero在棋类游戏中的成功。通过将非正式数学问题自动转换为正式的形式化语言,AlphaProof可生成解题候选路径,并通过形式化验证算法快速证明或反驳。这种形式化方法有效避免了自然语言推理中常见的逻辑偏差或错误假设问题。

在IMO备赛期间,AlphaProof创建了一个涵盖数百万个形式化问题的训练库,从简单到复杂逐渐递进,持续优化其解决问题的能力。在正式比赛中,AlphaProof解决了两道代数题和一道数论题,并证明了所有答案的正确性。此外,它还攻克了被认为是今年最困难的比赛题目,该题目仅有五名人类选手解答成功,其强大能力可见一斑。

AlphaGeometry 2是AlphaGeometry的第二代系统,采用了神经符号混合架构,并显著提升了计算能力。相比前代产品,其解决几何问题的成功率从53%提高到83%。通过引入全新知识共享机制,该系统能够动态组合多条搜索路径,从而应对更复杂的几何题目。在今年的IMO竞赛中,AlphaGeometry 2仅用19秒就完成了解析,成功解决了一道几何题目,证明了其独特创新点和卓越高效的推理能力。

举例来说,对于几何题目“证明∠KIL和∠XPY之和为180度”,AlphaGeometry 2通过引入一个新构造点以及相关辅助线,成功构建多对相似三角形,并得出了准确结论。其给出的解题方法甚至超越了人类数学家的预期,IMO评审组对此表示高度赞扬:“这种非显而易见的构造能力令人震惊,远远超出了当前人工智能水平的预期。”

除了形式化数学推理外,研究团队还尝试了基于自然语言的推理系统,这种方法无需将问题翻译为形式化语言。尽管相关技术尚处于实验阶段,但在解决今年IMO部分问题上的尝试已经展现出巨大的潜力,这为未来AI通用推理能力的提升奠定了重要基础。

研究团队相信,未来数学家可以与类似AlphaProof的AI工具协作,以探索新假设、加速长难度证明的推进过程,同时推动数学与科学领域的突破性创新。

AlphaProof与AlphaGeometry 2的研发得益于众多科研人员的协作贡献,同时也感谢国际数学奥林匹克委员会的大力支持。研究团队计划在未来发布更多技术细节,并继续推进AI在多领域推理能力的研究工作。随着技术的不断发展,AI与数学合作的未来将更加令人期待。

人工智能的脚步已然迈入数学的核心领域,其改变人类科学研究模式的潜力正在逐步展现。AlphaProof与AlphaGeometry 2的问世无疑是这一旅程的重要里程碑。


您的浏览器不支持视频标签。https://www.aistar.news/wp-content/uploads/2025/03/2219_100.mp4

[AI之星网出品] [AI数学推理] [AlphaProof与AlphaGeometry 2] [国际数学奥林匹克IMO] [人工智能应用于数学] [刘智勇频道][机器姬智能体][真机智能][机器洞察网][AI之星网][风投高科网][猛虎财经网][硅基科学网]


📚 更多资源分享:刘智勇频道第二卷

💾 百度网盘链接: https://pan.baidu.com/s/1ZymM4kNFajhq-ANDxHRl9Q?pwd=qwer

🔑 提取码: qwer


LEAVE A REPLY

Please enter your comment!
Please enter your name here

- Advertisement -
最新新闻

英伟达股价上涨8黄仁勋称6600亿美元资本支出可持续

“在人类历史上,从未有过一种技术,其增长能以‘翻倍再翻倍’的速度持续,并重塑经济与未来——人工智能正是这样的革命。” “在人类历史上,从未有过一种技术,其增长能以‘翻倍再翻倍’的速度持续,并重塑经济与未来——人工智能正是这样的革命。”
- Advertisement -

更多相关文章