56年没解开的数学题,AI用几百美元搞定了
不知道你有没有过这种感觉,就是当你以为AI已经差不多"就这样了"的时候,它突然又给你整出一个让你愣住的东西。
就像今天这件事。
谷歌DeepMind昨天发了一篇论文,他们搞了一个叫AlphaProof Nexus的东西,听着像个科幻电影里的代号对吧?结果这玩意做的什么?它在353个开放的Erdős问题里自主解决了9个,其中2个已经悬而未决了56年。
56年。我算了一下,这比很多读这篇文章的人的父母年龄都大。如果这些数学题是1968年提出来的,那年人类第一次看到地球从月球地平线升起的照片、马丁·路德·金刚遇刺不久。然后这些题就在那,一晃半个多世纪。
现在被一个AI用几百美元的成本给摆平了。
坦率的讲,我之前对"AI证明数学定理"这件事一直持观望态度。我知道DeepMind之前搞过AlphaFold搞定蛋白质折叠,也听说他们有AlphaProof在搞数学。但内心总觉得——数学这玩意,不太一样吧?它不光是计算能力的问题,它需要一种叫"直觉"的东西。你让一个语言模型去推数学定理,听着就像让一个背了所有菜谱的人去做满汉全席。
但读完论文之后,我被打脸了。而且打得还挺服气。
这事到底多离谱?
先说说Erdős问题是谁。保罗·埃尔德什,20世纪最"高产"的数学家——没有之一。这哥们一生发表了1500多篇论文,跟509个人合写过文章。他不谈恋爱不买房子不存钱,拎着行李箱满世界找数学家朋友讨论问题,住到人家家里就说"我的大脑是打开的"。
他留下的问题,全是硬骨头。
就是那种,你打开一看觉得"好像也不难嘛",然后试了试发现哪里都不对,再然后挂个几个月甚至几年都做不出来的题。数学界的共识是,这些问题里面有不少可能就是"有生之年"级别。
AlphaProof Nexus一口气解决了9个。其中2个悬了56年。
而且论文里的成本数据让我更无语。每个问题的推理成本——只要数百美元。
就……几百美元?这不是P级算力集群烧几个月,不是花几百万电费。就是几百美金,够在好一点餐馆请人吃顿饭的价钱。
当然,这里面不是没有前提。你得先有一个极高水平的LLM(Gemini 3.1 Pro)、一套形式化验证系统(Lean编译器)和一套精心设计的Agent架构。但即便把这些前期成本算上,边际成本低到这个程度,还是让人觉得有点不真实。
这个"Nexus"到底是怎么干的?
说真的,读论文里关于架构的部分,我脑子里浮现出的画面是一个人的工作台,上面摆着四台显示器,每台都在做不同的事但互相关联。
AlphaProof Nexus由4个复杂度递增的AI Agent组成,从A到D:
Agent A最简单,就是让Gemini 3.1 Pro反复写Lean代码,写一段然后让Lean编译器检查一段,不行就报错重来。像极了我刚学编程时对着IDE狂按编译的蠢样子——但人家有编译器这个"严师",一句空话都不让过。
Agent B接入了AlphaProof,可以在证明写到一半卡住的时候,自动补全缺失的证明片段。有点像一个助理帮你填补细节。
Agent C加入了进化机制。多个证明草稿同时跑,互相共享思路、彼此评分、排序竞争。哪条路径走不通,自动被淘汰。有点像达尔文那套,只是竞争环境变成了数学证明空间。
Agent D把前面三个的能力全部整合了。
但我读到这一段的时候笑了一下——论文里说,原本用来攻克Erdős问题的是功能最全的Agent D,但研究者发现,最简单的Agent A其实也能证明这9个已解问题,只是花的时间更多。
所以我特别认同论文里那句:这反映了底层模型能力持续提升,以及编译器反馈对LLM推理的"锚定"作用越来越强。
意思就是——Gemini 3.1 Pro本身已经足够聪明,聪明到即使不加任何花哨的机制,单靠"写代码→检查→报错→重写"这个最笨的循环,也能解决这些难题。你不觉得这事本身就挺吓人的吗?
编译器"锚定"这件事
我想展开聊聊"编译器反馈对LLM推理的锚定作用",因为我觉得这个点太重要了,可能是这篇论文真正值得关注的信号。
你知道LLM做数学最大的问题是什么吗?幻觉。它会很自信地给出一个看起来像模像样的推导过程,然后中间某一步悄悄地犯了小学生级别的错误。过去做数学辅助的时候,这个问题几乎无解——因为没人给它"批改作业"。
Lean编译器就是那个批改作业的严苛老师。
每一步都必须是严格精确的。你不能说"显然可得",你必须把"显然"背后的每一步推理用形式化语言写出来。编译器不接受任何模糊、省略和跳跃。
所以整个过程就变成:AI写证明→编译器报错→AI改→再报错→再改→直到所有子目标全部验证通过。
这个循环的本质是什么?是把LLM的自由联想能力——那种它最擅长的、无边界的、会飘走的创造力——用一个形式化框架给"锚住"了。它依然在疯狂联想,但联想的方向被框在了一个正确性的笼子里。
我觉得这个思路可能不仅仅适用于数学。它在暗示一种更通用的东西:AI的能力释放,往往需要给它一个"对与错"的刚性判断框架。
你让一个AI去写小说、写营销文案,它可能是你的得力助手。但如果你哪天想让AI去写法律文件、去写医疗诊断、去写你给我钱我要给你落地的方案,没有这个"锚定"系统,你心里不踏实。
那些被解开的题
回头说那些被解开的题本身。
我其实没法用数学语言跟你描述它们长什么样——组合数论、Hilbert函数、凸优化界这些问题离我的知识范围隔了十万八千里。但论文里附了一张图,我觉得特别有意思。
这张图画的是4个Agent变体在6个不同的Erdős问题上的表现。横轴是平均美元成本,纵轴是解决率。四个变体用不同颜色标注。在简单问题上,所有变体都接近100%解决率且成本极低。但随着问题变难(比如erdos_125),解决率全面下降,但Agent D(整合全部能力的那个)依然能在更高成本下维持一个相对不错的解决率。
这张图放在那,我觉得比任何宣传词都有说服力。它诚实——它告诉你当前上限在哪、钱花到哪里去、为什么越难的问题越烧钱。不是那种"AI全面超越人类数学家"的宏大叙事,而是"在可控成本内,AI能解决一部分以前无法解决的问题"。这个表述精确、克制、有边界感。
而这种克制感让人更信服。
聊聊那个"56年"的时间尺度
我对"56年"这个数字最有感觉。不是因为惊讶于技术的进步,而是因为——56年,意味着提出这些问题的人可能已经不在了。
埃尔德什是1996年去世的。他在世的时候,可能想象过有人或物能解决他的问题,但他肯定猜不到会是一段代码。而当年为了这些题耗费心血的数学研究者们,可能有的人已经退休,有的人转了行,有的人把这些问题传给了学生。
现在一个LLM在几小时内把解题过程写成了Lean代码。
这种感觉怎么说呢。不像是"AI碾压人类",更像是一个迟来的句号。是有人——不,是有个东西——替那些工作了半辈子的人,翻过了最后几页。
我始终觉得这才是AI最让人动容的地方。不是取代,是完成。
格局打开
再说远一点。
我前几天在想一个问题——AlphaFold搞定蛋白质结构预测,是不是本质上和AlphaProof搞定数学难题是同一件事?一个是生物学的空间折叠问题,一个是数学的证明空间搜索问题。一个用物理实验数据来验证折叠正确性,一个用编译器来验证证明正确性。
结构上多么相似:输入→空间搜索→刚性验证器验证→反复迭代→输出。
而最近的OpenAI的o3、Claude的思维链、DeepSeek的自我修正,本质上都在往这个方向走:给AI提供一条"可验证的、可回溯的、可修正的"路径。
那如果把这些串起来看,你会发现一个有趣的事情:真正让AI从"聊天机器人"变成"解题机器"的关键,从来不是模型变得更大,而是给它的"解题过程"装上了反馈回路。
AlphaProof的Lean编译器是一个反馈回路。AlphaFold的蛋白质结构数据库是一个反馈回路。DeepSeek-R1的GRPO训练策略也是一个反馈回路。
没有反馈回路,AI就是一本会说话的百科全书。有了反馈回路,AI才变成一个能发现新东西的研究助手。
这个逻辑放到更大的尺度,其实也成立。人类的科学进步为什么最近几百年突然加速?是因为科学方法本身就是一个反馈回路——你提出假设→设计实验→观察结果→修正假设。没有这个回路,知识可能一直停留在"我觉得"的阶段。
写在最后
回到AlphaProof Nexus这件事本身。它解决9道数学题,其中2道扣了56年,总共花了几百美元/题。这个事实本身就值得单独写一篇文章来消化。
但我觉得比这个事实更有意思的是信号的方向:AI做数学这件事,已经从"能不能"的阶段进入了"多少钱"的阶段。 你不是不能做,而是看你愿意花多少钱做。这不是功能性问题了,这是经济性问题——这意味着它已经跨越了从"能不能"到"值不值"的临界点。
而这可能是所有技术走向大规模应用的关键一步。不是等它变得完美,而是等它变得便宜。
这个感觉,怎么说呢。
就像在经历了漫长的等待和怀疑之后,你突然发现,原来那些挂在墙上落了灰的题,有人——有东西——开始一笔一划地、一个符号一个符号地在帮我们擦了重写。
而且它写得很便宜。
以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~
谢谢你看我的文章,我们,下次再见。
/ 作者:看山先生 / 投稿或爆料,请联系邮箱:helleo@kanzan.top