56年没解开的数学题，AI用几百美元搞定了

不知道你有没有过这种感觉，就是当你以为AI已经差不多"就这样了"的时候，它突然又给你整出一个让你愣住的东西。

就像今天这件事。

谷歌DeepMind昨天发了一篇论文，他们搞了一个叫AlphaProof Nexus的东西，听着像个科幻电影里的代号对吧？结果这玩意做的什么？它在353个开放的Erdős问题里自主解决了9个，其中2个已经悬而未决了56年。

56年。我算了一下，这比很多读这篇文章的人的父母年龄都大。如果这些数学题是1968年提出来的，那年人类第一次看到地球从月球地平线升起的照片、马丁·路德·金刚遇刺不久。然后这些题就在那，一晃半个多世纪。

现在被一个AI用几百美元的成本给摆平了。

坦率的讲，我之前对"AI证明数学定理"这件事一直持观望态度。我知道DeepMind之前搞过AlphaFold搞定蛋白质折叠，也听说他们有AlphaProof在搞数学。但内心总觉得——数学这玩意，不太一样吧？它不光是计算能力的问题，它需要一种叫"直觉"的东西。你让一个语言模型去推数学定理，听着就像让一个背了所有菜谱的人去做满汉全席。

但读完论文之后，我被打脸了。而且打得还挺服气。

这事到底多离谱？

先说说Erdős问题是谁。保罗·埃尔德什，20世纪最"高产"的数学家——没有之一。这哥们一生发表了1500多篇论文，跟509个人合写过文章。他不谈恋爱不买房子不存钱，拎着行李箱满世界找数学家朋友讨论问题，住到人家家里就说"我的大脑是打开的"。

他留下的问题，全是硬骨头。

就是那种，你打开一看觉得"好像也不难嘛"，然后试了试发现哪里都不对，再然后挂个几个月甚至几年都做不出来的题。数学界的共识是，这些问题里面有不少可能就是"有生之年"级别。

AlphaProof Nexus一口气解决了9个。其中2个悬了56年。

而且论文里的成本数据让我更无语。每个问题的推理成本——只要数百美元。

就……几百美元？这不是P级算力集群烧几个月，不是花几百万电费。就是几百美金，够在好一点餐馆请人吃顿饭的价钱。

当然，这里面不是没有前提。你得先有一个极高水平的LLM（Gemini 3.1 Pro）、一套形式化验证系统（Lean编译器）和一套精心设计的Agent架构。但即便把这些前期成本算上，边际成本低到这个程度，还是让人觉得有点不真实。

这个"Nexus"到底是怎么干的？

说真的，读论文里关于架构的部分，我脑子里浮现出的画面是一个人的工作台，上面摆着四台显示器，每台都在做不同的事但互相关联。

AlphaProof Nexus由4个复杂度递增的AI Agent组成，从A到D：

Agent A最简单，就是让Gemini 3.1 Pro反复写Lean代码，写一段然后让Lean编译器检查一段，不行就报错重来。像极了我刚学编程时对着IDE狂按编译的蠢样子——但人家有编译器这个"严师"，一句空话都不让过。

Agent B接入了AlphaProof，可以在证明写到一半卡住的时候，自动补全缺失的证明片段。有点像一个助理帮你填补细节。

Agent C加入了进化机制。多个证明草稿同时跑，互相共享思路、彼此评分、排序竞争。哪条路径走不通，自动被淘汰。有点像达尔文那套，只是竞争环境变成了数学证明空间。

Agent D把前面三个的能力全部整合了。

但我读到这一段的时候笑了一下——论文里说，原本用来攻克Erdős问题的是功能最全的Agent D，但研究者发现，最简单的Agent A其实也能证明这9个已解问题，只是花的时间更多。

所以我特别认同论文里那句：这反映了底层模型能力持续提升，以及编译器反馈对LLM推理的"锚定"作用越来越强。

意思就是——Gemini 3.1 Pro本身已经足够聪明，聪明到即使不加任何花哨的机制，单靠"写代码→检查→报错→重写"这个最笨的循环，也能解决这些难题。你不觉得这事本身就挺吓人的吗？

编译器"锚定"这件事

我想展开聊聊"编译器反馈对LLM推理的锚定作用"，因为我觉得这个点太重要了，可能是这篇论文真正值得关注的信号。

你知道LLM做数学最大的问题是什么吗？幻觉。它会很自信地给出一个看起来像模像样的推导过程，然后中间某一步悄悄地犯了小学生级别的错误。过去做数学辅助的时候，这个问题几乎无解——因为没人给它"批改作业"。

Lean编译器就是那个批改作业的严苛老师。

每一步都必须是严格精确的。你不能说"显然可得"，你必须把"显然"背后的每一步推理用形式化语言写出来。编译器不接受任何模糊、省略和跳跃。

所以整个过程就变成：AI写证明→编译器报错→AI改→再报错→再改→直到所有子目标全部验证通过。

这个循环的本质是什么？是把LLM的自由联想能力——那种它最擅长的、无边界的、会飘走的创造力——用一个形式化框架给"锚住"了。它依然在疯狂联想，但联想的方向被框在了一个正确性的笼子里。

我觉得这个思路可能不仅仅适用于数学。它在暗示一种更通用的东西：AI的能力释放，往往需要给它一个"对与错"的刚性判断框架。

你让一个AI去写小说、写营销文案，它可能是你的得力助手。但如果你哪天想让AI去写法律文件、去写医疗诊断、去写你给我钱我要给你落地的方案，没有这个"锚定"系统，你心里不踏实。

那些被解开的题

回头说那些被解开的题本身。

我其实没法用数学语言跟你描述它们长什么样——组合数论、Hilbert函数、凸优化界这些问题离我的知识范围隔了十万八千里。但论文里附了一张图，我觉得特别有意思。

这张图画的是4个Agent变体在6个不同的Erdős问题上的表现。横轴是平均美元成本，纵轴是解决率。四个变体用不同颜色标注。在简单问题上，所有变体都接近100%解决率且成本极低。但随着问题变难（比如erdos_125），解决率全面下降，但Agent D（整合全部能力的那个）依然能在更高成本下维持一个相对不错的解决率。

这张图放在那，我觉得比任何宣传词都有说服力。它诚实——它告诉你当前上限在哪、钱花到哪里去、为什么越难的问题越烧钱。不是那种"AI全面超越人类数学家"的宏大叙事，而是"在可控成本内，AI能解决一部分以前无法解决的问题"。这个表述精确、克制、有边界感。

而这种克制感让人更信服。

聊聊那个"56年"的时间尺度

我对"56年"这个数字最有感觉。不是因为惊讶于技术的进步，而是因为——56年，意味着提出这些问题的人可能已经不在了。

埃尔德什是1996年去世的。他在世的时候，可能想象过有人或物能解决他的问题，但他肯定猜不到会是一段代码。而当年为了这些题耗费心血的数学研究者们，可能有的人已经退休，有的人转了行，有的人把这些问题传给了学生。

现在一个LLM在几小时内把解题过程写成了Lean代码。

这种感觉怎么说呢。不像是"AI碾压人类"，更像是一个迟来的句号。是有人——不，是有个东西——替那些工作了半辈子的人，翻过了最后几页。

我始终觉得这才是AI最让人动容的地方。不是取代，是完成。

格局打开

再说远一点。

我前几天在想一个问题——AlphaFold搞定蛋白质结构预测，是不是本质上和AlphaProof搞定数学难题是同一件事？一个是生物学的空间折叠问题，一个是数学的证明空间搜索问题。一个用物理实验数据来验证折叠正确性，一个用编译器来验证证明正确性。

结构上多么相似：输入→空间搜索→刚性验证器验证→反复迭代→输出。

而最近的OpenAI的o3、Claude的思维链、DeepSeek的自我修正，本质上都在往这个方向走：给AI提供一条"可验证的、可回溯的、可修正的"路径。

那如果把这些串起来看，你会发现一个有趣的事情：真正让AI从"聊天机器人"变成"解题机器"的关键，从来不是模型变得更大，而是给它的"解题过程"装上了反馈回路。

AlphaProof的Lean编译器是一个反馈回路。AlphaFold的蛋白质结构数据库是一个反馈回路。DeepSeek-R1的GRPO训练策略也是一个反馈回路。

没有反馈回路，AI就是一本会说话的百科全书。有了反馈回路，AI才变成一个能发现新东西的研究助手。

这个逻辑放到更大的尺度，其实也成立。人类的科学进步为什么最近几百年突然加速？是因为科学方法本身就是一个反馈回路——你提出假设→设计实验→观察结果→修正假设。没有这个回路，知识可能一直停留在"我觉得"的阶段。

写在最后

回到AlphaProof Nexus这件事本身。它解决9道数学题，其中2道扣了56年，总共花了几百美元/题。这个事实本身就值得单独写一篇文章来消化。

但我觉得比这个事实更有意思的是信号的方向：AI做数学这件事，已经从"能不能"的阶段进入了"多少钱"的阶段。 你不是不能做，而是看你愿意花多少钱做。这不是功能性问题了，这是经济性问题——这意味着它已经跨越了从"能不能"到"值不值"的临界点。

而这可能是所有技术走向大规模应用的关键一步。不是等它变得完美，而是等它变得便宜。

这个感觉，怎么说呢。

就像在经历了漫长的等待和怀疑之后，你突然发现，原来那些挂在墙上落了灰的题，有人——有东西——开始一笔一划地、一个符号一个符号地在帮我们擦了重写。

而且它写得很便宜。

以上，既然看到这里了，如果觉得不错，随手点个赞、在看、转发三连吧，如果想第一时间收到推送，也可以给我个星标⭐～

谢谢你看我的文章，我们，下次再见。

/ 作者：看山先生 / 投稿或爆料，请联系邮箱：helleo@kanzan.top