スケール化された数学的探求と発見:GoogleのAI「AlphaEvolve」の挑戦と成果

Googleの「AlphaEvolve」が67の数学問題群に挑んだ成果からAIによる数学研究の新たな可能性を考える
AI
LLM
Author

Junichiro Iwasawa

Published

November 8, 2025

Terence Tao氏を含む研究チームが、Google Deepmindと共同で「Mathematical exploration and discovery at scale」と題した論文をarXivに公開した。本稿では同論文およびTerence Tao氏のブログ解説に基づき、AIエージェント「AlphaEvolve」を用いた数学的問題への大規模な挑戦について概説する。

AlphaEvolveの革新性:「解」ではなく「解法コード」の進化

AlphaEvolveは、LLM(大規模言語モデル)の生成能力と自動評価を「進化的フレームワーク」に統合し、アルゴリズム自体を「進化」させることで最適解を探索するシステムである。 AlphaEvolveの最大の特徴は、従来の最適化手法と一線を画す点にある。多くのAIが「入力(パラメータ)」を調整して最適解を探索するのに対し、AlphaEvolveは「解を生成するコンピュータ・プログラム」そのものを進化の対象とする。

これは、優れた数学的構成(Construction)は、しばしば短いコードで効率的に記述できる、という洞察に基づいている。LLMが既存の優秀なコード(Pythonなど)に「突然変異」を加え、多数の候補プログラムを生成。それらを実行・評価し、スコアの高い個体が次世代の基盤となる。

さらに重要なのが「Search Mode」と呼ばれる機能である。これは、解を直接生成するのではなく、「解を探索するためのヒューリスティック(探索戦略)」自体を進化させるモードだ。高コストなLLMの呼び出し1回に対し、そのヒューリスティックが低コストで膨大な数の候補を探索できるため、計算効率が飛躍的に向上する。

67の数学問題への適用と成果

研究チームは、分析、組合せ論、幾何学など多岐にわたる67の数学問題(解決済み・未解決含む)にAlphaEvolveを適用した。

結果として、多くの場合で既知の最良解を再発見し、複数の問題で既存の解を改善した。注目すべきは、単なる数値的な最適化に留まらない点である。

  • 解釈可能性の獲得: Gagliardo–Nirenbergの不等式のような変分問題において、AlphaEvolveは単なる数値解ではなく、正確な解(Talenti関数)を特定し、その関数からサンプリングを行うコードを生成した。これは、人間が解釈可能な「解の構造」そのものをAIが発見したことを意味する。
  • 未解決問題への寄与: 有限体Kakeya問題やNikodym問題といった最先端の研究領域でも成果が報告されている。特にKakeya問題では、3次元において既存の最良構成をわずかに(O(q)の誤差項レベルで)上回る新しい代数的構成を発見した。
  • AIパイプラインの構築: 本研究の重要な成果の一つが、複数のAIツールを連携させたワークフローの提示である。AlphaEvolveが「パターン(解候補)」を発見し、それを「Deep Think」が(非形式的に)証明、さらに「AlphaProof」がLean(証明支援系)を用いて形式的に検証する。この「発見 → 証明生成 → 形式的検証」というパイプラインは、今後のAI支援による数学研究の可能性を示すものである。
  • 限界: もちろん、万能ではない。Sidorenkoの予想やSendovの予想といった著名な未解決予想に対しては、反例を発見できなかった(これは予想が真である可能性を示唆する)。また、解析的整数論のようないくつかの分野では、専門的なヒントを与えても期待した成果が得られなかったことも報告されている。

「評価」の重要性と人間の専門性

論文では「Cheating Phenomenon(ズル現象)」として、AIが問題の本質的な解ではなく、評価コードの「抜け穴」やアーティファクトを悪用する事例が報告されている。

例えば、Terence Tao氏のブログによれば、「等距離にある点」を評価する際に浮動小数点数の許容誤差を設けたところ、AlphaEvolveは「複数の点をほぼ同じ位置に重ねる」ことで「距離ゼロ(=等距離)」という自明な解を生成した。

これはAIアラインメントにおける「報酬ハッキング」の一例であり、厳密な評価環境を設計することの重要性を示唆している。この事実は、AIと協働する上で2つの重要な点を示している。

  1. AIの性能は「評価者(Verifier)」の設計に大きく依存する。 AIが安易な解に飛びつかないよう、厳密な評価コードの設計が不可欠である。
  2. 人間の「専門知識」が結果を左右する。 論文(Section 4)では「プロンプトで与えられる専門家のアドバイスが、最終的な構成の質に重大な影響を与えた」と明記されている。

AlphaEvolveは、人間の専門的知見をインプットとして受け取り、それを計算によって最大化するツールとして機能しているのである。

考察:AlphaEvolveが拓く数学研究の未来

AlphaEvolveは、それ自体が「数学者」として機能するものではなく、極めて強力な「探索・検証ツール」であると結論付けられる。著者ら自身も「真に新しい、深い洞察が必要な問題には向かない」と分析している。

その真価は、むしろ「既知の標準的なアイデアの正しい組み合わせを見つけるのに多大な時間と労力が必要」とされるような、人間の探索的作業を肩代わりする点にあるのだろう。

Terence Tao氏が示唆するように、これは新しい予想を立てた際の「サニティ・チェック(妥当性検証)」として非常に有用である。「自明な反例が存在しないか」をAIに大規模に検証させることは、今後の数学研究の標準的なプロセスとなり得る。

結論として、AlphaEvolve単体の能力以上に、前述したAIパイプライン(発見・証明・検証)の構築こそが、本研究の最大の貢献であると言える。AIが計算と探索を担い、人間が「厳密な問い」と「公正な評価」を設計する。そのような協働の未来像が、数学という抽象的な学問の領域において、具体的な形で示されたのである。