Noam Brown: 数学におけるCentaur期の到来と、推論モデルの不可逆的進化

OpenAIのAIモデルがErdős unit distance conjecture（エルデシュの単位距離問題）の反証に成功したというニュースが界隈を駆け巡ってから少しの時間が経った。

本稿では、Bain Capital VenturesのSlater Stichがホストを務めるpodcastにおける、OpenAIのNoam Brownのインタビューを紐解きながら分析を進める。Noam Brownといえば、マルチエージェント推論やtest-time computeのスケーリングを牽引し、世間を驚かせた推論モデル「o1」の開発をリードしたキーパーソンである。彼が語る数学とAIの交差点には、Large Language Model (LLM)のアーキテクチャが直面する本質的な壁と、次なるブレイクスルーの萌芽が隠されている。

チェス、Go、そして「Self-play」の幻想

AIが人間の知能を凌駕する過程を語る際、我々は幾度となくチェスにおけるDeep Blueや、Go（囲碁）におけるAlphaGoの歴史を引き合いに出す。AIが自らと対戦し、無限にデータを生成しながら青天井で賢くなっていく「Self-play（自己対戦）」のアプローチは、AI研究における魔法の杖のように扱われがちだ。

しかしNoamは、この単純なアナロジーを冷徹に否定する。なぜなら、チェスやGoは「two-player zero-sum game（2プレイヤーのゼロサムゲーム）」という極めて特殊な環境だからだ。この環境下では、勝つか負けるかという明確な目的関数が存在し、Minimaxポリシーへの収束という客観的な正解に向かって自己対戦を繰り返すことができる。外部からの人間のデータなど一切不要で、AIは自らのミスから学習し続けることが可能だ。

一方で、数学の証明プロセスはそのような単純な構造をしていない。仮に数学でSelf-playを模倣し、「問題を作るAI」と「それを解くAI」を競わせたとしよう（ProposerとSolverの敵対的生成）。ここには決定的な問題が生じる。「問題を作るAI」は、人間にとって全く無価値だが解くのが死ぬほど難しい問題（例えば、電卓なしでの50桁の掛け算など）を生成してしまう可能性があるからだ。Ultimatum game（最後通牒ゲーム）のように、ゼロサムゲームの枠組みを外れた瞬間に、Self-playが美しく完璧な戦略へと収束するという前提は崩れ去る。

つまり、数学領域でAIが超人的（superhuman）な領域に到達するための道筋は、チェスやGoの時のような「無限の自己対戦によるチートモード」ではなく、より複雑で、人間的な価値基準（何が面白い数学の問題なのかというテイスト）の介入を伴うものにならざるを得ない。

「推論」のみにボトルネックされる無限の遊び場

Self-playという魔法の杖が使えないとしても、AIにとって数学が極めて魅力的なターゲットであることには変わりない。その最大の理由は、数学という分野が「純粋に推論（reasoning）のみにボトルネックされている」点にある。

物理学や生物学などのAI for scienceの文脈において、AIがどれほど素晴らしい仮説や理論を構築したとしても、最終的には現実世界のWet lab（ウェットラボ）での実験や、莫大なコストをかけた物理実験によるデータの収集・検証がボトルネックとなる。思考のスピードで世界は進まないのだ。

しかし、数学にはこの現実の物理的制約が存在しない。暗い部屋の片隅で、ただひたすらに「考える」ことだけでブレイクスルーを生み出すことができる。この性質は、test-time compute（テスト時の計算量）をかければかけるほど性能がスケールするというo1モデルのアプローチと完璧に合致している。事実、Erdős予想の反証においても、膨大なtest-time computeを投下することで、問題の解決確率が劇的に向上することが確認されている。モデルの推論能力さえ向上させれば、あとは計算資源の暴力によって未知の領域を切り拓くことができるという事実は、AI研究者にとって垂涎の的だろう。

専門分化の壁と「Centaur（ケンタウロス）」の時代

現在、AIと人間の数学者の関係性は、かつてのチェス界が経験した「Centaur（ケンタウロス）」の時期に突入しつつある。Garry KasparovがDeep Blueに敗れた後、人間とAIがタッグを組んで戦うことで、単体の人間や単体のAIよりも強い時代がしばらく続いた。数学も今、まさにそのフェーズにある。

現代の数学は高度に専門分化（Specialization）が進んでおり、トップクラスの数学者であっても、自分の専門外の最新論文をすべて把握することは物理的に不可能だ。ここにAIの圧倒的なComparative Advantage（比較優位）が存在する。AIは、代数的整数論から組合せ幾何学まで、広大な数学のあらゆる領域の文献を瞬時に横断し、人間が見逃すような異なる分野のアイデアを結合（Combine）させることができる。この「知識の結合力」において、AIはすでに人間を超越している。

この状況下において、人間の数学者の役割は劇的に変化する。ゴリゴリと自力で複雑な計算や証明を行う職人から、AIモデルという強力な推論エンジンの手綱を握り、「どの問題に取り組むべきか」「どの方向に探索を進めるべきか」というResearch taste（研究のセンス）を発揮するプロンプター、あるいはディレクターへと移行していくのだ。

皮肉なことに、今後数年間で最も偉大な数学的発見をするのは、圧倒的な計算力を持つFields Medalist（フィールズ賞受賞者）ではなく、AIモデルの癖を理解し、彼らに適切な「コンテキスト」と「問い」を与えることに長けた、新世代の「ケンタウロス・マスマティシャン」になる可能性が高い。

Scalable Oversight：理解不能な真理とどう向き合うか

しかし、この先にはさらに絶望的で興味深い課題が待ち受けている。AIモデルの能力がさらに向上し、人間の能力をあらゆる側面で完全に凌駕した時、我々はそのAIが導き出した証明が「正しい」とどうやって確認すればよいのだろうか。

Erdős予想の反証が示された際、高名な数学者であるTimothy Gowersでさえ、その解法が複雑すぎて当初は「人間はもう完全に終わった」と夜も眠れないほどの衝撃を受けたという。最終的には、その証明が超絶技巧のカウンターエグザンプルの構築であったことがわかり安堵したようだが、これは近い将来に訪れる危機の予兆に過ぎない。

AIが生成する証明が、人間の認知限界を超えて複雑化していくことは避けられない。数十分野の理論を横断し、数万ステップの推論を経て導き出された真理を前に、人間の数学者はただ頷くことしかできなくなる。ここにきて、AI Alignment（アライメント）における古典的かつ最大の難問である「Scalable Oversight（スケーラブルな監視）」が、純粋数学の世界で現実の課題として牙を剥くこととなる。

我々は、人間に理解できない証明を検証するために、別のAIモデルを使って「その証明が正しいことを人間にわかるように説明させる（あるいは証明させる）」というメタ的なタスクをAIに課さざるを得なくなる。AIの吐き出したブラックボックスの真理を、別のAIが翻訳して初めて人間が咀嚼できるという構図は、もはや我々が数学を「探求」しているのか、AIの思考の「観察者」に成り下がっているのかを曖昧にする。

OpenAIは現在、こうした特化型のモデルを特定の数学者にだけ提供し続けるのではなく、モデル自体の汎用的な推論能力を向上させ、次世代のGPTシリーズとして広く世界に投下することに注力しているという。開発者目線では、「早く特化型のAPIとして公開してくれよ」と愚痴りたくもなるが、汎用的な推論能力の底上げこそがAGIへの最短経路であるという彼らの主張は、理にかなっていると言わざるを得ない。

我々は今、純粋理性のフロンティアが、人間の脳髄からシリコンの海へと不可逆的に移譲されていく歴史の転換点に立ち会っている。数年後、数学の教科書にAIモデルの名前が「共同発見者」としてではなく、「単独の定理証明者」として刻まれる日は、我々が思っているよりもずっと近いのかもしれない。