TTT-Discover:テスト時学習が切り拓く科学的発見の新たな地平

「Learning to Discover at Test Time」論文で提案されたTTT-Discoverは、LLMをテスト時に強化学習で継続的にトレーニングすることで、数学、GPUカーネルエンジニアリング、アルゴリズム設計、生物学といった多様な分野でSOTAを更新する画期的なアプローチを解説する。
LLM
AI
Author

Junichiro Iwasawa

Published

January 23, 2026

近年、大規模言語モデル(LLM)は驚異的な能力を示しているが、その運用方法の多くは「学習済みモデルを凍結(Frozen)して使用する」というパラダイムに留まっていた。推論時計算(Test-Time Compute)を増やすアプローチとして、Chain-of-ThoughtやTree of Searchなどの手法が提案されてきたが、これらはあくまで「凍結された脳」から答えを引き出す探索手法に過ぎない。

2026年1月に発表された論文「Learning to Discover at Test Time」は、この常識を覆す新たな手法 TTT-Discover (Test-Time Training to Discover) を提案した。この手法は、テスト(推論)の最中にLLM自体を強化学習(RL)によって継続的にトレーニングし、「その問題専用の天才」へとモデルを進化させることで、数学、システム工学、アルゴリズム設計、生物学といった多岐にわたる科学領域でState-of-the-Art(SOTA)を更新した。

本記事では、TTT-Discoverの技術的な詳細、従来の探索手法との違い、そして達成された具体的な科学的ブレイクスルーについて解説する。

TTT-Discoverとは何か?:探索から学習へ

科学的な「発見(Discovery)」とは、人類の既存知識の分布外(Out-of-Distribution)にある稀有な解を見つけ出す行為である。従来の手法(例:AlphaEvolve)は、LLMを凍結したままプロンプトエンジニアリングや進化的探索を行うことでこれに挑んできた。

しかし、人間が難問に取り組む際、単に試行錯誤するだけでなく、失敗から学び、その問題に対する直感を研ぎ澄ませていくように、AIもまた「その問題を解いている最中」に学習すべきである。これがTTT-Discoverの核心的なアイデアだ。

従来の強化学習との決定的違い

TTT-Discoverは、単一のテスト問題によって定義される環境で強化学習(RL)を行う。しかし、その目的は標準的なRLとは根本的に異なる。

  1. 汎化ではなく特化: ポリシー(LLM)は他の問題に汎化する必要はなく、目の前の「この1問」さえ解ければよい。
  2. 平均ではなく最大値: 標準的なRLは「期待報酬(平均的な良さ)」の最大化を目指すが、科学的発見においては無数の失敗は許容され、たった一つの「外れ値(傑出した解決策)」が見つかればそれが勝利となる。

この違いに対応するため、TTT-Discoverは独自の目的関数と探索メカニズムを採用している。

技術的構成要素:発見のための学習メカニズム

TTT-Discoverは、主にエントロピー目的関数(Entropic Objective)による重み更新と、PUCTによる状態再利用(Reuse)の2つの柱で構成される。

1. エントロピー効用関数による学習

通常のRL(例:PPO)は期待報酬 \(\mathbb{E}[R]\) を最大化しようとするため、モデルは「安全でそこそこ良い」解に収束しがちである。しかし、発見に必要なのはリスクを冒してでも得られる最大報酬である。

そこでTTT-Discoverは、以下のエントロピー目的関数 \(J_\beta(\theta)\) を採用する。

\[J_\beta(\theta) = \log \mathbb{E}_{a \sim \pi_\theta}[\exp(\beta R(s, a))]\]

ここで \(\beta\) は温度パラメータのような役割を果たし、\(\beta \to \infty\) の極限では、この目的関数は最大報酬 \(\max R\) の最大化と等価になる。これにより、モデルの勾配更新は、平均的なサンプルではなく「指数関数的に重み付けされた高報酬なサンプル」によって支配されるようになる。

また、学習の安定性を保つため、\(\beta\) は固定値ではなく、更新ごとのKLダイバージェンスが一定値(\(\ln 2\))に収まるように適応的に調整される。

2. PUCTによる状態再利用(State Reuse)

難問を一足飛びに解くことは難しいため、有望な部分的解決策(状態 \(s\))を保存し、そこから探索を再開(Reuse)する必要がある。TTT-Discoverは、AlphaZeroなどで用いられる PUCT (Predictor + Upper Confidence Bound applied to Trees) アルゴリズムを変形して採用している。

\[Score(s) = Q(s) + c \cdot P(s) \cdot \frac{\sqrt{T}}{1 + n(s)}\]

ここでの重要な変更点は、\(Q(s)\) の定義である。通常は訪問したノードの「平均価値」を用いるが、TTT-Discoverではそのノード以下で見つかった「最大報酬」を使用する。これにより、一度でも素晴らしい解が見つかった分岐を有望視し、集中的に掘り下げる挙動を促す。

アプリケーションとSOTAの更新

TTT-Discoverは、オープンなモデルである gpt-oss-120b を使用し、数学、工学、生物学の各分野で、従来のAI(AlphaEvolve等)や人間の専門家を超える成果を上げた。

1. 数学:エルデシュの最小重複問題

1955年に提起された「Erdős’ Minimum Overlap Problem」において、TTT-Discoverは既知の最良の上界を更新した。

  • 問題: 集合の分割における重複を最小化する問題。
  • 成果: 従来の人類の最良記録(Haugland, 2016)およびAlphaEvolveの記録を破り、新たなSOTA(0.380876)を達成。
  • 発見: 従来のSOTA解が対称的な構造を持っていたのに対し、TTT-Discoverは600区間に及ぶ非対称なステップ関数を発見した。これは、人間や従来のAIが探索しなかった領域に解が存在したことを示している。

また、自己相関不等式(Autocorrelation Inequalities)においても、30,000区間のステップ関数を構築し、SOTAを更新している。

2. GPUカーネルエンジニアリング

AIの高速化に不可欠なGPUカーネル(CUDA/Triton)の最適化において、TTT-Discoverは驚異的な性能を示した。

  • タスク: AlphaFold等の基盤となる行列演算(TriMul)やDeepSeek-V3のAttention機構(MLA)の高速化。
  • 成果: NVIDIA H100 GPU上で、人間のエキスパートが作成したカーネルや、コンパイラによる最適化を大幅に上回る速度(最大2倍近く)を達成。
  • 戦略: 発見されたカーネルは、メモリ帯域幅がボトルネックであることを特定し、LayerNormやGating処理を高度に融合(Fusion)しつつ、FP16演算とcuBLASを巧みに組み合わせるという、極めて高度なエンジニアリング戦略を自律的に編み出した。

3. アルゴリズム設計:AtCoderヒューリスティックコンテスト

競技プログラミングのプラットフォーム「AtCoder」のヒューリスティックコンテスト(最適化問題)においても、その実力が証明された。

  • 成果: 過去のコンテスト(AHC039, AHC058)の問題に対し、コンテスト開催期間中に提出されていれば優勝していたスコアを記録した。
  • 比較: Google DeepMindのAlphaCodeなどが注力してきたアルゴリズム問題において、オープンモデルベースの手法がトップランクの性能を示したことは特筆に値する。

4. 生物学:シングルセルRNA解析

シングルセルRNAシーケンシングデータのノイズ除去(Denoising)問題において、生物学的妥当性を保ちつつ精度を向上させた。

  • 成果: 既存のデファクトスタンダードであるMAGICアルゴリズムをベースに、遺伝子適応型の変換アンサンブルや低ランクSVD精製などの手法を自律的に追加・改良し、OpenProblemsベンチマークスコアでSOTAを達成した。

比較実験と考察

論文では、TTT-Discoverの有効性を検証するためのアブレーションスタディが行われている。

  • Best-of-Nとの比較: 同じ計算リソース(サンプリング数)を用いた場合、単に何度も試行するBest-of-Nよりも、学習を行うTTT-Discoverの方が圧倒的に高い報酬に到達した。
  • フローズンモデル探索との比較: モデルの重みを固定したまま探索を行う進化的アルゴリズム(OpenEvolve/ThetaEvolve)と比較しても、TTT-Discoverは一貫して優れた結果を出している。これは、探索中に得られた経験を「重み」としてモデルに内面化させることの重要性を示唆している。

まとめ

TTT-Discoverは、「学習」を事前トレーニングのフェーズから解放し、推論(テスト)のプロセスそのものに組み込むことで、科学的発見という極めて難易度の高いタスクで成果を上げた。

  • パラダイムシフト: 凍結されたLLMに頼るのではなく、問題ごとに「学習」し適応するAIへ。
  • 特化型学習: 汎化性能を捨て、単一の問題に対する最大報酬を追求するエントロピー目的関数の有効性。
  • 汎用性: 数学、システム、アルゴリズム、生物学と、全く異なるドメインで共通してSOTAを達成。

「AI for Science」の分野において、LLMは単なる知識の検索エンジンではなく、能動的に仮説を生成し、自己改善しながら未知の解を探索する「研究パートナー」へと進化しつつある。TTT-Discoverはその重要な第一歩と言えるだろう。

参考文献

  1. Yuksekgonul, Mert, et al. “Learning to Discover at Test Time.” arXiv preprint arXiv:2601.16175 (2026).
  2. Novikov, Alexander, et al. “Alphaevolve: A coding agent for scientific and algorithmic discovery.” arXiv preprint arXiv:2506.13131 (2025).
  3. Silver, David, et al. “Mastering the game of Go without human knowledge.” Nature 550.7676 (2017): 354-359.
  4. Haugland, Jan Kristian. “The minimum overlap problem revisited.” arXiv preprint arXiv:1609.08000 (2016).