近年、Large Language Model (LLM) の開発において、Reinforcement Learning (RL) を用いた推論能力の向上(いわゆる「System 2」的な思考プロセス)が大きな注目を集めている。OpenAIのo1などのモデルに見られるように、RLはモデルに「深く考える」能力を与える鍵であると考えられている。
しかし、ここで根本的な疑問が生じる。「RLは本当に新しい推論能力をモデルに授けているのか? それとも、単にPre-Training(事前学習)段階で獲得された潜在能力を引き出しているに過ぎないのか?」
現代のLLMの学習パイプラインは極めて複雑であり、使用されるデータセットもブラックボックス化しているため、この問いに答えることは容易ではない。2025年12月にarXivに公開された論文『On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models』(arXiv:2512.07783) は、この曖昧さにメスを入れる画期的な研究である。
本稿では、この研究が提示した「完全制御された実験環境」と、そこから得られたPre-Training、Mid-Training、RLの役割分担に関する重要な知見を解説する。
現代LLM学習のブラックボックス問題
高性能なモデルを作るためのレシピは、一般的に以下の3段階を経る。
- Pre-Training: 膨大なテキストデータによる基盤モデルの構築。
- Mid-Training (SFT): 高品質なデータを用いた教師あり微調整。
- Post-Training (RL): 報酬モデルを用いた強化学習によるアライメントと性能向上。
これらが複雑に絡み合っているため、例えばモデルが「数学の難問」を解けるようになったとき、それが「Pre-Trainingで見た類似問題のおかげ」なのか、「RLによる探索能力の向上のおかげ」なのかを切り分けることは、実データを用いる限りほぼ不可能であった。
制御された実験環境:合成データという解決策
この研究の最大の貢献は、現実のデータの不透明さを排除するために、完全に制御された合成推論タスク(Synthetic Reasoning Tasks) を構築した点にある。
研究チームは、以下の特徴を持つ実験系を設計した。
- 明確な原子操作: 推論プロセスを構成する最小単位の操作(アトミック操作)が定義されており、モデルが何を行っているかが透明化されている。
- 解析可能な推論トレース: モデルが解答に至るまでのstep-by-stepの思考過程(Reasoning Trace)を完全に追跡可能にした。
- データ分布の体系的操作: 学習の各段階(Pre-Training、Mid-Training、RL)で与えるデータの種類や難易度を自在にコントロールし、因果関係を特定できるようにした。
このセットアップにより、「何を与えたら、何ができるようになるか」を厳密に測定することが可能となったのである。
研究から得られた4つの核心的知見
このフレームワークを用いて得られた結果は、これまでのLLM開発の常識を補強すると同時に、いくつかの盲点を浮き彫りにした。
1. RLの「スイートスポット」と能力の境界線
RLは魔法の杖ではない。実験結果は、RLが有意な性能向上(pass@128で測定)をもたらすには、以下の2つの条件が必要であることを示している。
- 十分な余地 (Sufficient Headroom): Pre-Trainingの段階で、モデルがそのタスクを理解するための基礎的な知識構造を十分に獲得していること。
- 能力の境界線 (Edge of Competence): RLで使用するデータが、モデルにとって「簡単すぎず、かつ不可能ではない」難易度であること。
つまり、RLはPre-Trainingで全く学習していない未知の概念をゼロから教えるのには向いていない。むしろ、Pre-Trainingで培った基礎力の上に、試行錯誤を通じて「あと一歩で解ける」問題を解けるようにするブースターとしての役割を果たす。
2. 文脈的汎化 (Contextual Generalization)
推論能力において重要なのは、ある問題の解き方を、表面的な表現が異なる別の問題に応用できるかという「汎化能力」である。
研究によると、広範な文脈的汎化を実現するためには、Pre-Training段階での最小限だが十分な曝露(Minimal yet sufficient exposure) が不可欠であることがわかった。一度その基礎が形成されれば、RLはその能力を効率的に転移・増幅させることができる。逆に言えば、Pre-Trainingで全く見たことのない文脈に対して、RLだけで汎化させることは困難である。
3. Mid-Trainingの過小評価された重要性
本研究で最も実務的に重要な発見の一つが、Mid-Training(多くの場合、高品質なInstruction TuningやSFTに相当)の役割である。
計算リソース(Compute)が制約されている場合、RLだけに頼るよりも、Mid-Trainingにリソースを割く方が、最終的なモデルのパフォーマンスが高くなることが示された。Mid-Trainingは、Pre-Trainingで得た広範な知識を特定のタスク形式に適合させるための極めて効率的なプロセスであり、RLの前段階として不可欠なステップであると言える。
4. Process-Level Rewards(プロセス報酬)による忠実度の向上
RLにおいて、最終的な正解のみに報酬を与える(Outcome Reward)と、モデルは「報酬ハッキング(Reward Hacking)」と呼ばれる挙動を示すことがある。これは、論理的に正しい思考を経ずに、ショートカットや偶然によって正解にたどり着こうとする現象である。
研究では、推論の「過程」自体を評価するProcess-Level Rewardsを導入することで、報酬ハッキングを抑制し、モデルの推論プロセスの忠実度(Fidelity)を大幅に向上させることができると結論づけている。これは、Process Reward Model (PRM) の有効性を裏付ける結果であり、特に数学やコーディングのような論理的整合性が求められるタスクにおいて重要となる。
今後のLLMトレーニングへの示唆
この研究は、LLMの推論能力向上において「RLこそが全てである」という過度な期待を戒め、Pre-Training、Mid-Training、RLのバランスの取れた設計の重要性を説いている。
- Pre-Training: 汎用的な推論の「種」を蒔くフェーズ。多様な文脈への曝露が必須。
- Mid-Training: 能力を特定の形式に結晶化させる、コスト効率の良いフェーズ。
- RL: モデルの限界能力(Edge of Competence)を押し広げ、推論プロセスを研ぎ澄ますフェーズ。
今後のモデル開発、特に推論特化型モデルの構築においては、これらのフェーズを独立したものとしてではなく、相互に依存する一連のシステムとして最適化する戦略が求められるだろう。合成データを用いた制御実験は、そのための羅針盤となるはずだ。
参考文献
- Zhang, C., Neubig, G., & Yue, X. (2025). On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models. arXiv preprint arXiv:2512.07783. https://www.arxiv.org/abs/2512.07783