LLMの継続学習における強化学習の優位性：そのメカニズムとAGIへの示唆

Artificial General Intelligence (AGI) の実現に向けた探求において、最も重要な要件の一つが「継続学習（Continual Learning）」である。これは、人間が日々行うように、過去に獲得した知識を忘れることなく、新しいデータやタスクから継続的に学習する能力を指す。

しかし、従来のAIモデル、特にニューラルネットワークは、新しいタスクを学習する際に過去のタスクの性能が劇的に低下する「壊滅的忘却（Catastrophic Forgetting）」という現象に長年悩まされてきた。

本稿では、Cameron R. Wolfe氏による解説「Continual Learning with RL for LLMs」を基に、Large Language Model (LLM) の継続学習に関する最新の研究成果を深掘りし、なぜ強化学習（Reinforcement Learning, RL）が教師ありファインチューニング（Supervised Fine-Tuning, SFT）と比較して、この壊滅的忘却に対して驚くべき耐性を持つのか、そのメカニズムと理論的背景を解説する。

継続学習の課題と従来の枠組み

伝統的に、ニューラルネットワークは固定された大規模データセット上で学習される。しかし、実世界の環境は動的であり、データはストリームとして順次与えられる。継続学習における最大の障壁は、新しい情報の学習が、既存のパラメータ（＝過去の知識）を破壊的に更新してしまう点にある。

LLMのような巨大なモデルにおいて、この問題はさらに深刻である。事前学習によって獲得された膨大な知識が、特定のタスクへの適応過程で失われることは、汎用性を損なうことを意味するからだ。

従来のアプローチ

これまで、壊滅的忘却を防ぐために主に以下のような手法が研究されてきた。

Replay Mechanisms（リプレイ機構）: 過去のデータをバッファに保存し、新しいデータと混合して再学習させる。
Knowledge Distillation（知識蒸留）: 学習前のモデル（Teacher）の出力を正解として、学習中のモデル（Student）が過去の挙動を模倣するように制約をかける。
Regularization（正則化）: パラメータの更新量や出力分布の変化を制限する（例：Elastic Weight Consolidation）。
Architectural Approaches（アーキテクチャ的アプローチ）: モデル構造を動的に拡張する（例：LoRAモジュールの追加やMixture-of-Expertsの活用）。

しかし、近年の研究 [1, 2, 3] は、特別な継続学習の手法（リプレイバッファなど）を用いずとも、学習アルゴリズムの選択そのものが忘却の度合いに決定的な影響を与えることを明らかにしている。

RL対SFT：学習パラダイムの比較

最近の研究において、RL（特にRLHFのような設定）は、SFTと比較して壊滅的忘却に対して本質的に堅牢であることが示されている。この違いを理解するためには、両者の目的関数の数学的な性質、具体的にはKLダイバージェンス（Kullback-Leibler Divergence）との関係を紐解く必要がある。

SFT：Mode-Covering（モード被覆）な性質

SFTの目的関数は、データセットの負の対数尤度（Negative Log-Likelihood）を最小化することである。これは、データ分布 \(P_{data}\) とモデル分布 \(P_\theta\) の間の「Forward KLダイバージェンス」を最小化することと等価である。

\[\min_\theta D_{KL}(P_{data} \| P_\theta) = \min_\theta \mathbb{E}_{x \sim P_{data}} [-\log P_\theta(x)] + \text{const.}\]

Forward KLを最小化しようとするモデルは、データが存在するすべての領域（モード）に確率質量を割り当てようとする。これを Mode-Covering な挙動と呼ぶ。もし、新しいデータがモデルの既存の知識（事前分布）と矛盾する場合（例えば、確信度が低いが正解とされるデータ）、SFTはモデル全体をそのデータに適合させるため、パラメータを急激に更新してしまう。これが「Confident Conflicts」[6] と呼ばれる現象を引き起こし、破壊的な忘却につながる。

RL：Mode-Seeking（モード探索）な性質

一方、RLの目的は、報酬 \(R(x)\) の期待値を最大化することである（多くの場合、基準モデルとのKL制約項を含む）。これは、最適解となる分布 \(P^*\) とモデル分布 \(P_\theta\) の間の「Reverse KLダイバージェンス」の最小化と密接に関連している。

\[\min_\theta D_{KL}(P_\theta \| P^*) \approx \max_\theta \mathbb{E}_{x \sim P_\theta} [R(x) - \beta \log \frac{P_\theta(x)}{P_{ref}(x)}]\]

Reverse KLを最小化する挙動は Mode-Seeking と呼ばれる。モデルは、報酬が高い主要なモード（解）に集中し、確率が低い（あるいは報酬が低い）領域を無視する傾向がある。また、学習データがモデル自身からサンプリングされる（On-Policy）ため、モデルが「すでに知っていること」と整合性が取りやすく、パラメータ更新がより保守的になる。

汎化性能とAGIへの示唆

継続学習におけるRLの優位性は、単に「忘れない」ことだけではない。研究 [5] によれば、SFTは特定のタスクの回答を「暗記（Memorization）」する傾向が強いのに対し、RLは基礎的な推論能力や知覚能力を向上させ、未知のタスクや分布外（Out-of-Distribution）のデータに対しても高い汎化性能（Generalization）を示すことがわかっている。

結論

LLMの継続学習において、強化学習（RL）は単なるファインチューニングの一手法を超えた重要な特性を持っている。

Mode-Seekingな性質により、知識の破壊的な更新を避ける。
On-Policyデータの利用により、自己の分布と整合性の取れた学習を行う。
分布シフト（KLダイバージェンス）を自然に最小化し、既存の能力を保持する。

これらの特性は、変化し続ける実世界に適応できるAI、すなわちAGIの構築に向けた重要なヒントを与えている。現在の研究はまだ構造化された実験環境に留まるが、RLベースのトレーニングパラダイムが、より堅牢で適応力の高い知能を生み出すための鍵となることは間違いないだろう。

参考文献

Lai, Song, et al. “Reinforcement fine-tuning naturally mitigates forgetting in continual post-training.” arXiv preprint arXiv:2507.05386 (2025).
Chen, Howard, et al. “Retaining by doing: The role of on-policy data in mitigating forgetting.” arXiv preprint arXiv:2510.18874 (2025).
Shenfeld, Idan, Jyothish Pari, and Pulkit Agrawal. “Rl’s razor: Why online reinforcement learning forgets less.” arXiv preprint arXiv:2509.04259 (2025).
Diao, Muxi, et al. “Entropy-Adaptive Fine-Tuning: Resolving Confident Conflicts to Mitigate Forgetting.” arXiv preprint arXiv:2601.02151 (2026).
Chu, Tianzhe, et al. “Sft memorizes, rl generalizes: A comparative study of foundation model post-training.” arXiv preprint arXiv:2501.17161 (2025).

LLMの継続学習における強化学習の優位性：そのメカニズムとAGIへの示唆

継続学習の課題と従来の枠組み

従来のアプローチ

RL対SFT：学習パラダイムの比較

SFT：Mode-Covering（モード被覆）な性質

RL：Mode-Seeking（モード探索）な性質

最新研究が明かす「忘却しない」理由

1. On-Policyデータの重要性：Retaining by Doing

2. RL’s Razor：分布シフトの最小化

3. Confident Conflictsの解消

汎化性能とAGIへの示唆

結論

参考文献