Artificial General Intelligence (AGI) の実現に向けた探求において、最も重要な要件の一つが「継続学習(Continual Learning)」である。これは、人間が日々行うように、過去に獲得した知識を忘れることなく、新しいデータやタスクから継続的に学習する能力を指す。
しかし、従来のAIモデル、特にニューラルネットワークは、新しいタスクを学習する際に過去のタスクの性能が劇的に低下する「壊滅的忘却(Catastrophic Forgetting)」という現象に長年悩まされてきた。
本稿では、Cameron R. Wolfe氏による解説「Continual Learning with RL for LLMs」を基に、Large Language Model (LLM) の継続学習に関する最新の研究成果を深掘りし、なぜ強化学習(Reinforcement Learning, RL)が教師ありファインチューニング(Supervised Fine-Tuning, SFT)と比較して、この壊滅的忘却に対して驚くべき耐性を持つのか、そのメカニズムと理論的背景を解説する。
継続学習の課題と従来の枠組み
伝統的に、ニューラルネットワークは固定された大規模データセット上で学習される。しかし、実世界の環境は動的であり、データはストリームとして順次与えられる。継続学習における最大の障壁は、新しい情報の学習が、既存のパラメータ(=過去の知識)を破壊的に更新してしまう点にある。
LLMのような巨大なモデルにおいて、この問題はさらに深刻である。事前学習によって獲得された膨大な知識が、特定のタスクへの適応過程で失われることは、汎用性を損なうことを意味するからだ。
従来のアプローチ
これまで、壊滅的忘却を防ぐために主に以下のような手法が研究されてきた。
- Replay Mechanisms(リプレイ機構): 過去のデータをバッファに保存し、新しいデータと混合して再学習させる。
- Knowledge Distillation(知識蒸留): 学習前のモデル(Teacher)の出力を正解として、学習中のモデル(Student)が過去の挙動を模倣するように制約をかける。
- Regularization(正則化): パラメータの更新量や出力分布の変化を制限する(例:Elastic Weight Consolidation)。
- Architectural Approaches(アーキテクチャ的アプローチ): モデル構造を動的に拡張する(例:LoRAモジュールの追加やMixture-of-Expertsの活用)。
しかし、近年の研究 [1, 2, 3] は、特別な継続学習の手法(リプレイバッファなど)を用いずとも、学習アルゴリズムの選択そのものが忘却の度合いに決定的な影響を与えることを明らかにしている。
RL対SFT:学習パラダイムの比較
最近の研究において、RL(特にRLHFのような設定)は、SFTと比較して壊滅的忘却に対して本質的に堅牢であることが示されている。この違いを理解するためには、両者の目的関数の数学的な性質、具体的にはKLダイバージェンス(Kullback-Leibler Divergence)との関係を紐解く必要がある。
SFT:Mode-Covering(モード被覆)な性質
SFTの目的関数は、データセットの負の対数尤度(Negative Log-Likelihood)を最小化することである。これは、データ分布 \(P_{data}\) とモデル分布 \(P_\theta\) の間の「Forward KLダイバージェンス」を最小化することと等価である。
\[\min_\theta D_{KL}(P_{data} \| P_\theta) = \min_\theta \mathbb{E}_{x \sim P_{data}} [-\log P_\theta(x)] + \text{const.}\]
Forward KLを最小化しようとするモデルは、データが存在するすべての領域(モード)に確率質量を割り当てようとする。これを Mode-Covering な挙動と呼ぶ。 もし、新しいデータがモデルの既存の知識(事前分布)と矛盾する場合(例えば、確信度が低いが正解とされるデータ)、SFTはモデル全体をそのデータに適合させるため、パラメータを急激に更新してしまう。これが「Confident Conflicts」[6] と呼ばれる現象を引き起こし、破壊的な忘却につながる。
RL:Mode-Seeking(モード探索)な性質
一方、RLの目的は、報酬 \(R(x)\) の期待値を最大化することである(多くの場合、基準モデルとのKL制約項を含む)。これは、最適解となる分布 \(P^*\) とモデル分布 \(P_\theta\) の間の「Reverse KLダイバージェンス」の最小化と密接に関連している。
\[\min_\theta D_{KL}(P_\theta \| P^*) \approx \max_\theta \mathbb{E}_{x \sim P_\theta} [R(x) - \beta \log \frac{P_\theta(x)}{P_{ref}(x)}]\]
Reverse KLを最小化する挙動は Mode-Seeking と呼ばれる。モデルは、報酬が高い主要なモード(解)に集中し、確率が低い(あるいは報酬が低い)領域を無視する傾向がある。また、学習データがモデル自身からサンプリングされる(On-Policy)ため、モデルが「すでに知っていること」と整合性が取りやすく、パラメータ更新がより保守的になる。
最新研究が明かす「忘却しない」理由
なぜRLは忘却に強いのか。最近の主要な論文から得られた知見を整理する。
1. On-Policyデータの重要性:Retaining by Doing
Chenら [2] の研究は、RLの忘却耐性が「On-Policyデータ(学習中のモデル自身が生成したデータ)」の使用に大きく依存していることを示した。 SFTは通常、固定された外部データ(Offlineデータ)を使用するが、RLは自身の生成結果に基づいて更新を行う。興味深いことに、SFTであっても、自身の生成データを用いて学習を行う(反復的なRejection Samplingなど)ように変更すると、忘却が大幅に抑制されることが確認された。これは、モデル自身の分布に近いデータで学習することが、既存の知識体系を維持する上で重要であることを示唆している。
2. RL’s Razor:分布シフトの最小化
Shenfeldら [3] は、“RL’s Razor” という概念を提唱している。彼らの実験によると、RLはベースモデルとファインチューニング後のモデルの間のKLダイバージェンス(分布シフト)を最小化するような解を本質的に選択するバイアスを持っている。 SFTは、ベースモデルからかけ離れた解に収束する可能性があるのに対し、RL(特にOn-Policy RL)は、ターゲットタスクでの性能を高めつつも、元のモデルの挙動から大きく逸脱しない「近傍の解」を見つけ出す能力が高い。この「分布シフトの小ささ」が、壊滅的忘却の少なさを予測する最も信頼できる指標であることが示されている。
3. Confident Conflictsの解消
Diaoら [4] は、SFTにおける忘却の主因として「Confident Conflicts」を挙げている。これは、モデルにとっては低確率(ありえないと思う)かつ低エントロピー(確信度が高いはず)なトークンを無理やり学習させられる状況を指す。SFTではこのようなデータに対して巨大な勾配が発生し、既存の知識を破壊する。 一方、RLは自身の確率分布に従ってサンプリングを行うため、このような極端な矛盾に直面することが少ない。また、SFTにおいてもトークンごとのエントロピーに基づいて損失を調整する「Entropy-Adaptive Fine-Tuning (EAFT)」を導入することで、この問題を緩和し、忘却を抑制できることが示されている。
汎化性能とAGIへの示唆
継続学習におけるRLの優位性は、単に「忘れない」ことだけではない。研究 [5] によれば、SFTは特定のタスクの回答を「暗記(Memorization)」する傾向が強いのに対し、RLは基礎的な推論能力や知覚能力を向上させ、未知のタスクや分布外(Out-of-Distribution)のデータに対しても高い汎化性能(Generalization)を示すことがわかっている。
結論
LLMの継続学習において、強化学習(RL)は単なるファインチューニングの一手法を超えた重要な特性を持っている。
- Mode-Seekingな性質により、知識の破壊的な更新を避ける。
- On-Policyデータの利用により、自己の分布と整合性の取れた学習を行う。
- 分布シフト(KLダイバージェンス)を自然に最小化し、既存の能力を保持する。
これらの特性は、変化し続ける実世界に適応できるAI、すなわちAGIの構築に向けた重要なヒントを与えている。現在の研究はまだ構造化された実験環境に留まるが、RLベースのトレーニングパラダイムが、より堅牢で適応力の高い知能を生み出すための鍵となることは間違いないだろう。
参考文献
- Lai, Song, et al. “Reinforcement fine-tuning naturally mitigates forgetting in continual post-training.” arXiv preprint arXiv:2507.05386 (2025).
- Chen, Howard, et al. “Retaining by doing: The role of on-policy data in mitigating forgetting.” arXiv preprint arXiv:2510.18874 (2025).
- Shenfeld, Idan, Jyothish Pari, and Pulkit Agrawal. “Rl’s razor: Why online reinforcement learning forgets less.” arXiv preprint arXiv:2509.04259 (2025).
- Diao, Muxi, et al. “Entropy-Adaptive Fine-Tuning: Resolving Confident Conflicts to Mitigate Forgetting.” arXiv preprint arXiv:2601.02151 (2026).
- Chu, Tianzhe, et al. “Sft memorizes, rl generalizes: A comparative study of foundation model post-training.” arXiv preprint arXiv:2501.17161 (2025).