事前学習における「能力」の外科的切除：トークンレベルデータフィルタリングによるAI安全性

近年、Large Language Model (LLM) の能力は飛躍的に向上しているが、それに伴いバイオテロやサイバー攻撃の支援といった「望ましくない能力（Undesired Capabilities）」の獲得リスクも増大している。

これまで、これらのリスクに対する防御策は主に学習後の介入（Post-hoc interventions）――例えばRLHF（人間からのフィードバックによる強化学習）やMachine Unlearning（機械学習による忘却）――に依存してきた。しかし、これらの手法はAdversarial Attack（敵対的攻撃）や再学習（Finetuning）によって容易に突破可能であることが、近年の研究で明らかになりつつある（いわゆるJailbreak問題）。

今回紹介する論文「Shaping capabilities with token-level data filtering」は、元OpenAIのAlec Radfordらによる研究であり、この問題に対してより根本的なアプローチを提示している。それは、事前学習（Pre-training）段階において、データセットから特定の能力に関連する情報をトークン単位で外科的に除去するという手法である。

本記事では、この研究が提案する「トークンレベルフィルタリング」のメカニズム、その驚異的なスケーリング則、そしてAI安全性（AI Safety）にもたらすパラダイムシフトについて詳細に解説する。

データフィルタリングの粒度：ドキュメント vs トークン

事前学習データのフィルタリング自体は新しい概念ではない。有害なテキストを含むWebページを除外するといった処理は一般的に行われている。しかし、従来の手法は主にドキュメントレベル（Document-level）で行われてきた。

ドキュメントフィルタリングの限界

ドキュメントレベルのフィルタリングは、「ある文書が有害な情報を含んでいるか」を判定し、含んでいる場合は文書全体を削除する。これは、「風呂の水を替えるついでに赤ん坊まで流してしまう（throwing the baby out with the bathwater）」ような非効率性を孕んでいる。例えば、生物学（Biology）の教科書に医学的（Medical）な記述が一部含まれていた場合、医学知識を削除するために、有用な生物学の知識まで捨ててしまうことになる。

トークンレベルフィルタリングの優位性

本論文が提唱するのは、トークンレベル（Token-level）でのフィルタリングである。これは、文書全体を破棄するのではなく、望ましくない能力に関連する特定のトークン（単語や部分語）のみを識別し、処理する手法だ。

研究チームは、医学知識（Medical knowledge）を「望ましくない能力（Forget domain）」、生物学知識（Biology knowledge）を「保持すべき能力（Retain domain）」とするプロキシタスクを設定し、検証を行った。その結果、トークンレベルのフィルタリングは、ドキュメントレベルと比較してパレート改善（Pareto Improvement）を達成することが示された。つまり、同程度の医学知識の削除を行いながら、生物学知識への悪影響を大幅に抑えることが可能となる。

フィルタリングの実装手法：MaskingとRemoval

論文では、特定された「望ましくないトークン」に対して、主に以下の2つの戦略を探求している。

Loss Masking（損失マスキング）： バックプロパゲーション（誤差逆伝播）中に、該当するトークンの勾配をゼロにする。モデルは文脈としてそのトークンを見ることはできるが、そのトークンの予測精度を上げるための学習は行わない。
Removal（置換・削除）： 望ましくないトークンを <|hidden|> という特殊トークンに置き換えた上で、Loss Maskingを行う。モデルは情報の入力自体を遮断される。

結果として、Removalの方がより強力な忘却効果を発揮することが確認された。

驚異的なスケーリング則：モデルが巨大化するほど「忘却」は強力になる

本研究の最も重要な発見の一つは、このフィルタリングの効果がモデルサイズと共にスケールする（Scalability）という点である。

研究チームは、小規模なモデルから1.8Bパラメータのモデルまで実験を行い、「望ましくないドメインの能力を同程度まで回復させる（再獲得させる）ために必要な計算量」を測定した。これを「Compute Slowdown（計算の遅延）」と呼ぶ。

小規模モデルの場合： フィルタリングの効果は限定的である。
大規模モデルの場合： モデルサイズが大きくなるにつれて、フィルタリングの効果は指数関数的に増大する。

具体的には、1.8Bモデルにおいてトークンレベルのフィルタリング（Removal）を行った場合、その知識を再獲得させるための計算コストは、フィルタリングなしの場合と比較して約7000倍（7000× Compute Slowdown）に達した。これは、ドキュメントレベルのフィルタリング（約30倍）と比較しても圧倒的な差である。

この結果は、「モデルが大規模になるほど、事前学習データのフィルタリングによる能力形成がより効率的かつ強固になる」ことを示唆しており、将来的にさらに巨大なLLMを開発する際の安全性確保において極めて重要な意味を持つ。

ロバスト性とアライメントへの影響

Adversarial Finetuningに対する堅牢性

既存のMachine Unlearning手法（例：RMU）は、攻撃者が意図的に有害なデータを用いて再学習（Adversarial Finetuning）を行うと、容易に防御が突破されることが知られている。しかし、トークンレベルフィルタリングで学習されたモデルは、この攻撃に対して極めて高いロバスト性（Robustness）を示した。基盤モデルの重みから知識が物理的に欠落しているため、事後的な介入でそれを復元することが非常に困難になっていると考えられる。

アライメント能力の向上

直感的には、有害な知識を学習していないモデルは、「何が有害か」を知らないため、有害な要求を拒否（Refusal）することが難しくなると予想される（これを “Unknown Unknowns” の問題と呼ぶこともある）。しかし驚くべきことに、実験結果はその逆を示した。トークンレベルフィルタリングを施されたモデルは、Refusal training（拒否トレーニング）への汎化性能が高かったのである。

論文では、この現象について「モデルは『有害な概念』そのものを理解しているわけではないが、『学習中に見たことのない分布（Out-of-distribution）』のトークンや概念に対して、拒否反応を示すように学習することが容易になるのではないか」と考察されている。つまり、知識の欠落が逆に「知らないことには答えない」という安全な振る舞いを強化している可能性がある。

弱教師あり学習による分類器の構築

トークンレベルのフィルタリングを行うためには、膨大な事前学習データセットの全トークンに対して「医学か否か」といったラベルを付ける必要がある。人手によるアノテーションは不可能であり、完全な教師データも存在しない。

そこで研究チームは、Sparse Autoencoders (SAEs) を活用した効率的なパイプラインを開発した。

SAEによる概念抽出： 小規模なモデル（Gemma 2 9Bなど）のSAEを用いて、医学的概念に反応するラテント特徴量（Latent features）を特定する。
弱教師あり学習（Weak Supervision）： SAEによって特定されたトークンを「正解データ」と見なし、より軽量なトークン分類器（Classifier）を学習させる。
双方向モデルの活用： 分類器には、通常のTransformerではなく、文脈を双方向から考慮できる双方向言語モデル（biLM）を採用し、精度を向上させた。

この手法により、完璧なラベルが存在しない状況でも、スケーラブルかつ高精度なフィルタリングが可能であることを実証した。

結論：AI安全性の新たなパラダイム

本論文は、AIの安全性確保において「事後対応」から「事前予防」へのシフトを強く推奨している。

精度： トークンレベルのフィルタリングは、必要な能力を維持しつつ、不要な能力を削除する上で圧倒的に効率的である。
拡張性： 計算量が増えれば増えるほど、その防御効果は高まる。
堅牢性： 敵対的な攻撃に対しても、事後的な修正手法より遥かに強い耐性を持つ。

もちろん、これは「銀の弾丸」ではない。フィルタリングの基準となる分類器の精度や、プロキシタスク（医学）以外のより複雑な能力（推論能力や計画能力など）への適用可能性など、課題は残されている。

しかし、事前学習データそのものを外科的に操作し、モデルの能力の「形（Shape）」を根本から設計するというアプローチは、今後のFoundation Model開発における標準的なプロセスとなる可能性が高い。Alec Radfordらが示すこの方向性は、単に「賢い」モデルを作るだけでなく、「制御可能で安全な」知能を構築するための重要なマイルストーンとなるだろう。

参考文献 * Rathi, N., & Radford, A. (2026). Shaping capabilities with token-level data filtering. (Code: neilrathi/token-filtering)