近年、Large Language Model (LLM) の開発において、学習データの「質」と「量」はモデルの性能を決定づける最重要ファクターとなっている。初期の小規模なキュレーションデータから、インターネット全体を対象とした大規模なWebクロールデータへと移行してきたLLMの学習データだが、現在、一般に利用可能な高品質なWebデータの枯渇が現実のものとなりつつある。
この限界を突破する鍵として急速に注目を集めているのが、「合成データ(Synthetic Data)」である。既存のWebデータをインテリジェントに再構築(Rephrasing)し、有用なデータプールを劇的に拡大するこのアプローチは、NVIDIAの「Nemotron-CC」(数兆トークンの再構築)や、Z.aiの「GLM-4.5」における推論トークンの生成など、最先端のLLM開発においてすでに中心的な役割を果たしている。
しかし、単にデータを生成すればよいというものではない。どのようなモデルをジェネレーターとして用いるべきか? どのようなプロンプトが最適な結果をもたらすのか? そして、このプロセスをいかにしてスケーラブルなインフラストラクチャに落とし込むのか?
本稿では、Hugging Faceの研究チームが発表した包括的な研究レポート「The Synthetic Data Playbook: Generating Trillions of the Finest Tokens」に基づき、合成データ生成というこれまで「錬金術」のようであったプロセスを、化学的に厳密な「科学」へと昇華させるための体系的なアプローチと重要な発見を解説する。
実験の全容:90の実験と1兆トークンが示すもの
この研究の最大の特筆すべき点は、その圧倒的なスケールと網羅性にある。研究チームは90種類に及ぶ実験を実施し、1兆トークン以上の合成データを生成し、実に12.7 GPU年という膨大な計算リソースを費やした。生成されたデータは、パラメータ数1.2BのQwen2スタイルのモデルを用いた事前学習に組み込まれ、多様なベンチマーク(ARC、MMLU、SQuAD、HellaSwag、GSM8Kなど)を通じてその下流タスク(Downstream task)における性能が厳密に評価された。
既存の合成データ生成手法が抱えていた推測や直感に依存する部分を排除し、データセントリックな観点から最適な「レシピ」を導き出したこの研究は、LLM開発者にとって極めて価値の高い知見を提供している。
合成データ生成における5つの重要な発見
膨大な実験結果から浮かび上がったのは、合成データ生成に関するいくつかの直感に反する事実と、強力なベストプラクティスである。
1. プロンプト設計こそが王道である(Prompt Design is King)
合成データの品質を左右する最も影響力の大きな要因は、使用するモデルの規模でもソースデータの質でもなく、「プロンプトの設計」であった。
単なるテキストの言い換え(Paraphrasing)や、単純な要約・続きの生成といった汎用的なプロンプトは、既存の高品質なWebデータ(DCLMなど)を上回る結果を出せなかった。一方で、元のドキュメントを教育的に価値の高いフォーマットへと構造的に変換する以下のプロンプトは、一貫してベースラインを打ち破る性能を示した。
- Tutorial(チュートリアル): ステップバイステップの明確な解説記事への変換
- FAQ(よくある質問): トピックに関する重要な問いと答えのペアへの変換
- Table(表): 重要なデータポイントを構造化された表形式に整理
- Math(数学問題): 数値データや関係性を基にした、段階的な計算を伴う数学の文章題への変換
これらのプロンプトが優れている理由は、単なる情報の圧縮ではなく、「教育的な再構築(Pedagogical restructuring)」を行っている点にある。
2. モデルの規模は予想以上に重要ではない
直感的には、パラメータ数の大きい強力なモデルを用いるほど、より高品質な合成データが生成されると考えられがちである。しかし、実験結果はこの仮説を明確に否定した。
TutorialやMathといったフォーマット変換タスクにおいて、パラメータ数が1B〜4B程度の小規模モデル(Gemma-3-1BやSmolLM2-1.7Bなど)は、12Bや27Bといった大規模モデルと同等、あるいはそれ以上の下流タスク性能をもたらすデータを生成した。モデルのサイズを拡大してもデータの質は比例して向上せず、計算コストが5倍〜10倍に跳ね上がるだけである。
これは、計算リソースを「巨大なジェネレーターモデルの推論」に割くのではなく、「小規模なモデルを用いたデータ量の拡大(Volume)」に再配分すべきであることを強く示唆している。
3. ソースデータの品質は「強力なMix-in」で補える
Webから収集された低品質なデータ(FineWeb-Edu-LQなど)を合成データ化する際、元データの質の低さがそのまま生成データに悪影響を及ぼすのではないかという懸念がある。
研究では、合成データ単体で事前学習を行うと、モデルの常識推論能力(Commonsense reasoning:HellaSwagやPIQAなどで測定)が著しく低下することが判明した。合成データは事実の想起や読解力を向上させる一方で、常識的な文脈を削ぎ落としてしまう「トレードオフ」が存在する。
これを防ぐためには、生成された合成データを、オリジナルの人間による高品質なWebテキスト(Mix-inデータ)と混合して学習させることが不可欠である。そして驚くべきことに、DCLMやFineWeb-Edu-HQといった強力なMix-inデータと組み合わせた場合、ソースデータが高品質であっても低品質であっても、最終的な下流タスクの性能にはほとんど差が出なかった。
つまり、強力なオリジナルデータと混合することを前提とすれば、これまで「ノイズが多い」として捨てられていた膨大な低品質データも、合成データのソースとして有効活用(Up-cycle)できるということである。
4. 洗練さ(Polish)よりも多様性(Diversity)を優先する
モデルによる指示追従(Instruction following)の正確さが、必ずしも優れた事前学習データにつながるとは限らない。
実験において、Mathプロンプトを与えた際、Qwen3(約1.7B)は指示を完璧にこなし、美しくフォーマットされた解答を生成した。しかし、その出力パターンの多くは完全に固定化されており、テンプレートの崩壊(Template collapse)を引き起こしていた。
対照的に、SmolLM2(約1.7B)の出力は指示に完全には従っておらず、文字数が極端に少ないものや、不完全な解答が混ざるなど、一見すると「乱雑(Messy)」であった。しかし、モデルの学習に用いた結果、SmolLM2が生成したデータの方が高い下流タスク性能を記録したのである。
事前学習データにおいては、一貫性のある洗練されたテンプレートテキストよりも、言語的・構造的な「多様性」を持つテキストの方が、モデルの汎化性能の向上に寄与することが証明された。
5. 評価への近道は存在しない
合成データの品質を、事前学習を行う前に評価できれば、計算コストを大幅に削減できる。「edu-score」や「DCLM-score」といった、Webデータの品質フィルタリングに用いられる強力なプロキシ指標(Proxy metrics)が、合成データに対しても有効かどうかが検証された。
スピアマンの順位相関係数を用いた分析の結果、これらのスコアと下流タスクの性能との間には、信頼できるほどの強い相関が見られなかった。特にedu-scoreに至っては、TutorialやFAQといった形式への変換によってスコアが「低下」したにもかかわらず、実際のモデル性能は「向上」するという逆転現象すら確認された。
結論として、合成データにおいて評価のショートカットは存在せず、実際にデータを生成し、小規模なモデルを学習させて評価するパイプラインを回す以外に確実な方法はない。
インフラストラクチャの重要性:スケールさせるための技術
兆レベルのトークンを合成データとして生成する際、単一のノードでの推論速度だけでは到底太刀打ちできない。適切な推論エンジンとデータオーケストレーションの仕組みが必要不可欠である。
本研究では、分散データ処理ライブラリである「DataTrove」を拡張し、Slurmクラスター上での大規模な並列処理を実現した。さらに、推論エンジンとして「vLLM」を採用し、スループットの最大化を図っている。
特に小規模モデル(1Bクラス)を用いる場合、投機的デコーディング(Speculative Decoding)の導入が極めて有効であった。SmolLM2-1.7Bを用いた実験では、suffix-32という投機的デコーディング手法を用いることで、生成タスクの予測可能性の高さを活かし、スループットを1.75倍に引き上げることに成功している。
これにより、100基のH100 GPUを使用した場合、1時間あたり約33億トークンの生成が可能となり、後述する大規模データセットの構築を現実的な時間とコストで完了させることができた。
新たなベンチマーク「FinePhrase」の誕生
これらの実験から得られた全てのベストプラクティスを結集し、研究チームは新たなオープン合成データセット「FinePhrase」を構築した。
- ジェネレーターモデル: SmolLM2-1.7B-Instruct(多様性とコストパフォーマンスの最適解)
- プロンプト: FAQ、Math、Table、Tutorialの4種類
- ソースデータ: FineWeb-Edu(約3億3,900万ドキュメント)
- データ規模: 13億5,000万サンプル、トータル4,860億(486B)トークン
FinePhraseは、同等の規模を持つ既存の合成データベースライン(Nemotron-HQ-Synth、Cosmopedia、REWIREなど)をすべての評価指標において明確に凌駕した。さらに、70Bクラスのモデルを用いた先行研究と比較して、約24分の1の計算コストで同等以上のトークン数を生成するという驚異的な効率(GPU時間あたり約3,310万トークン)を達成している。これは、体系的でデータセントリックなアプローチがいかに強力であるかを示す金字塔であると言える。
まとめ
「Synthetic Data Playbook」は、LLMの能力を次の次元へと引き上げるための、合成データ生成の明確なロードマップを提示している。
- 一般的な言い換えではなく、教育的な構造(FAQ、チュートリアル、表、数学問題)へとプロンプトを設計すること。
- 推論コストの低い小規模モデル(1B〜4B)を採用し、生成ボリュームを最大化すること。
- 合成データの弱点(常識推論の低下)を補うため、必ず高品質なオリジナルデータ(DCLM等)と混合(Mix-in)すること。
- 出力の美しさよりも、テキストパターンの多様性を重視すること。
- DataTroveやvLLM(投機的デコーディングを含む)などのインフラを活用し、スケールするパイプラインを構築すること。
合成データはもはや、枯渇するWebデータの単なる「代替品」や「補助リソース」ではない。モデルの推論能力や特定のドメイン知識を意図的に強化するための「基盤的要素」へと進化を遂げている。このプレイブックが示す知見は、次世代のより堅牢で高性能なLLMを構築するあらゆる研究者・実務者にとって、不可欠な羅針盤となるだろう。