Generative Modeling via Drifting: Kaiming Heらが提唱する「学習時の分布進化」によるワンステップ生成の新パラダイム

ResNetやMasked Autoencoders (MAE) など、ディープラーニングの歴史に残る数々のブレイクスルーを生み出してきたKaiming He氏（MIT/FAIR）らの研究チームが、2026年2月に新たな生成モデルのパラダイム「Drifting Models」を発表した。

本記事では、既存の拡散モデル（Diffusion Models）やFlow Matchingが抱える「推論速度」の課題を根本的な定式化の見直しによって解決し、ワンステップ（1回の関数評価）での高品質な生成を実現したこの最新手法について、その理論的背景から詳細なメカニズムまでを解説する。

生成モデルの現状と課題

現在、画像生成や動画生成の分野では拡散モデルやFlowベースのモデルが主流である。これらは、ノイズからデータへの変換を微分方程式（SDEやODE）として定式化し、推論時に多数のステップを経て徐々にサンプルを「進化」させることで高品質なデータを生成する。

しかし、この「推論時の反復計算（Iterative Inference）」は計算コストが高く、生成速度のボトルネックとなっていた。これに対し、以下のようないくつかのアプローチが模索されてきた。

蒸留（Distillation）: 学習済みの多段階モデルを教師として、少ないステップで模倣するモデルを学習する（例：Consistency Models, Progressive Distillation）。
GANs: ワンステップ生成が可能だが、学習の不安定さやモード崩壊（Mode Collapse）の課題がある。
ワンステップ拡散/Flow: ODEの軌道を直接学習しようとする試み。

今回提案されたDrifting Modelsは、これらの既存手法とは一線を画すアプローチをとる。拡散モデルが「推論時」にサンプルを動かすのに対し、Drifting Modelsは「学習時」に生成分布（Pushforward Distribution）そのものを進化させるという発想に基づいている。

Drifting Modelsの基本原理

Drifting Modelsの核心は、生成モデルを「学習過程におけるPushforward Distribution（押し出し分布）の進化」として捉え直した点にある。

Pushforward Distributionとは

生成モデルの目的は、単純な事前分布（ノイズ）\(p_{prior}\)（例：ガウス分布）を入力とし、ニューラルネットワーク\(f\)を通して変換された分布（Pushforward Distribution）\(q = f_{\#}p_{prior}\)が、実際のデータ分布\(p_{data}\)と一致するように関数\(f\)を学習することである。

\[f_{\#}p_{prior} \approx p_{data}\]

拡散モデル等は、この変換を推論時の多段階プロセスで実現するが、Drifting Modelsは単一のネットワーク\(f\)でこれを実現することを目指す。

Drifting Field（ドリフト場）による学習

では、どのようにして\(f\)を学習させるのか？ここで導入されるのがDrifting Field \(V_{p,q}(x)\) という概念である。

学習プロセスにおいて、ネットワーク\(f\)は反復的（Iterative）に更新される。この学習の反復を「分布の進化」と見なすのである。現在の生成サンプル\(x\)に対し、データ分布\(p_{data}\)に近づくための「ドリフト量（移動ベクトル）」を定義し、ネットワークがその方向にサンプルを動かすように更新を行う。

このDrifting Field \(V\)は、生成分布\(q\)とデータ分布\(p\)に依存し、以下の重要な性質を持つように設計される。

\[q = p \implies V_{p,q}(x) = 0, \quad \forall x\]

つまり、生成分布がデータ分布と一致したとき、ドリフトはゼロとなり、システムは平衡状態（Equilibrium）に達する。

反対称性とカーネル関数

Drifting Fieldの具体的な設計には、粒子間の相互作用を記述するカーネル関数が用いられる。論文では、以下のような「反対称（Anti-symmetric）」な場が提案されている。

\[V_{p,q}(x) = V^{+}_{p}(x) - V^{-}_{q}(x)\]

ここで、\(V^{+}\)はデータ分布\(p\)からの引力（Attraction）、\(V^{-}\)は現在の生成分布\(q\)からの斥力（Repulsion）を表す。これは物理的なポテンシャルや、Mean Shift法のような密度推定の考え方に近い。

生成されたサンプルは、「本物のデータ」に引き寄せられ、
「他の生成されたサンプル」から反発する。

この引力と斥力が釣り合ったとき、生成分布はデータ分布と一致するのである。

学習アルゴリズムと特徴

Drifting Modelsの学習は、ニューラルネットワークの標準的な最適化手法（SGD等）の中に、このドリフトの概念を組み込むことで行われる。

損失関数：Driftの最小化

学習の目的関数（Loss Function）は、生成されたサンプル\(x = f_\theta(\epsilon)\)が、計算されたターゲット\(x + V(x)\)に近づくように設計される。

\[L = \mathbb{E}_\epsilon \left[ \| f_\theta(\epsilon) - \text{stopgrad}(f_\theta(\epsilon) + V_{p,q}(f_\theta(\epsilon))) \|^2 \right]\]

ここでstopgradは、ターゲットとなるドリフト先を固定するための操作である（強化学習やDQNのターゲットネットワーク、あるいはBYOLなどの手法と類似した考え方）。実質的に、モデルは「次の学習ステップであるべき場所」を予測するように訓練される。

Feature Space Drifting（特徴空間でのドリフト）

本手法の大きな特徴として、ピクセル空間そのものではなく、特徴空間（Feature Space）でドリフトを計算する点が挙げられる。

生のピクセル値での距離計算（L2距離など）は、画像の知覚的な類似性をうまく捉えられないことが多い。そこで、事前に学習された強力な画像エンコーダ（MAEやSimCLR、MoCoなど）を用い、その特徴マップ上でカーネル計算や損失計算を行う。

これにより、意味的な類似性に基づいたドリフトが可能となり、学習の安定性と生成品質が飛躍的に向上する。実験では、潜在空間で学習させたMAE（Latent-MAE）を特徴抽出器として用いることが最も効果的であると示されている。

ワンステップ推論とCFG

Drifting Modelsの最大の利点は、推論時（生成時）にある。学習が完了すれば、ネットワーク\(f\)にノイズを入力するだけで、たった1回の計算（1-NFE: Neural Function Evaluation）で最終的な画像を生成できる。

さらに、拡散モデルで一般的となったClassifier-Free Guidance (CFG) もサポートしている。学習時に条件付き分布と無条件分布の間を補間するようにドリフト場を設計することで、推論時の計算コストを増やすことなく（依然としてワンステップのまま）、Guidance Scaleに応じた品質向上を実現している。

実験結果と性能評価

論文では、ImageNet 256x256データセットを用いた評価が行われている。

ImageNetでの生成性能

Drifting Modelsは、ワンステップ生成モデルとしてState-of-the-Art（SOTA）の結果を達成している。

Latent Space Generation (SD-VAE使用):
- FID: 1.54
- これは従来のワンステップ手法（Distillation系を含む）を上回り、多段階の拡散モデル（SiT-XL/2など）とも互角以上の性能である。
Pixel Space Generation:
- FID: 1.61
- GAN（StyleGAN-XL, FID 2.30）や他のピクセルベース拡散モデルを大きく引き離している。

特筆すべきは、これまで「高品質なワンステップ生成には蒸留が必要」あるいは「GANのような敵対的学習が必要」とされてきた常識を覆し、純粋な生成モデリングの枠組みでこれを達成した点である。

ロボティクスへの応用

画像生成だけでなく、ロボット制御（Robotics Control）のタスクでも有効性が示されている。Diffusion Policy（拡散モデルを用いた方策）と比較し、100ステップを要する拡散モデルと同等以上の成功率を、わずか1ステップで達成した。これは、リアルタイム性が求められる制御タスクにおいて極めて重要な特性である。

まとめ

Drifting Modelsは、「推論時の反復」を前提としてきた近年の生成AIのトレンドに対し、「学習時の分布進化」という新たな視点を提示した。

利点:
- 完全なワンステップ生成による圧倒的な推論速度。
- 微分方程式（ODE/SDE）の近似に依存しない、独自の理論的枠組み。
- Feature Spaceの活用による高い生成品質と安定性。
意義:
- Kaiming He氏らが示すように、ディープラーニングの学習プロセス（反復最適化）そのものを、分布をマッチさせるためのダイナミクスとして利用できる可能性を示した。

現在の実装では、計算コストのかかるカーネル計算（全ペア間の距離計算）がバッチ内で行われているが、今後の最適化やスケーリングにより、さらに強力な基盤モデルへと進化する可能性を秘めている。Generative AIの「次の一手」として、非常に注目すべき研究である。

参考文献

Deng, M., Li, H., Li, T., Du, Y., & He, K. (2026). Generative Modeling via Drifting. arXiv preprint arXiv:2602.04770.
Sohl-Dickstein, J., et al. (2015). Deep unsupervised learning using nonequilibrium thermodynamics. (Diffusion Models)
Lipman, Y., et al. (2022). Flow matching for generative modeling.
Song, Y., et al. (2023). Consistency models.