NVIDIAは2025年12月、最新の言語モデル「Nemotron 3 Nano」を発表した。このモデルは、31.6B(316億)というパラメータ規模を持ちながら、推論時にはその約10分の1にあたる3.2Bパラメータのみをアクティブにするという、極めて効率的なMixture-of-Experts (MoE) アーキテクチャを採用している。
さらに特筆すべきは、TransformerとMamba(状態空間モデル)を組み合わせたハイブリッドアーキテクチャである点だ。これにより、従来のTransformerモデルが抱えていた推論コストの課題を克服しつつ、1M(100万)トークンという長大なコンテキスト長への対応と、高度なエージェント推論(Agentic Reasoning)能力を実現している。
本記事では、公開されたテクニカルレポートに基づき、Nemotron 3 Nanoのアーキテクチャ上の革新、独自の学習手法、そしてベンチマークにおける性能について詳細に解説する。
ハイブリッドアーキテクチャ:Mamba-2とMoEの融合
Nemotron 3 Nanoの核心は、計算効率と表現力のトレードオフを打破するために設計されたアーキテクチャにある。
Mamba-2とTransformerのハイブリッド構成
従来のLLM(Large Language Model)の多くはTransformerのみで構成されているが、Nemotron 3 NanoはMamba-2(Dao & Gu, 2024)とGrouped-Query-Attention (GQA) を組み合わせたハイブリッド構成を採用している。
- Mamba-2レイヤー: 線形計算量でシーケンスを処理できる状態空間モデル(SSM)。長い文脈においてもKVキャッシュ(Key-Value Cache)のメモリ消費を抑え、高速な生成を可能にする。
- Attentionレイヤー: 複雑な依存関係の学習に長けたTransformerのAttention機構。
このハイブリッド構成により、Mambaの推論効率とTransformerの高品質な生成能力の両立を図っている。
粒度の細かいMoE(Granular Mixture-of-Experts)
さらに、モデルのスケーリングにはMixture-of-Experts (MoE) が導入されている。通常のFeed-Forward Network (FFN) レイヤーの代わりにMoEレイヤーを使用することで、パラメータ数を増やしながらも計算コストを抑制している。
- 総パラメータ数: 31.6B
- アクティブパラメータ数: 3.2B(エンベディング込みで3.6B)
具体的には、学習可能なMLPルーターが、128個の専門家(Experts)の中からトークンごとにわずか6個のExpertを選択してアクティブにする。また、常にアクティブな「共有エキスパート(Shared Experts)」も2個配置されており、共通の知識と専門的な知識の処理を分離している。
このスパース(疎)な活性化により、同規模のモデルと比較して圧倒的な推論スループットを実現している。例えば、同じH200 GPU上で比較した場合、GPT-OSS-20Bの2.2倍、Qwen3-30B-A3B-Thinking-2507の3.3倍という高速な推論が可能である。
25兆トークンによる事前学習(Pre-training)
Nemotron 3 Nanoの基盤となる学習データセットは、25兆(25T)トークンという膨大な規模に及ぶ。これは前世代のNemotron 2と比較して3兆以上の新規ユニークトークンを含んでいる。
2段階の学習フェーズ
事前学習は、データの「多様性」と「品質」のバランスを最適化するために2つのフェーズに分けて実施された。
- フェーズ1(多様性重視): 学習の94%(23.5Tトークン)を占める。Webクロールデータ、コード、多言語データなど、広範なドメインをカバーし、モデルの知識の幅を広げる。
- フェーズ2(品質重視): 残りの6%(1.5Tトークン)。Wikipediaや厳選された高品質データに絞り込み、知識の精緻化を行う。
特化型データセットの構築
NVIDIAは、高品質なデータセット構築のために「NeMo Data Designer」等のツールを活用し、以下のような独自のデータセットを生成・採用している。
- Nemotron-CC-Code-v1: Common Crawlから抽出したコードに対し、LLMによるクリーニングと品質フィルタリングを施した428Bトークンのコードデータセット。
- Synthetic STEM Reasoning: 科学技術(STEM)領域における複雑な推論能力を強化するため、教科書スタイルのデータや、LLMを用いて生成した高度な推論トレースを含む合成データ。
- InfiniByte: 異なる分野(例:物理学とプログラミング)の概念を交配させ、全く新しい問題を生成する合成データ生成パイプライン。これにより、既存のデータセットにはない境界領域の推論能力を強化している。
1Mトークンの長文脈対応
事前学習の最終段階として、長文脈対応のための継続学習(Continuous Pretraining)が行われた。ここでは、シーケンス長を段階的に拡張し、最大1Mトークンまでのコンテキストを処理能力を獲得した。これにより、RULERベンチマークなどの長文脈タスクにおいて、競合モデルを凌駕する性能を示している。
高度な事後学習:エージェント能力の開花
Nemotron 3 Nanoが「Agentic Reasoning(エージェント推論)」において卓越している理由は、その徹底的な事後学習(Post-Training)プロセスにある。
検証可能な報酬による強化学習 (RLVR)
SFT(教師ありファインチューニング)の後、モデルはMulti-environment Reinforcement Learning from Verifiable Rewards (RLVR) と呼ばれる手法で鍛え上げられた。
従来のRLHF(人間からのフィードバックによる強化学習)が人間の好みを学習するのに対し、RLVRでは「正解が明確に検証できる」タスク(数学、コーディング、JSONスキーマ準拠など)を用いて、全環境で同時に強化学習を行う。これにより、特定のタスクに過学習することなく、推論能力と指示追従能力を均一に向上させている。
Generative Reward Model (GenRM) によるRLHF
チャット能力や主観的な品質が問われるタスクに対しては、Bradley-Terryモデルのような従来の報酬モデルではなく、Generative Reward Model (GenRM) を採用している。GenRMは、単にスコアを出力するだけでなく、「なぜその回答が良いのか/悪いのか」という理由(Reasoning trace)を生成した上で採点を行うため、より精度の高い報酬信号をモデルに与えることができる。
推論コントロールとツール利用
本モデルは、推論プロセス(Chain of Thought)を出力するか否かを制御する機能や、推論に使用するトークン予算(Budget)を制御する機能を持つ。また、エージェントとして外部ツール(Pythonインタプリタや検索エンジンなど)を自律的に呼び出し、その結果を元に回答を修正する「Tool-integrated Reasoning」の能力もSFTおよびRL段階で深く学習されている。
性能評価と量子化による最適化
ベンチマーク結果
テクニカルレポートによると、Nemotron 3 Nanoは、数学(MATH, GSM8K)、コーディング(HumanEval, LiveCodeBench)、エージェントタスク(SWE-Bench, TauBench)など、多岐にわたるベンチマークにおいて、同規模のQwen3-30BやGPT-OSS-20Bと同等以上の精度を達成している。特に、エージェントとしてのツール利用能力や長文脈理解(Long Context)においては、顕著な優位性を示している。
FP8量子化による高速化
さらにNVIDIAは、モデルの重みとアクティベーションをFP8(8ビット浮動小数点)に量子化するPost-Training Quantization (PTQ) を適用している。 感度分析に基づき、Attentionレイヤーと一部のMambaレイヤーのみをBF16(BFloat16)で保持し、それ以外をFP8化する「選択的量子化」を行うことで、精度低下を1%未満に抑えつつ、推論スループットを劇的に向上させることに成功した。
まとめ:オープンなAI開発への貢献
Nemotron 3 Nanoは、単に高性能なモデルというだけでなく、AIコミュニティへの貢献という点でも大きな意味を持つ。NVIDIAは以下のリソースをHugging Face等で公開している。
- モデルチェックポイント: BaseモデルおよびInstruct(チャット向け)モデル。
- トレーニングレシピとコード: モデルの再現性を担保するためのコードベース。
- データセット: Nemotron-CC-Code-v1や合成データセットを含む、学習に使用されたデータの大部分。
「Mamba + MoE」という先進的なアーキテクチャと、RLVRをはじめとする高度な学習手法の組み合わせは、次世代の効率的なAIモデルの設計指針となるだろう。特に、エージェントとして複雑なタスクをこなす能力と、実運用に耐えうる推論効率を両立させた点は、産業応用においても極めて魅力的である。
参考文献
- NVIDIA. (2025). Nemotron 3 Nano: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning. NVIDIA Technical Report.
- Dao, T., & Gu, A. (2024). Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality.
- Shazeer, N., et al. (2017). Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer.