Jeff Deanが語る「Picojoulesの物理学」と、AI Pareto Frontierの支配

GoogleのChief AI Scientistであり、MapReduce、BigTable、Spanner、そしてTensorFlowやTPUの生みの親であるJeff Deanが、Latent Space Podcastに登場した。

シリコンバレーには「Jeff Deanのコンパイラは警告を出さない。彼がコードを修正するチャンスをコンパイラに与えているだけだ」というジョークが存在するが、今回のインタビューは、そうした伝説的なエンジニアが現在のAI戦争をどのように「物理レベル」で捉えているかを浮き彫りにする、極めて密度の高い内容だった。

特に興味深いのは、彼が議論の中心を抽象的な「知能」ではなく、「データの物理的な移動コスト（Picojoules）」に置いている点だ。Gemini 3 ProやFlashといったモデルの背後にあるのは、単なるパラメータ競争ではなく、極限まで最適化されたエネルギー効率とハードウェア設計の結合である。

本稿では、Jeff Deanが語った「AI Pareto Frontier（パレート境界）」の支配戦略と、その根底にある物理的制約への洞察を分析する。

FLOPsの終焉と、Picojoulesというボトルネック

AIの性能指標として我々は長らくFLOPs（浮動小数点演算数）に注目してきた。しかし、Jeff Deanの視点は異なる。彼は現在のボトルネックを「演算」ではなく「データ移動」と定義する。

インタビューの中で彼が提示した数字は、ハードウェア設計者にとって衝撃的かつ本質的だ。

演算（Multiply）のコスト： 1 picojoule（ピコジュール）未満
データ移動のコスト： チップ上のSRAMから演算ユニットへ移動するだけで約1,000 picojoules

つまり、データを演算器に運ぶコストは、実際に計算するコストの1,000倍以上かかるということだ。

これがなぜ重要なのか？それは「なぜBatching（バッチ処理）が必要なのか」という問いへの物理的な回答になるからだ。理想的なレイテンシを追求するなら、Batch sizeは1が望ましい。しかし、たった1回の計算（1 pJ）のために、重みデータをメモリから移動させるコスト（1,000 pJ）を支払うのは、エネルギー効率の観点から見て破滅的だ。だからこそ、一度移動させた重み（Weights）に対して複数のデータを流し込むBatchingによって、この莫大な移動コストを償却（Amortize）しなければならない。

かつてJeff Deanは「Latency Numbers Every Programmer Should Know」という有名なリストを公開し、L1キャッシュ参照から大陸間パケット通信までの時間をエンジニアに叩き込んだ。AI時代において、彼は新たな指標を提示している。それは「Picojoules per bit（ビットあたりのピコジュール）」だ。

この物理法則こそが、GoogleがTPU（Tensor Processing Unit）を自社設計し続ける理由の核心である。汎用的なGPUではなく、データの移動を最小限に抑え、低精度（Low Precision）計算によってビット数を減らし、エネルギー効率を極限まで高めること。これがスケールの壁を突破する唯一の解なのだ。

Pareto Frontierの支配：FlashとProの二重構造

Jeff Deanは、AIモデルの開発を「Pareto Frontier（パレート境界）を押し広げる行為」と表現する。ここでいうパレート境界とは、モデルの「知能（Capabilities）」と「推論コスト/レイテンシ（Efficiency）」のトレードオフ曲線のことだ。

Googleの戦略は明確だ。

Frontier Model (Pro/Ultra): コスト度外視で最強のモデルを作り、知能の限界を突破する。
Flash Model: 最先端の知能を、蒸留（Distillation）によって圧倒的に安価で高速なモデルに凝縮する。

Jeff Deanは、Distillation（蒸留）こそがこのサイクルのエンジンであると断言する。蒸留とは、教師モデル（巨大モデル）の知識を生徒モデル（小型モデル）に移す技術だが、重要なのは単に正解ラベル（Hard Labels）を学習させるのではなく、教師モデルが出力する確率分布（Logits/Soft Targets）を含めて学習させる点にある。これにより、小型モデルは教師モデルの「迷い」や「ニュアンス」まで継承し、単独で学習するよりも遥かに高い性能を発揮する。

Gemini 3 Flashが、前世代のProモデルと同等以上の性能を叩き出しながら、圧倒的な低レイテンシと低コストを実現しているのはこのためだ。Google検索やGmail、YouTubeといった数億人が使うプロダクトにAIを組み込むには、Frontierモデルではなく、この「Flash」クラスのモデルが不可欠となる。

Jeff Deanの視点では、Proモデルの役割は「最高の教師」であり、ビジネス的な勝負は「その知能をいかに安価に（Flashへ）移転し、世界中に配るか」で決まる。

ハードウェアとソフトウェアの共進化（Co-design）

Googleの強みは、このモデルの進化をハードウェア設計に直接フィードバックできる点にある。

Jeff Deanによると、チップ設計のサイクルは「N+2」世代を見据えて行われる。つまり、現在稼働しているTPUの2世代先のチップを設計する際、2〜6年後のMLリサーチがどこに向かっているかを予測し、そのための機能をシリコンに焼き付けるのだ。

例えば、Sparsity（スパース性/疎性）への対応だ。数兆パラメータのモデルであっても、一度の推論で活性化するのは全体の1〜5%に過ぎない（Mixture of Expertsなど）。この「スパースな計算」を効率的に処理できるハードウェアがあれば、モデルは「Outrageously Large（法外に巨大）」になっても、実行コストは抑えられる。

Googleは「MLリサーチの方向性」と「TPUのアーキテクチャ」を密結合させている。これは、かつてGoogleが検索エンジンのインデックスを全てメモリに乗せるためにハードウェア構成を変えた2001年の意思決定と重なる。ソフトウェアの要求に合わせて物理層（ハードウェア）をねじ曲げることができる企業は少ない。

「数兆トークン」への注意（Attention）という幻想

コンテキストウィンドウの拡大競争についても、Jeff Deanは冷静だ。100万トークン（Gemini 3 Pro）は確かに強力だが、人類が目指すのは「インターネット全体（数兆トークン）」や「個人の全生涯データ」をコンテキストに含めることだ。

しかし、TransformerのAttention機構は計算量がコンテキスト長の二乗（Quadratic）で増加するため、物理的にすべてのトークンにAttentionを向けることは不可能である。

ここで彼は、Google検索のアーキテクチャを引き合いに出す。Google検索は、数兆のWebページから、軽量な手法で候補を3万件に絞り、より高度なモデルで数百件にし、最終的に最も賢いモデルがトップ10を決める。

これと同じように、将来のLLMは「数兆トークンにAttentionを向けているような幻想（Illusion）」をユーザーに与えるシステムになるだろうと予測する。つまり、検索（Retrieval）と推論（Reasoning）の高度な融合だ。あなたのメール、ドキュメント、写真、動画のすべてにアクセス可能でありながら、必要な瞬間に必要な情報だけを「想起」し、推論する。これを10,000 tokens/secという超低レイテンシで実現した時、AIは単なるチャットボットを超え、真の「Personal Agent」となる。

結論：エンジニアリングへの回帰

今回のインタビューを通じて感じるのは、OpenAIのような派手なデモやAGIへの哲学的言及とは一線を画す、Jeff Dean特有の「エンジニアリングへの執着」だ。

彼は「魔法」を信じていない。彼が見ているのは、ピコジュール単位のエネルギー消費、メモリ帯域、SRAMの物理的配置、そしてそれらを最適化するためのコンパイラとアルゴリズムだ。しかし、その泥臭い物理的制約の積み重ねこそが、結果として「魔法のような」AI体験（Flashモデルの爆速レスポンスや、数百万トークンの処理）を生み出している。Jeff Deanが語るPicojoulesの話は、AI競争が「モデルの賢さ」だけでなく、「物理法則といかに戦うか」というフェーズに突入していることを示唆している。