Googleの孤高なるAGIへの道：World ModelsとContinuous Learningの現在地

Google I/Oが閉幕し、AI界隈が新しい発表の余韻に浸る中、Google DeepMindのVP of ResearchでありGeminiプログラムのCo-Leadを務めるOriol Vinyalsが、「Unsupervised Learning」podcastに出演した。

OpenAIのGPT 5.5 や Anthropic の Opus 4.8でみられるように各社が推論（Reasoning）とPost-trainingでのReinforcement Learning (RL) に興じている中、Googleは頑なにマルチモーダルとWorld Modelsを中心としたAGIへの道程を説き続けている。Vinyalsのインタビューから読み取れるGoogleの深謀遠慮と、次世代AIのアーキテクチャについて分析する。

視覚情報における未だ見ぬ「GPT Moment」

Vinyalsが強調するのは、World ModelsこそがArtificial General Intelligence (AGI) への最短経路であるという確信だ。テキストという人間が既に高度に抽象化し、ラベル付けを済ませたデータセットを食い尽くしつつある現在、次なる知能の跳躍は画像やビデオから物理法則や文脈を直接抽出するRepresentation Learningにかかっている。

現状のマルチモーダルモデルは、確かに画像を入力してキャプションを生成したり、動画の文脈を理解したりと「マジカル」な挙動を見せる。しかし、Vinyalsによれば、我々はまだ視覚データにおける「GPT moment」を目撃していない。真のGPT momentとは、テキストによる明示的な紐付けなしに、膨大な動画データから「重力とは何か」「物体が衝突した際の物理的挙動はどうなるか」といった世界の概念を純粋に抽出し、それを理解・操作できるようになる瞬間だ。シミュレーションと現実世界のギャップを埋め、ロボティクスの分野で精密なモーターコントロールから大局的なプランニングまでを自律的にこなすようになるには、この純粋なWorld Modelsの完成が不可欠となる。

RLの苦悩とScaffoldingの自己記述

界隈ではOpenAIに代表されるように、Post-trainingにおけるRLの活用が一種の銀の弾丸として扱われている。しかし、VinyalsはRLの適用において冷静な見方を示している。AlphaGoが「Move 37」で世界を驚愕させたように、ゲームの世界では自己対戦によって無限に複雑な環境を生成し、データをタダで手に入れることができた。しかし、言語や一般的なタスクにおいて「無限の複雑さの源泉」を見つけるのは容易ではない。LLMは依然としてデータ制限の壁に直面しており、数学やコーディングのような検証可能（Verifiable）なドメイン以外でのRLの汎化能力には疑問符が残る。

一方で、AIエージェントの構築においては興味深いパラダイムシフトが起きつつある。現状、開発者たちはモデルの周囲に複雑なScaffolding（足場となるコードやシステム）を必死に構築し、マルチエージェントの協調や長期タスクの実行を制御しようとしている。だがVinyalsは、究極的にはこのScaffolding自体をモデルがその場で動的に記述するようになると指摘する。ユーザーの要求の複雑さに応じて、モデル自身が「どれくらい長く考えるべきか」「どのSub-agentsを生成すべきか」を決定し、Token効率の良い最適なアーキテクチャを都度生み出す未来だ。これはつまり、我々が現在血眼になって開発しているエージェントフレームワークの大半が、基盤モデルの進化によって自然消滅する（Wash outされる）ことを意味している。

記憶の外部化：Weightsへの焼き付けからの脱却

エージェントがより長期的なタスクをこなすようになると、必然的にContinuous Learning（継続的学習）とMemory（記憶）の扱いが最大の課題となる。昨今のContext Windowの肥大化（Gemini 1.5の数百万Tokenの入力が可能になることなど）は一種のWorking Memoryの拡張と言えるが、それだけでは不十分だ。

Vinyalsは認知神経科学の知見を引き合いに出し、Episodic Memoryの重要性を語る。実運用の観点（Serving scale）から言えば、ユーザーごとの膨大な相互作用の履歴をモデルのWeights（重み）に直接焼き付けるのは非現実的だ。月額数千円の課金ユーザーごとに独自のモデルをホストするなど、SaaSの経済学から見ても狂気の沙汰である。

そこで彼が提唱するのは、モデルがファイルシステムのようなNon-parametricな記憶領域にアクセスし、自ら情報を書き込み、ディレクトリを構造化し、必要な時に検索・取得するというアプローチだ。最近になって各社のLLMが「記憶力」をアピールし始めたが、これはまさにこの方向性への第一歩だろう。ユーザーとの長期間のやり取りを通じてモデルが自己の知識ベースを構築・更新していくこの手法は、数年前のReasoningの登場と同等かそれ以上のインパクトを業界にもたらすはずだ。

Googleだからこそ可能な「贅沢な探求」

これらの長期的な研究を可能にしているのは、皮肉なことに、批判の的になりがちなGoogleの巨大なインフラそのものである。TPUの共同設計からEnd-to-endの収益基盤、そしてBrainとDeepMindの統合に至るまで、Alphabetという巨大な傘の下にあるからこそ、直近のAPIの売上やベンチマークのスコア競争に一喜一憂することなく、「World Models」や「Robotのシミュレーション」といった利益回収に時間のかかる探求に大量のComputeを注ぎ込むことができるのだ。

一部のスタートアップが特定のドメインでRLを回し、数ヶ月で陳腐化するTreadmill（ランニングマシン）の上を走り続けているのとは対照的である。基盤モデルの能力が向上し続ける中で、特定の狭いドメインに特化したモデルの優位性を保ち続けることは、本質的に消耗戦を強いられることと同義だ。

Vinyalsはインタビューの終盤、「AGIはある意味ですでに実現している」と述べている。これは決して技術的な敗北宣言ではない。数年前であれば、現在のLLMの能力を見れば誰もがそれをAGIと呼んだはずだ。しかし、知能の定義というゴールポストは常に我々の進歩とともに後ろへ下がり続けている。

真に問われるべきは、我々が定義するAGIが「人間の知的作業の代替」なのか、それとも「Machine Learningの新たなパラダイムを自己創出する存在」なのかという点だ。GoogleがWorld Modelsの先に目指しているのは明らかに後者であり、彼らがAI研究における真の「Move 37」を叩き出すその日まで、我々はこの巨大な知能の進化を傍観し続けるしかないのだろう。