Yann LeCunがUnsupervised Learning podcastに出演し、現在のAI開発トレンド、とりわけLarge Language Model (LLM) の限界について辛辣な批判を展開した。
彼がMetaのFAIR (Facebook AI Research) のトップポジションを退き、新たにAMI (Advanced Machine Intelligence) Labsを立ち上げた背景には、短期的なプロダクトサイクルとLLM至上主義に毒された業界への強い危機感がある。LLMのスケールアップさえ続ければいつか真の人工知能に到達するという無責任極まりない未来観測的与太話を真っ向から否定し、物理世界を理解する「World Model(世界モデル)」の構築こそが本質的なアプローチだと断言するLeCunの論考は、過熱するAIレースに冷や水を浴びせる極めてディープな代物だ。当記事では、単なるLLM批判の枠を超え、彼が提唱する次世代アーキテクチャであるJEPAの真価と、Metaからのスピンアウトを経て彼が狙うオープンソース戦略およびAI主権(AI sovereignty)の確立に焦点を当てる。
言語という牢獄:LLMの構造的欠陥と「世界」の欠如
現在のAI業界は、GPT-5.5やMythosといったLLMの目覚ましい進化に酔いしれている。たしかにLLMは、テキスト翻訳やコード生成といった離散記号(discrete symbols)の操作においては驚異的な能力を発揮する。しかし、LeCunに言わせれば「LLMは現在やっているタスクにおいては素晴らしいが、人間レベルの知能への道筋にはなり得ない」のである。
その最大の理由は、物理世界の複雑さに対する根本的な理解と、自己の行動がもたらす結果を予測し、それに基づいて計画(プランニング)する能力が完全に欠落しているからだ。現在のLLMは巨大なコーパスを元に自己回帰的に次のトークンを予測しているに過ぎず、コンテキストに基づく推論らしきものを生成できても、それは「世界」の物理法則や因果関係を理解しているわけではない。
近年、LLMのアーキテクチャを無理やりロボティクスに拡張しようとするVLA (Vision-Language-Action) モデルが持て囃されたが、これもLeCunの視点からすれば「うまくいかないことが明白な短絡的アプローチ」である。現実の物理世界は高次元で連続的、かつノイズにまみれている。これを言語モデルのように自己回帰で予測させようとしても、模倣学習(imitation learning)のために膨大なテレオペレーション(遠隔操作)データが必要となり、未知の状況に対する汎用性(generalization)が全くスケールしない。
さらにLeCunは、現在のLLMを「面白いくらいに安全ではない(interestingly unsafe)」と評している。世界モデルを持たないLLMは、結果を予測せずに発言・行動するため、本質的にハルシネーション(幻覚)を排除するアーキテクチャ上の制約を持たない。Open AIやAnthropicが声高に叫ぶ「AIの暴走リスク(Doomerシナリオ)」は詭弁であり、本当の危険性は「結果を予測できないシステムにエージェントとしての自律性を与えること」そのものにあるのだ。
Generativeモデルの敗北とJEPAによる表現空間の予測
では、いかにして機械に世界を理解させるのか。LeCunが長年提唱し、AMI Labsにおいてその具体的な青写真として結実しつつあるのが「World Model」である。
基礎研究的な観点で述べるならば、彼が提唱するアーキテクチャの根幹は「Generative(生成)からの脱却」にある。画像や動画から世界モデルを学習させる際、VAE(変分オートエンコーダ)やMAE(Masked Autoencoder)のように「欠損したピクセルを予測・再構成させる」手法は、計算資源の無駄遣いであり失敗に終わることが明白となっている。物理世界の不確実性をピクセルレベルで予測することは不可能に近い。テーブルの上のペットボトルを指で弾いたとき、それがどのように回転してどのピクセルに水滴が飛び散るかの正確な予測は不要であり、単に「倒れて水がこぼれる」という抽象的な結果だけが重要だからだ。
これを解決するのが、彼がFAIR時代から心血を注いできたJEPA (Joint Embedding Predictive Architecture) である。JEPAは、入力データ(例えば動画の連続するフレーム)を抽象的な表現空間(representation space)にエンコードし、ピクセルそのものではなく「表現空間内での推移」を自己教師あり学習(self-supervised learning)によって予測する。
ピクセルを再構成しないため、表現が単一の点に潰れてしまう表現の崩壊(representation collapse)を防ぐ工夫が必要になるが、LeCunらは情報量を最大化する高度な正則化(regularization)アプローチを用いることでこれを解決しつつある。このアーキテクチャは既にDINOなどの画像表現モデルで大きな成果を挙げており、これを動画や行動条件付き(action-conditioned)の予測へと拡張したものが、推論とプランニングが可能な次世代システムの基盤となるのである。
FAIRの変質と、AMI Labsが仕掛けるAI主権の逆襲
LeCunがMetaを離れてAMI Labsをパリに設立した理由は、こうした画期的な基礎研究を推進するための環境が、今の巨大テック企業には残されていないからだ。
かつてのFAIRは純粋な科学的ブレイクスルーを追求し、PyTorchをはじめとする今日のAIインフラを生み出した理想的な研究組織だった。しかし2023年以降、Llamaの成功によって潮目が変わる。Metaの経営陣は、全社的なリソースをLLMの短期的なプロダクト開発へと全振りした。「LLM-pilled(LLMに洗脳された)」なシリコンバレーのエコシステムの中では、数ヶ月単位でのリリースが求められ、次世代のWorld Model構築という長期的なビジョンは組織の片隅へと追いやられてしまった。目先のパラメータ競争に奔走し、本質的なパラダイムシフトを見逃す様は、かつてGUIの可能性を自らドブに捨てたXerox PARCの歴史的失態すら彷彿とさせる。
独立したAMI Labsのもう一つの重要なミッションが、「AI主権(AI sovereignty)」の確立だ。LeCunは、世界の言語や文化、価値観が少数の西海岸のテック企業(あるいは中国企業)が作ったクローズドなAIによって支配される未来に警鐘を鳴らす。AMIが目指すのは、多様なデータで訓練されたオープンな基盤モデルを構築し、各地域や文化圏のユーザーが自身の価値観に合わせてファインチューニング(fine-tuning)できるプラットフォームの提供である。
LeCunはこの構想を、かつてのインターネットインフラ競争になぞらえている。1990年代、Sun MicrosystemsやHPがプロプライエタリなUNIXサーバーで市場を囲い込もうとしたが、結果的にオープンソースのLinuxに全てを駆逐された。現在のOpen AIやAnthropicは、まさに当時のSun Microsystemsと同じ道を歩んでいるというわけだ。彼らがクローズドなLLMで世界を支配しようとする試みは、いずれ多様な世界モデルを取り込んだオープンソースプラットフォームの前に敗れ去る運命にある。
開発者は後回しにされるLLM競争の「次」を見据えよ
現状のLLMが、プログラミングや数学など、言語そのものが推論の基盤となる限定的なドメインにおいて有用であることは疑いようがない。コーディング作業においては、LLMは優秀なプログラマーとして機能する(ソフトウェアアーキテクトにはなれずとも、だ)。
しかし、ヘルスケアにおける複雑な生理学的ダイナミクスの予測や、工場で自律稼働するロボットの制御など、現実の物理的な「世界」の理解とプランニングが必要な領域において、LLMベースのアプローチはいずれ限界の壁に激突する。膨大なテレオペレーションデータをかき集めてAIに無理やり物理世界を模倣させるアプローチは、17歳の人間がたった20時間の練習で車の運転を習得する圧倒的なデータ効率性(data efficiency)の前には、あまりにも無力だ。
LeCunが豪語する「5年以内でWorld Modelが世界を支配する」というタイムラインがそのまま現実のものとなるかは未知数だが、パラメータのゴリ押しでLLMを巨大化させるだけの脳死レースから抜け出し、抽象空間での予測とプランニングを備えたアーキテクチャへのシフトが不可避であることは火を見るより明らかである。
我々は今、AIが単なる「高機能なオウム返し機械」から、現実世界を理解し自律的に行動する「知能」へと変座する決定的な過渡期に立ち会っている。プロンプトエンジニアリング・コンテキストエンジニアリングという名の泥臭い調整ゲームにいつまでも固執する者は、そう遠くない未来に、World Modelという真のパラダイムシフトの波に飲み込まれることとなるのかもしれない。