Jane StreetのGPU戦略と「AGI完全」な金融市場

世間ではLarge Language Model (LLM) の進化により、AGI（汎用人工知能）の到達が現実味を帯びてきたと騒がれている。「AGIが完成すれば、金融市場のトレードなど一瞬でAIに最適化され、人間はマルガリータでも飲みながら不労所得を得るようになる」と、最終兵器彼女ばりの世紀末的確信をもって言い切る人が後を絶たない。

しかし、一旦そのような無責任極まりない未来観測的与太話は無視しよう。現実の最前線で何が起きているのかを知るには、シリコンバレーのAIラボではなく、テキサスにあるJane Streetのデータセンターを覗くのが最も解像度が高い。

先日、Dwarkesh Patelのpodcastにおいて、Jane Streetのテクノロジー部門共同トップであるRon Minskyと、物理エンジニアリングチームを率いるDan Pontecorvoが、同社のテキサス・データセンターで対談を行った。そこで語られたのは、100ナノ秒を争う狂気のインフラ構築と、CoreWeaveとの60億ドル（約9,000億円）規模の計算資源（compute）契約の裏側、そして高度に自動化された世界における「人間の価値の再定義」である。本稿では、汎用AIモデルが一律に市場を支配できない構造的理由と、Jane Streetの事業戦略に焦点を当てる。

100ナノ秒の壁と、計算のトレードオフ

Jane Streetの戦略を読み解く上で最も重要な前提は、「トレードにおける時間軸（time horizon）は一つではない」という事実だ。

一般論として、AIモデルはパラメータサイズを大きくし、計算量（compute）をかければかけるほど推論の精度（smartness）は上がる。しかし、高頻度取引（HFT）の極北においては、この「賢さ」と「スピード」のトレードオフが極限状態に達する。取引所と同じコロケーション施設にサーバーを置き、100ナノ秒（1000万分の1秒）以下でパケットを折り返さなければならない領域では、CPUやGPUに出番はない。ネットワークに直結されたFPGAが必須となる。

Minskyが語った「オシロスコープを繋げば、パケットが完全に消費される前に、すでにネットワークへ出力され始めているのが見える」という表現は、この世界の異常性を端的に表している。この時間軸では、いかに最新鋭のLLMであろうと物理的に無力だ。光ファイバーのケーブルの長さをミリ単位で計測し、極めて単純な意思決定を極限の速度で実行するしかない。

一方で、マイクロ秒、ミリ秒、あるいは数時間から数日といった長い時間軸のトレードにおいては、より複雑で大規模な推論モデル（GPUやCPUを活用したもの）が力を発揮する。つまり、単一の「最強のAI」が存在するわけではなく、意思決定の複雑さと実行速度の要件に応じて、多層的かつアンサンブル的な計算戦略を組むことが不可欠となる。

60億ドルのCoreWeave契約と、ノイズだらけの金融データ

AIの潮流において、OpenAIやGoogleのような基礎研究ラボ（foundation labs）は、あらゆるタスクをこなせる単一の汎用モデルの開発に心血を注いでいる。しかし、Jane Streetのアプローチはこれと真逆である。彼らが先日、クラウドプロバイダーのCoreWeaveと結んだ60億ドルという天文学的なcompute契約は、単一の巨大モデルを訓練するためではなく、「極めて多様なモデルアーキテクチャ」を並行して実験・訓練するために使われる。

なぜ多様性が必要なのか。それは金融データが持つ特異な性質に起因する。インターネット上のテキストデータはある程度「意味」が詰まっているが、金融市場から吐き出される膨大なデータは、圧倒的にノイズが多く、バイト単位の情報量（bytes-to-flop ratio）が著しく低い。NASDAQのフィードから滝のように流れてくるシーケンシャルなデータを捌き、真の価値（fair value）を予測するには、そのデータレートと特性に完全に特化したカスタムモデルが無数に必要になる。

一般的なAIラボが「汎用性」の獲得を目指してスケール則（scaling laws）を追い求めるのに対し、Jane Streetは金融特有のノイズの海からシグナルを抽出するため、モデルの形状からデータの読み込み（data loading）の効率化に至るまで、泥臭いカスタマイズを繰り返している。彼らにとってcomputeのボトルネックを解消することは、研究者が新たなアイデアを検証する「イテレーションの速度」を物理的に引き上げることに他ならない。

冷却とモジュール化：チップの外側にある物理的制約

モデルのアーキテクチャや学習データといったソフトウェア層での最適化が進むにつれ、最終的なボトルネックは物理的なインフラストラクチャへと回帰する。Dan Pontecorvoが指摘するように、現代のデータセンター運用はかつてのような「x86ベースのサーバーを並べるだけ」の牧歌的な時代をとっくに過ぎている。

1ラックあたり1メガワットという桁違いの電力密度を要求される昨今のGPUインフラにおいては、冷却設備や配電システム自体がプロジェクトのクリティカルパスとなる。特筆すべきは、サプライチェーンの歪みだ。例えば、データセンターの可用性を担保するバックアップ発電機は、現在最も納品に時間がかかるコンポーネントの一つ（リードタイムが数ヶ月から1年を超えることも珍しくない）となっている。

これに対しJane Streetは、「可用性を一部犠牲にしてでも、GPUを半年早く稼働させる方がビジネス上の期待値が高い」という意思決定を下すことがある。純粋なインフラ工学の観点からは邪道かもしれないが、激しい競争環境下におけるビジネス判断としては極めて合理的だ。ハードウェアの到着を待つ間に陳腐化するリスクを避けるため、モジュール式データセンター（modular data centers）や、事前に構築済みのインフラコンポーネントを活用し、プラグアンドプレイに近い形で即座にcomputeを立ち上げる体制を構築している。

チップ上のパッケージ設計においてコンピューティングリソースが占める面積がごくわずかであるのと同様に、現代のAI拠点においてGPUラック本体が占める割合は小さく、その周囲を取り巻く冷却・電力インフラこそが本質的な競争優位の源泉となっているのである。

人間の逆襲：トレードは「AGI完全」な問題か

技術とインフラの高度化をこれでもかと見せつけられた後で、Minskyが強調した点は非常に逆説的で示唆に富んでいる。「すべてが自動化され、AIが高度化している今、人間のエンジニアやトレーダーの価値はかつてないほど高まっている」というのだ。

平時の市場において、モデルは完璧に機能する。しかし、世界情勢の急変や未知のイベントによって市場が「相転移（phase transitions）」を起こした際、過去のパターンから学習したモデルは脆弱性を露呈する。今日という日が、過去のどのデータとも異なる特殊な状況であると判断し、モデルを止めるべきか、あるいはリスク許容度をどう調整すべきかという「メタな判断（meta-judgment）」においては、依然として人間の認知能力がAIを凌駕している。

トレードというタスクは、ある意味で「AGI完全（AGI-complete）」あるいは「NP完全」な問題のように感じられる。世界のあらゆる複雑な事象が最終的に価格予測に影響を与えるからだ。自動化が進めば進むほど、まだ自動化できていない「本当に困難な部分」にこそ、競争力の源泉が集中する。

Ron Minsky

Jane Streetが採用において、単なる機械学習の専門家やカスタムアーキテクチャの設計者だけでなく、市場の文脈を理解し、高度な問題解決能力を持つ人材（そしてパズルを愛する文化に適合する人材）を渇望している理由はここにある。彼らは、AIを人間の代替とは見ていない。人間の理解、主体性、効率性を拡張するための「強力なツール」としてAIを捉えているのだ。

おわりに：次世代の勝者の条件

LLMのAPIを叩いてそれらしい回答を得るだけなら、個人でも数分で実装できる時代になった。しかし、実世界のノイズだらけの環境で、物理的な電力・冷却の制約と戦いながら、100ナノ秒から数日に至る複数の時間軸で競争優位性を構築することは、プロンプトエンジニアリングで解決できるほど甘い世界ではない。

Jane Streetが数万基から数十万基へとGPUの規模を拡大し続ける中で見据えているのは、単なる力技のスケールではない。データのハンドリングからインフラのモジュール化、多様なアーキテクチャの並行実験、そして「人間にしかできないメタ判断」の分離に至るまで、AIライフサイクル全体の圧倒的な最適化である。

「AGIができればすべてが終わる」と語る暇があるならば、まずは手元の光ファイバーの長さを測り、発電機のリードタイムを確認した方が、よほど世界の真実に近づけるのかもしれない。