AI技術の急速な進化は、現代社会のあらゆる側面に変革をもたらしつつある。しかし、その華々しい進歩の裏側で、AIモデルの開発と運用に不可欠なインフラ、すなわちGPU計算資源を巡る熾烈な競争と市場の激動が繰り広げられていることは、意外と知られていないかもしれない。最近成功裏にIPOを果たしたCoreWeaveの事例や、H100 GPUのレンタル価格の乱高下は、この「GPUクラウド」あるいは「AI Neocloud」と呼ばれる新しい市場のダイナミクスを理解する上で、示唆に富んだ現象と言えるだろう。本稿では、Latent Space podcastでのSF Compute社CEO、Evan Conrad氏へのインタビュー、およびSemiAnalysisによる業界分析レポートを紐解きながら、GPUクラウド業界の現状と未来について考察する。
CPUクラウドとは似て非なるGPUの経済学
まず理解すべきは、GPUクラウドの経済性が、従来のCPUを中心としたクラウドサービスとは根本的に異なるという点である。Conrad氏が指摘するように、CPUクラウドのビジネスモデルは、汎用的なハードウェア(コモディティハードウェア)を購入し、その上にソフトウェアベースの付加価値の高いサービスを載せることで利益を上げる構造が主流だ。顧客は必要な分だけCPUリソースを時間単位で購入し、AWSやGCPのようなプロバイダーは高い利益率を確保する。
しかし、GPUの世界ではこのモデルは通用しにくい。理由はいくつかある。第一に、ハードウェアコストが桁違いに高い。CPUで100万ドルの投資が、GPUでは10億ドル規模になることもある。これにより、顧客は必然的に大規模な投資を行うことになり、コストに対して極めて敏感になる。第二に、AIモデル開発における「スケーリング則」の存在だ。一般的なWebサービスでは、一定以上のCPUリソースを追加しても収益は頭打ちになるが、AIモデル、特に学習においては、GPUを追加すればするほど(収益逓減はあるにせよ)モデル性能が向上し、それが直接的な収益増加に繋がりうる。推論においても同様で、より多くのGPUを使えば、より高速な応答や高品質な結果を提供でき、それが競争優位性となる。
この結果、GPUの顧客は「与えられた予算内で最大限のGPUリソースを確保する」ことに強いインセンティブを持つ。彼らはプロバイダーが提供するソフトウェアの付加価値よりも、10%でも安いGPU単価を重視する傾向が強い。10億ドルのハードウェア投資に対する10%の差は、1億ドルもの価値になるのだから当然だ。顧客はそのコスト削減分で、自前でソフトウェアエンジニアを雇い、必要な機能を再現しようとするだろう。
CoreWeave成功の秘訣とハイパースケーラーの苦悩
このGPU特有の経済性を巧みに突いたのがCoreWeaveである。彼らは、時間貸しのような短期契約市場には深入りせず、信用リスクの低い大口顧客(例えばMicrosoftやOpenAI)との間で、長期かつ前払い、あるいは支払い能力が信頼できる契約を主体にビジネスを構築した。これにより、貸し手に対して低リスクであることを示し、極めて有利な条件での調達を可能にした。Conrad氏の言葉を借りれば、CoreWeaveのビジネスモデルは、従来のクラウドプロバイダーというよりは、「銀行」や「不動産事業」に近い金融的な側面を持つ。
一方で、Microsoft Azure、AWS、GCPといった巨大なハイパースケーラーは、GPUリソースの再販において苦戦している可能性がある。彼らの既存のCPUビジネスは高利益率であり、GPUのような低マージン(相対的に)での再販は、ビジネス全体で見ると魅力的ではない。同じ資金を使うなら、自社モデルの開発や、NVIDIAに対抗する独自チップ開発に投資する方が合理的かもしれない。また、ハイパースケーラーがGPU市場を独占することは、NVIDIAにとっても顧客集中リスクを高めるため、NVIDIA自身がCoreWeaveのような独立系Neocloudの存在を戦略的に後押ししている側面もあるだろう。NVIDIAにとっては、多様な顧客が互いに競争し、高い価格でGPUを購入してくれる状況が最も望ましいからだ。
Neocloudの多様なプレイヤーたち
SemiAnalysisのレポートでは、AI Neocloud市場のプレイヤーがいくつかのカテゴリーに分類されている。
- 伝統的ハイパースケーラー: AWS, GCP, Azureなど。多様な事業を持ち、資金調達コストは低いが、既存のビジネスモデルやエコシステム維持のため、GPU価格は割高になりがち。
- Neocloudジャイアント: CoreWeave, Lambda Labs, Crusoeなど。GPUクラウドに特化。ハイパースケーラーよりは資金調達コストが高いが、新興勢力よりは有利。大規模なGPUフリートを持つ。
- 新興Neocloud: 比較的小規模で、データセンター運営経験も浅い。資金調達コストが高く、多くは地域特化型(Sovereign AI)の側面も持つ。
- ブローカー/プラットフォーム/アグリゲーター: SF Compute(アグリゲーターモデルに近いか)などが含まれる。自身ではGPUを所有せず、需要と供給を仲介する。資本は軽いが、取引の透明性には課題も。
- VCクラスター: Andromeda (AI Grant)など。VCがポートフォリオ企業向けにクラスターを構築・提供。エクイティと引き換えに柔軟な条件で計算資源を提供。
この多様なプレイヤーが存在すること自体が、GPUクラウド市場の複雑さと成長性を物語っている。特に、Conrad氏が指摘するように、ソフトウェア(サービス)とハードウェア(インフラ)を一体で提供しようとするモデル(例えば、Together AIやDigitalOceanのクラスター事業)は、顧客の価格感度とハイパースケーラーの競争圧力により、経済的に厳しい戦いを強いられる可能性がある。成功しているのは、CoreWeaveのように「不動産(ハードウェア)」に徹するか、Modalのようにハードウェアを持たずに「ソフトウェア(サービス)」に特化するかのどちらかだ、というのが彼の見立てだ。
SF Computeが目指す「計算資源のコモディティ化」
こうした市場環境の中で、SF Computeはユニークな立ち位置を築こうとしている。元々は自社のAIモデル開発のために短期的なGPUリソースを求めていたが、市場には年単位の長期契約しか存在しなかった。やむを得ず年契約を結び、使わない期間のリソースを転売せざるを得なくなった経験から、現在のビジネスモデル、すなわちGPUの「マーケットプレイス」へと辿り着いた。
SF Computeの核心は、GPUの所有者と利用者の間に流動性をもたらし、時間単位での予約やスポット価格での利用を可能にすることにある。これは、従来では考えられなかった柔軟性だ。例えば、研究者が限られた予算内で一時的に大規模なクラスターを利用したり、スタートアップが開発の初期段階で高額な長期契約を結ぶリスクを回避したりすることが可能になる。
市場原理に基づき、アイドル状態のGPU価格は下落し、利用率が100%に近づく。これにより、GPU所有者はアイドル時間を収益化でき、利用者は必要な時に必要なだけ、市場価格でリソースを調達できる。Conrad氏が語るように、SF Computeは時間単位の予約というプリミティブを提供することで、ユーザーが自身の予算と時間軸に合わせて最適なGPU利用計画を「プログラム」できるようにすることを目指している。これは、かつてAWSがスポットインスタンスで実現した、遊休計算資源の効率的な活用に似ている。
さらにSF Computeが見据えるのは、GPUが石油や大豆のような他の「コモディティ(商品)」と同様に取引される未来だ。スポット市場が確立され、信頼できる価格インデックスが生まれれば、それに基づいたキャッシュ決済型の先物市場を創設できる。これにより、データセンター事業者は将来の収益を固定化し、リスクをヘッジできるようになる。リスクが低減されれば、資金調達コストも下がり、それは最終的にGPUの利用価格低下に繋がるはずだ。Conrad氏は、金融デリバティブが投機的なものとして見られがちであることを認めつつも、先物市場の本質はリスク管理にあり、それが業界全体の安定化、ひいては過剰なVCマネーによるバブルのリスクを抑制することに繋がると主張する。これは、現在のAI分野の熱狂とは対照的な、「冷静さ(Chill Out)」を市場にもたらそうとする試みと言えるかもしれない。
オペレーションの現実と信頼性の重要性
しかし、理想的な市場を構築する道のりは平坦ではない。SemiAnalysisのレポートが詳述するように、AI Neocloudの構築と運用は極めて複雑だ。最適な部品構成(BoM)の選定、高性能ネットワーク(InfiniBandなど)の設計と最適化、共有ストレージの性能確保、適切なドライバやスケジューラ(SLURMなど)の導入、マルチテナント環境でのセキュリティ確保、そして日々の障害対応(レポートでは「モグラ叩き」と表現されている)など、克服すべき技術的課題は山積している。
特にクラスターの信頼性は、ユーザーエクスペリエンスを左右する死活問題だ。Conrad氏もクラスターの監査(Auditing)の重要性を強調し、SF Computeが提供するインフラスタックや自動リファンドの仕組みについて言及している。SemiAnalysisも、初期不良を洗い出すための「バーンイン(Burn-in)」テストの重要性や、障害発生時の迅速な対応(MTTR: Mean Time To Recovery)のために仮想化技術(VM)を活用するメリットなどを指摘している。CrusoeやTogetherAIのようなプロバイダーが高い評価を得ている背景には、こうした運用面のノウハウと信頼性がある。
結論:流動性と信頼性が鍵を握るGPUクラウドの未来
GPUクラウド業界は、AIの発展を支える基盤として、今後も急速な成長と変化を続けるだろう。CoreWeaveの成功は、GPU特有の経済性を理解し、リスクを管理することの重要性を示した。一方で、SF Computeのようなマーケットプレイスの登場は、計算資源の利用に新たな柔軟性をもたらし、これまでアクセスが困難だった研究者やスタートアップにも門戸を開きつつある。
しかし、その裏では、Neocloud事業者たちが複雑な技術的課題と運用上の困難に日々立ち向かっていることも忘れてはならない。SemiAnalysisが指摘するように、最適化されたインフラ構築、信頼性の高い運用体制、そして優れたユーザーエクスペリエンスの提供が、今後の競争における重要な差別化要因となるだろう。
SF Computeが提唱する「計算資源のコモディティ化」と、それに伴う金融的なリスク管理手法の導入がどこまで進むかは未知数だ。しかし、GPUという現代における最重要資源の一つを、より効率的かつ安定的に、そしてより多くの人々が利用できるようにするためには、技術的な洗練だけでなく、市場メカニズムそのものの進化も不可欠であるように思われる。過剰な期待や熱狂に流されることなく、冷静にその動向を見守りたい。