Gemini 2.5 Proの衝撃：10Mトークンへの道と「思考するAI」の現在地

今週、GoogleからGemini 2.5 Proのアップデートが発表され、LMArenaの全てのリーダーボードでトップを飾るなど注目を集めている。 Gemini 2.5 Proにはいくつかの特徴があるが、long context処理能力と「思考（Thinking）」と呼ばれる推論能力の向上には目を見張るものがある。

これらの進化は一体どのように達成され、今後どのような可能性を秘めているのか？本稿では、Gemini 2.5 Proの開発に関わるGoogle DeepMindの研究者、Nikolay Savinov氏（long context担当）のpodcastインタビューとJack Rae氏（Thinking/Inference Time Scaling担当）のpodcastインタビューの内容に基づき、特にlong context能力と思考能力に焦点を当て、その技術的背景と今後の展望を分析していく。

Long Context - 1Mトークンの壁を超えて

まず、Gemini 1.5 Proで世界を驚かせた1Mトークンというcontext window。Nikolay Savinov氏によれば、この目標設定自体が「当時の競合（128k〜200kトークン）に追いつくだけじゃつまらない。10倍を目指そう」という野心的なものだったという。いかにもGoogleらしい目標設定だ。

では、1M、2Mトークンの次は？ この問いに対し、Savinov氏は非常に興味深い事実を明かしている。

「実は10Mトークンでの推論テストも実施している。 単純なNeedle-in-a-Haystackタスクなら、10Mトークン全体でほぼ完璧な精度が出ている。このモデルをリリースすることも可能だったものの、推論コストが非常に高い。 ユーザーが高いコストを払ってまで使ってくれるか、そしてそれを安定して提供できるだけの十分なハードウェア（チップ）があるか、確信が持てなかった。だから、より現実的な価格帯で提供できる1M、2Mトークンからまず始めた。」（Nikolay Savinov氏、podcastより要約）

つまり、技術的には10Mトークンへの道筋は見えていたものの、コストとインフラ（特に推論エンジニアリングの重要性も強調されている）がボトルネックとなり、現時点での一般提供は見送られた、ということらしい。これは、将来的なコンテキスト長の拡大に対する期待と、それを支える技術・コスト面の課題の両方を示唆している。

RAGはオワコンになる？ この問いに対するSavinov氏の回答は「もちろんNo」だ。むしろ、long contextとRAG（Retrieval-Augmented Generation）は連携して機能するという。特にエンタープライズ規模の知識ベース（数十億トークン）を扱う場合、依然としてRAGは必須。Long contextの利点は、RAGでより多くの関連情報を（多少ノイズが多くなっても）コンテキストに詰め込めるようになり、結果として回答の精度（Recall）を向上させられる点にある、とのことだ。

Long contextの「質」の向上 Savinov氏によれば、2.5 Proでは、1.5 Proと比較して、特に128kトークンと1Mトークン双方における「質」が大幅に向上したという。これは、単に長いコンテキストを受け入れられるだけでなく、その内容をより深く理解し、活用できるようになったことを意味する。Jack Rae氏のインタビューで語られた「400kトークンのコードベース全体を把握していた」という体験談も、この質の向上を裏付けていると言えるだろう。

Long contextの課題 単純なNeedle-in-a-Haystack（NIAH）は「解決済み」としつつも、Savinov氏は現在の課題として以下を挙げる。

Hard Distractors（紛らわしい情報）: 探している情報と似たような無関係な情報が多いと、そちらに「アテンションが食われてしまい」、目的の情報へのアテンションが低下する。コンテキストが長くなるほど、この競合は激しくなる。
Multiple Needles（複数の針探し）: 複数の情報を同時に探し出す必要がある場合も、アテンションが分散するため難易度が上がる。
評価の難しさ: NIAHのような人工的なタスクは評価しやすいが、「現実的」なタスク（例：大規模コードベースに関する質問）になると、long context能力だけでなくコーディング能力など他の要素も絡み、純粋なlong context能力の評価（と改善）が難しくなる。

Long contextと「思考」の相乗効果

Gemini 2.5 Proのもう一つの特徴が、Jack Rae氏がリードする「思考（Thinking）」あるいは推論時間スケーリングと呼ばれる技術だ。これは、応答を生成する前に追加の計算（思考）を行うことで、より複雑な問題解決能力を高めるアプローチである。OpenAIのo1, o3シリーズやAnthropicのClaude 3.5 Sonnetなど、最近のフロンティアモデルで同様のアプローチが次々と登場しているのは、この方向性に大きな可能性があることを示している。

Rae氏によれば、この技術は突然現れたブレークスルーというよりは、強化学習（RL）を用いた地道な改善が積み重なり、実用的なレベルに達した結果だという。

Long contextと思考のシナジー Nikolay Savinov氏は、long contextと思考能力の間には深い関係があると指摘する。

「モデルが生成した出力（思考プロセス）を、次の入力として再度自身にフィードバックできる。これにより、ネットワークの層の深さ（一度のフォワードパスで可能な思考のジャンプ回数）による制限を超えて、より複雑な推論が可能になる。Long context能力が高ければ、この『自身の思考を読み返す』能力も高まるため、本質的に思考・推論能力の向上にも繋がるはずだ。」（Nikolay Savinov氏、podcastより要約）

Jack Rae氏も、Gemini 2.5 Proにおいて、long context能力と思考能力がうまく組み合わさることで、これまで解決できなかった問題が解けるようになったと述べている。大量の情報を参照しながら、深く考える能力。この二つが揃って初めて、真価を発揮するユースケースは多いだろう。

長い出力の課題 一方で、長い入力を受け付ける能力（Long Context Input）に対して、長い出力を生成する能力（Long Context Output）にはまだ課題がある、とSavinov氏は指摘する。

「事前学習の段階では、モデルは長いシーケンスを生成できる。例えば、50万トークンを与えて『これをコピーして』と指示すれば、実際にできる。問題は、SFT（Supervised Fine-Tuning）などのポストトレーニング段階にある。短い応答データで学習させると、モデルは『ある程度の長さになったらEOS（End of Sequence）トークンを出すのが正解』だと学んでしまい、長い応答が必要な場面でも途中で生成を止めてしまう傾向が出る。これはアライメントの問題であり、現在改善に取り組んでいる。」（Nikolay Savinov氏、podcastより要約）

多くのユーザーが「大量の情報を入力して、それを要約・リファクタリングしてほしい」と考えていることを踏まえると、このLong Output能力の向上は今後の重要な課題と言えるだろう。

開発者向けのTips Savinov氏は、long context機能を効果的に使うためのTipsとして以下を挙げている。

Context Cachingの活用: 一度読み込んだcontextをキャッシュすることで、同じコンテキストに対する二回目以降の質問応答を高速化・低コスト化できる。特に「chat with document」のようなユースケースで有効。質問はコンテキストの後に追加するのが定石（キャッシュを有効活用するため）。
RAGとの組み合わせ: やはり大規模知識ベースにはRAG。Multiple Needlesのようなタスクでも有効な場合がある。
無関係な情報を入れない: 特にMultiple Needlesの精度に影響する。
プロンプトによる誘導: モデル内部の知識（In-weight）とコンテキスト内の知識（In-context）が矛盾する場合がある。「上記の情報に基づいて、〇〇について教えてください」のように、どちらを参照すべきか明示的に指示すると良い。

未来予測：10Mトークン、そしてその先へ

Nikolay Savinov氏は、long context技術の今後の発展について、以下のような段階的な予測を示している。

Step 1: 現行（1M〜2Mトークン）の品質向上:
- まずは現在のコンテキスト長で、ほぼ完璧な情報検索（Retrieval）能力を実現する。これが達成されれば、人間には不可能なレベルでの情報処理（例：1時間の動画を見て特定の瞬間の出来事を正確に答える）が当たり前になり、想像もつかないような応用が開けるだろう。
Step 2: コスト削減と10Mトークンの普及:
- 次に、long contextの利用コストが大幅に低下し、10Mトークンが「コモディティ化」する。これにより、中〜大規模のコードベース全体をコンテキストに入れられるようになり、コーディング支援AIは人間の能力を完全に凌駕するレベルに達する可能性がある。「スーパーヒューマン・コーディングAIアシスタント」が全ての開発者の必須ツールになるだろう。
Step 3: 100Mトークン以上への挑戦:
- 100Mトークン以上の実現には、さらなるイノベーションが必要になるだろう。いつ実現するかはまだ見通せない。

これらの実現には、モデル自体の進化だけでなく、それを支える優秀な推論エンジニアの存在が不可欠であることも強調されていた。単にチップがあるだけではダメなのだ。

また、AIエージェントとの関係も興味深い。エージェントは、自身の行動履歴や観測結果を記憶するためにlong contextを「消費」する側であると同時に、ユーザーに代わってウェブ検索などから自動的に情報を収集し、コンテキストを構築してくれる「供給」側にもなり得るという。

総括と私見

Gemini 2.5 Proは、単なる性能向上に留まらず、long context能力と思考能力の融合という点で、AIの可能性を大きく押し広げる一歩となっている。Google DeepMindの研究者たちの話からは、100Mトークンという具体的な目標設定とその裏にある技術的・コスト的課題、そしてlong contextがコーディングやエージェント開発といった分野に与えるであろうインパクトの大きさがうかがえる。

今回のpodcastで特に印象的だったのは、Nikolay Savinov氏が10Mトークン実験の詳細（コストやハードウェアの制約）を比較的オープンに語っていた点だ。もちろん全てが公開されているわけではないだろうが、競合他社がしばしば技術的詳細を伏せがちな中で、こうした具体的な挑戦と限界についての言及は、技術の現在地を理解する上で非常に貴重だと感じる。一方で、Jack Rae氏が言及していたように、2.5 Proがまだ「Experimental（実験的）」リリースであり、System Cardの公開がGA（一般提供）まで待たれる状況は、ユーザーとしてはややもどかしい部分もある。とはいえ、モデル内部の「思考」プロセスを（少なくとも現時点では）そのまま見せている点など、透明性への意識も感じられる。long contextと思考能力の掛け合わせが、今後どのような体験を生み出してくれるのか、引き続き注目していきたい。