GPT-4.1の深層: 開発リーダーが語る「開発者が喜ぶAI」への道と、評価の賞味期限

OpenAIでGPT-4.1開発の鍵を握る一人、事後学習研究リーダーのMichelle Pokrass氏が、Unsupervised Learning podcast のインタビューでその開発秘話やAIの未来について赤裸々に語った。GPT-4.1がいかにして指示追従性とlong context処理能力を高め、開発者にとって「使って楽しい」モデルへと進化したのか。そして、なぜAIの評価ベンチマーク（eval）は3ヶ月で陳腐化するのか。成功するAIスタートアップは何が違うのか。最前線のチームはfine-tuningをどう活用し、現在の限界を突破しようとしているのか。

本稿では、Pokrass氏のインタビュー内容とOpenAIが公開したGPT-4.1のプロンプトガイドを基に、これらの疑問を深掘りしていく。特に、ベンチマークとの向き合い方、GPT-4.1を使いこなすためのプロンプト術、そして Reinforcement Fine-tuning（RFT）、Supervised Fine-tuning（SFT）、Preference Fine-tuning の戦略的な使い分けについて考察していく。

GPT-4.1は「開発者の喜び」を追求：指示追従性とlong contextへの賭け

Pokrass氏によれば、GPT-4.1開発の真の目標は「開発者にとって使って楽しい（a joy to use for developers）」モデルを実現することだったという。従来のモデル開発では、しばしばベンチマークのスコアを追い求めるあまり、実際の利用シーンで「指示に従わない」「フォーマットがおかしい」「コンテキストが短すぎて役に立たない」といった基本的な問題で躓くことがあった。OpenAIも例外ではないと認めている。

そこでGPT-4.1では、開発者からの長年のフィードバックに真摯に耳を傾け、それを具体的な評価（Eval）に落とし込むことから始めた。モデルトレーニングに着手するかなり前から、ユーザーインタビューを重ね、問題点を洗い出し、社内で実際に使われているAPIの利用状況に基づいた独自の「指示追従性評価（instruction following eval）」を構築。これが開発の北極星となった。

特に、指示追従性とlong contextへの対応は最優先事項だった。Pokrass氏が最近ユーザーから得た洞察として、「世の中の知識をすべて無視し、提供されたコンテキスト内の情報だけを使う」能力の向上が挙げられる。これは従来のベンチマークでは測れないが、特定のユースケースでは極めて重要な能力だ。

AI評価（Eval）の賞味期限は3ヶ月：常に新たな評価を求める理由

Pokrass氏は「Evalの賞味期限は3ヶ月程度」と語る。AIの進歩はあまりにも速く、既存の評価はすぐに飽和してしまう。だからこそ、OpenAIは常に新しい評価基準やテスト例を求めている。特に「long contextでの実世界Eval」や、より多様な「指示追従性」のケースを渇望しているという。

この話は、AIを活用するスタートアップにとっても示唆に富む。成功しているAIスタートアップは、自分たちのユースケースを深く理解し、質の高い独自のEvalを持っているとPokrass氏は指摘する。新しいモデルがリリースされた際、これらの企業は1時間程度で自社のEvalを回し、迅速にその価値を判断できる。そして、モデルの特性に合わせてプロンプトや周辺の仕組み（スキャフォールディング）を調整する柔軟性も併せ持つ。

さらに、「現在のモデルでは手が届きそうで届かない」あるいは「10回に1回しか成功しないが、9回成功させたい」ようなユースケースを常にストックしておくことが、競争優位性を築く鍵だという。新しいモデルが登場した瞬間に、それらの課題が解決され、市場をリードできるからだ。Pokrass氏の経験則では、ベースモデルで10%程度の成功率のものが、fine-tuningで50%まで向上するようなタスクは、数ヶ月後の次世代モデルで容易に達成される可能性が高い「手が届きそうな」領域だと言える。

GPT-4.1を使いこなす：プロンプト術とfine-tuning戦略

GPT-4.1は指示に対してより忠実かつ文字通りに従うように訓練されている。これは、以前のモデルがユーザーの意図をより広範に推測していたのとは対照的だ。つまり、GPT-4.1は明確で具体的な指示によって、その挙動を精密にコントロールできるということでもある。

プロンプトエンジニアリングのヒント

OpenAIのプロンプトガイドとPokrass氏のインタビューから、いくつかの重要なヒントが見えてくる。

構造化されたプロンプト:
- XMLタグやMarkdown形式でプロンプトを明確に構造化すると、モデルの理解度が向上する。特にlong contextでは、指示をコンテキストの最初と最後に配置することが推奨される。
- 推奨される区切り文字: Markdown（H1-H4タグ、バッククォート、リスト）、XML（ネスト構造やメタデータ付与に便利）。長文ドキュメントの場合、JSONは冗長になるため、XMLやID: 1 | TITLE: The Fox | CONTENT: ...のような形式が良い。
エージェント的ワークフローにおけるシステムプロンプト:
- 永続性 (Persistence): 「ユーザーのクエリが完全に解決されるまで処理を続け、確信するまで終了しないでください」といった指示で、モデルが途中で諦めるのを防ぐ。Podcastの中でもこの「keep going」プロンプトが「面白い発見」として語られている。次世代モデルではこのようなプロンプトがなくともうまくいくよう修正を目指しているものの、現状では顕著な性能向上が見られるという。
```
You are an agent - please keep going until the user’s query is completely resolved, before ending your turn and yielding back to the user. Only terminate your turn when you are sure that the problem is solved.
```
- ツール呼び出し (Tool-calling): 「ファイル内容やコードベース構造が不確かな場合は、ツールを使って情報を収集してください。推測や捏造はしないでください」と促し、ツールの積極的な利用を奨励する。
```
If you are not sure about file content or codebase structure pertaining to the user’s request, use your tools to read files and gather the relevant information: do NOT guess or make up an answer.
```
- 計画 (Planning) [オプション]: 「各関数呼び出しの前に広範に計画し、前回の関数呼び出しの結果を広範に考察してください」と指示し、思考プロセスを明示させる（いわゆるChain-of-Thought）。これにより、SWE-bench Verifiedのスコアが4%向上したという。
```
You MUST plan extensively before each function call, and reflect extensively on the outcomes of the previous function calls. DO NOT do this entire process by making function calls only, as this can impair your ability to solve the problem and think insightfully.
```
ツールの利用: ツールはプロンプト内に手動で記述するのではなく、OpenAI APIのtoolsフィールドを通じて渡すことが強く推奨される。これによりエラーを最小限に抑え、モデルが期待通りに動作しやすくなる。ツールの名前と説明は明確にし、複雑な場合はシステムプロンプトの# Examplesセクションで使用例を示すと良い。

Fine-tuning戦略：SFT、RFT、Preference tuningの使い分け

Pokrass氏はOpenAIの提供するfine-tuningサービスについて、以下のように整理している。

Supervised Fine-Tuning - SFT:
- 用途: 主に速度とレイテンシの改善。例えば、GPT-4.1の能力をより軽量なnanoモデルで、低コスト・低遅延で実現したい場合。nanoモデルが特定の分類タスクで10%間違えるのを修正するなど、既存能力の移植や補強に適している。
- データ効率: 比較的少量のデータで効果が見られる。
Reinforcement Fine-Tuning - RFT:
- 用途: フロンティア（最先端）の能力を開拓する。市場のどのモデルも対応できないような、特定のニッチな領域で限界を押し上げる。エージェントに特定のワークフローの選択方法を教えたり、意思決定プロセスを改善したりするのに有効。OpenAI内部で使っている強化学習のワークフローと同じものが使われているとpodcast内で語られている。
- データ効率: 非常にデータ効率が高く、数百サンプル程度でも効果を発揮する。
- 特に有効なドメイン: チップ設計、生物学（創薬など）、結果が検証可能な分野。Pokrass氏は、OpenAI内部でモデル改善に使っているRLプロセスとRFTは基本的に同じであり、SFTよりも頑健だと強調する。
Preference Fine-tuning (Direct Preference Optimization):
- 用途: 主に文体やトーンといったスタイルに関する調整。モデルの応答が特定の好みに合うようにしたい場合に利用する。

AIエージェントとモデルの未来：汎用性と特化性の狭間で

AIエージェントの現状について、Pokrass氏は「明確にスコープが定められたドメインでは驚くほどうまく機能する」と述べる。適切なツールが提供され、ユーザーの要求が明確な場合だ。しかし、課題は「曖昧で厄介な実世界」とのギャップを埋めること。ユーザーはエージェントの能力を知らず、エージェントも自身の能力を把握しきれていない。また、曖昧な指示に対して、ユーザーに追加情報を求めるべきか、仮定に基づいて進むべきか、そのバランスを開発者が調整しやすくする必要がある。

モデルファミリーの進化については、Pokrass氏の哲学は「AGIのG（General）に注力し、汎用的な単一モデルを目指すべき」というものだ。長期的には製品ラインナップをシンプルにし、ChatGPTのモデルセレクターも簡素化したい考えだ。しかし、GPT-4.1に関しては、API開発者という特定のグループのニーズが切実であり、ChatGPT本体から切り離すことで、より迅速な開発・フィードバック・デプロイが可能になった。コーディング関連のデータを大幅に増やし、ChatGPT特有のデータセットを一部削除するといった、特化型ならではの最適化も行えた。

将来的には、GPT-5のような形でモデルファミリーが統合され、ユーザーがモデル選択に悩む必要がなくなることが期待される。しかし、特定のニーズに応じた「特化型」アプローチも、時には有効な選択肢として残り続けるだろう。

まとめ：変化の波を乗りこなす開発者たちへ

Michelle Pokrass氏の話は、AI開発の最前線が、単なる技術的進歩だけでなく、ユーザーとの対話、評価方法の革新、そして戦略的なfine-tuningによって切り拓かれていることを示している。

開発者にとって重要なのは、

自社のユースケースを深く理解し、独自の評価軸を持つこと。
プロンプトエンジニアリングの技術を磨き、モデルの特性を最大限に引き出すこと。
Fine-tuningの選択肢（SFT, RFT, Preference FT）を理解し、目的に応じて戦略的に活用すること。
「現在のモデルでは少し手が届かない」課題に常に挑戦し続けること。

AIの進化は止まらない。その変化の波を乗りこなし、新たな価値を創造していくためには、Pokrass氏が語るような「地に足のついた」アプローチと、未来を見据えた実験を続ける姿勢が不可欠だろう。