John SchulmanがOpenAIを去り、Anthropicを経て自らの新天地Thinking Machinesへと居を移してからしばらくが経つ。
ChatGPTのリードアーキテクトであり、PPO(Proximal Policy Optimization)の生みの親でもある彼が、CursorのMichael Truellとのやりとりの中でOpenAI初期の狂乱と、現在のReinforcement Learning(RL)における「不都合な真実」を淡々と、しかし極めて高い解像度で語っている。
今回のブログでは、彼のインタビューから見えてくるAI開発の「泥臭い真実」と、彼が次に仕掛けるTinkerの勝算について、独自の視点で分析してみたい。
「Universe」という正しすぎる失敗
OpenAIの初期がいかに「Rag-tag(寄せ集め)」な集団であったか。今や時価総額が国家予算レベルに達しようとしている巨人の、かつての姿をSchulmanは懐かしむように語る。
当時は現代のような「スケーリング則への狂信」はなく、アカデミアに近い自由な雰囲気が漂っていたという。そこで生まれた大きな挫折の一つが、Universeプロジェクトだ。
Universeは、あらゆるコンピューター上のタスク(ビデオゲームやウェブナビゲーション)をRLの環境として統合し、汎用エージェントを育てようという壮大な試みだった。Schulmanはこれを「深く正しいアイデア(Deeply correct idea)だったが、10年早すぎた」と評している。
当時のインフラではシステムの複雑さに耐えきれず、モデルの汎化性能も追いつかなかった。結局、OpenAIはこの広すぎる野心を一旦捨て、Dota 2というスコープを絞ったプロジェクトで「大規模なエンジニアリング」の筋肉を鍛えることになる。
この「正しいが早すぎるアイデア」を捨てる勇気こそが、後のOpenAIを成功に導いた。ロボティクス部門の閉鎖も同様だ。それらは「デッドエンド」だったかもしれないが、そこで培われた大規模学習のノウハウが、後のGPTシリーズの血肉となっている。
なぜ今、Value Functionは「オワコン」なのか
インタビューの中で、筆者が最も興味を惹かれたのが、強化学習におけるValue Function(価値関数)の現状に関するSchulmanの分析だ。
伝統的なRLにおいて、Value FunctionはVariance Reduction(分散低減)のために不可欠な要素だった。しかし、現在のLLMに対するRL(特にRLHFや検証可能な報酬を用いた学習)において、Value Functionはそれほど大きな役割を果たしていないという。
John Schulman: 「なぜ価値関数が現在のタスクでそれほど役立たないのか、その理由ははっきりとは分かりません。おそらく、分散低減の効果が期待したほど得られていないのでしょう。ただ、いつかValue Functionが返り咲く時は来ると予想しています。」
この発言は非常に示唆に富んでいる。現在のLLMの学習が、ある種「短いタイムホライズン(時間軸)」の最適化に終始している可能性を示唆しているからだ。数万トークンをサンプリングする今のLLMは一見「長い時間軸」を扱っているように見えるが、RLの構造としてはまだ深みに欠けているのかもしれない。
AGIタイムラインに潜む「エンジニアのバイアス」
Schulmanは、巷で囁かれるAGI(人工汎用知能)のタイムラインに対しても、極めて現実的な、あるいは冷ややかな視点を持っている。
彼は、エンジニアや研究者がプロジェクトの完了時間を常に見誤る「計画の錯誤」に触れ、世の中のAGI予測には「3倍の係数(3x factor)」をかけるべきだと示唆している。自動運転車(Self-driving cars)が「あと数年」と言われ続けてから久しいのと同様に、AGIもまた、最後の数パーセントの精度を埋めるために膨大な時間がかかるという見立てだ。
一方で、AIがAI自身の開発を加速させる「ポジティブ・フィードバック・ループ」の存在も認めており、直感に反するスピードで進化が起こる可能性についても留保を置いている。この「慎重な楽観主義」こそが、狂騒のAI業界で彼が信頼され続ける理由だろう。
Thinking Machinesと「Tinker」の狙い
Schulmanが現在取り組んでいるThinking Machinesの旗艦プロダクトがTinkerだ。
これは、低レイヤーのFine-tuning APIであり、GPUや分散システムの複雑さを意識することなく、独自のPost-trainingアルゴリズムを実装できるプラットフォームだという。
OpenAIやAnthropicが、高度にパッケージ化された「推論API」を提供する「プラットフォームの巨人」へと進化する中で、Schulmanはあえて「モデルの裏側を弄りたい」という玄人志向の開発者、あるいは研究者たちのニーズに賭けている。
John Schulman: 「Tinkerは、MLの知識があり、細部にこだわりたい人たちのためのものです。GPUボックスを自前で立てる必要なく、Pythonスクリプトを書くだけで大規模なトレーニングが可能になります。」
これは、前述のサンプルブログで指摘されていたOpenAIの「アンチプラットフォーム性(外部開発者の軽視)」に対する、Schulmanなりのアンサーのようにも聞こえる。
今でも研究者に必要なのは「コーヒーとノート」
最後に、Schulmanの日常が語られている。意外にも、彼は今でもノートを手に喫茶店へ行き、雑音の中で思考を巡らせることを好むという。
GPT-5 Proを使って文献調査を行い、自分の曖昧なアイデアをモデルに肉付けさせる。一方で、コードの1行1行を完全に把握し、シンプルな実装を保つことの重要性を説く。
AIの進化を最前線でリードしてきた男が、最終的には「コーヒーとノート」という極めてアナログな環境を思考のベースに置いている事実は、技術に溺れがちな我々への警鐘のようにも響く。
Thinking Machinesが次に何を打ち出すのか。Tinkerがどこまで開発者の筋肉を加速させるのか。John Schulmanの第2章は、まだ始まったばかりだ。