Qwenの奇妙な強化学習：デタラメ報酬で賢くなる怪現象と、その深層

強化学習による言語モデルの性能向上、特に数学のような検証可能な報酬（RLVR, Reinforcement Learning with Verifiable Rewards）を用いた研究が花盛りだ。しかし、最近著名なRL研究者であるNathan Lambert氏も共著者として名を連ねる論文「Spurious Rewards: Rethinking Training Signals in RLVR」がこの分野に一石を投じ、話題となっている。

驚くべきことに、Qwen 2.5モデル（特に数学能力に特化したQwen-Math）に対して、文字通りランダムな報酬や、甚だしきは「不正解」のラベルを報酬として与えても、MATHベンチマークのスコアが15～20ポイント以上も向上するというのだ。これは一体どういうことなのか？まるで「壊れたコンパスでも宝島に辿り着ける」と言わんばかりのこの現象は、RLVRの訓練シグナルについて我々がまだ何か根本的なことを見誤っている可能性を示唆している。

「ありえない報酬」でも性能が向上するQwenの特異性

論文「Spurious Rewards」で報告されている結果は衝撃的だ。Qwen2.5-Math-7Bモデルは、以下のような報酬条件でもMATH-500スコアが大幅に向上する：

正解ラベル（Ground truth）: +28.8ポイント
多数決（Majority vote）: +26.5ポイント
ワンショットRL（One-Shot RL）: +24.4ポイント
フォーマット報酬（Format rewards）: 解答に特定の文字列 (\boxed{}) があれば報酬を与えるだけで、+16.4ポイント
不正解ラベル（Incorrect labels）: 文字通り間違った解答に報酬を与えても、+24.6ポイント
ランダム報酬（Random rewards）: 一定確率でランダムに報酬を与えても、+21.4ポイント

通常、強化学習は「正しい行い」を強化することで機能するはずだ。しかし、Qwenモデルにおいては、報酬の「正しさ」がほとんど関係ないかのような結果が報告されている（verifierなしの訓練や1サンプルのみの学習など）。重要なのは、この「デタラメ報酬でも性能向上」という現象は、Llama 3.2 3B InstructやOLMo 2 7Bといった他のオープンモデルでは観測されない点だ。つまり、Qwenモデル群（特にMath版）には、何か特有の性質が備わっていると考えられる。

なぜQwenだけ？鍵は「コード推論」という名の隠された能力

では、Qwenの何が特別なのか？論文が示唆するのは、Qwenモデルが事前学習の段階で獲得した特有の「推論戦略」、特に「コード推論（code reasoning）」能力だ。これは、実際にコードを実行するわけではないものの、思考のステップをPythonコードのような形式で記述する能力を指す。

驚くべきことに、Qwen2.5-Math-7Bは、ベースモデルの段階で既に約65%の確率でこのコード推論を用いる。そして、どのような報酬（たとえデタラメであっても）を用いたRLVRの後でも、このコード推論の出現頻度が90%以上に急上昇するというのだ。さらに、このコード推論の利用とMATH-500スコアの向上には強い相関関係が見られる。

つまり、RLVRはQwenに対して新しい数学能力を「教えている」のではなく、むしろQwenが元々持っている「コード推論」という得意技を、より頻繁に使うように「引き出している（eliciting）」だけではないか、という仮説が成り立つ。論文では、プロンプトによって強制的にコード推論をさせると、実際にQwen2.5-Mathモデルの性能が向上することも実験で示されている。

ランダム報酬が機能するメカニズム：GRPOアルゴリズムの「副作用」か？

それにしても、なぜ「ランダム報酬」という情報量ゼロのシグナルでさえ、Qwenの性能を向上させ、コード推論を引き出せるのだろうか？Lambert氏と論文の著者らは、強化学習アルゴリズムGRPO（Group Relative Policy Optimization）の「クリッピング」機構にその手がかりがあると考えている。

通常、報酬が完全にランダムであれば、期待される方策勾配はゼロになり、学習は進まないはずだ。しかし、GRPO（やPPO）におけるクリッピング処理は、方策の更新幅を制限することで学習を安定させる役割を持つが、これが副次的なバイアスを生んでいる可能性がある。具体的には、クリッピングが「モデルが元々高い確率で生成するトークン（つまり、Qwenの場合はコード推論に関連するトークン）を相対的にさらに強化し、低確率なトークンを抑制する」ように働くのではないか、と推測されている。Lambert氏のブログでは、このクリッピングを無効化するとランダム報酬による性能向上が見られなくなる実験結果が示されており、この仮説を裏付けている。

要するに、アルゴリズムの特性が、意図せずともモデルの潜在的な「得意技」を増幅する方向に作用した結果、ランダム報酬でも性能が向上するという、一見不可解な現象が起きたのかもしれない。

RLVR研究への警鐘と、スケールの重要性

この一連の発見は、現在のRLVR研究、特にオープンソースコミュニティにおける研究の進め方に対して重要な示唆を与えている。

Qwen依存の危険性: Qwenモデル（特にMath版）は、その高い性能とオープン性から、RLVR研究における「デファクトスタンダード」的な立ち位置になりつつある。しかし、今回の結果は、Qwenで得られた知見が他のモデルに一般化可能であるとは限らないことを明確に示している。特定モデルへの過度な依存は、研究の普遍性を見誤らせる危険性を孕んでいる。
「誘発理論（Elicitation Theory）」の再確認: 今回の結果は「事後学習の誘発理論」を強く支持するものだ。つまり、少なくとも現在のアカデミアで見られるような計算資源規模でのRLVRは、モデルに真に新しい知識や能力を「教えている」のではなく、事前学習段階で獲得済みの潜在的な能力を「引き出して」いるに過ぎない可能性が高い。フォーマットを整えたり、特定の推論スタイルを表面化させたりする役割が主であるならば、「RLVRは万能薬」という見方は修正が必要だろう。
スケールの壁: 真に新しい振る舞いを学習させるにはどうすればよいのか？Lambert氏は、OpenAIのo3がo1と比較して事後学習に10倍もの計算資源を投じた例を挙げ、RLのスケールアップの重要性を強調する。DeepMindが強化学習で囲碁やチェスの世界で人間を超える能力をAIに獲得させたように、十分な計算資源と適切なアルゴリズムがあれば、RLがニューラルネットに新たな知識を植え付けることを妨げる構造的な限界はないはずだ、と。

アカデミアのRLVR研究が、この「スケールアップ前のドメイン」に留まっている限り、今回のような「ベースモデルの特異な性質に依存した結果」に振り回され続けることになるだろう。AnthropicのSholto Douglas氏がDwarkesh podcastで述べたように、「技術ツリーのより高い段階に進んでから宇宙ミッションを開始する」べきであり、アルゴリズム的に正しいものを見極めた上で、大規模な計算資源を投下する準備が、オープンな研究コミュニティにも求められているのかもしれない。

結局のところ、Qwenの「デタラメ報酬でも賢くなる」現象は、ベースモデルの事前学習の奥深さと、我々の理解の浅さを浮き彫りにしたと言えるだろう。そしてそれは、今後のRL研究がどこへ向かうべきかという、大きな問いを投げかけている。道のりはまだ長そうだ。