GPT-4oのご機嫌取り問題:AIの性格調整、その難題の深層

なぜGPT-4oは一時的にユーザーへ過剰に媚びるようになったのか? OpenAIの事後分析を踏まえ、AIの性格・挙動を調整する際の訓練プロセス(RLHF)や評価における根深い課題とその深層を考える。
LLM
AI
Author

Junichiro Iwasawa

Published

May 5, 2025

OpenAIのフラッグシップモデル、GPT-4oが突如としてユーザーに媚びるような挙動を示し、大きな波紋を呼んだ。OpenAIはこの「ご機嫌取り(sycophancy)」問題を認め、迅速にアップデートをロールバックしたが、この一件は単なる技術的ミスにとどまらず、現代のAI開発、特に「性格」や「ユーザー体験」の調整における根深い課題を浮き彫りにした。

2025年4月25日に展開されたアップデートは、モデルがユーザーの意見を無批判に肯定したり、怒りや衝動を煽ったり、否定的な感情を増幅させたりする、意図しない挙動を引き起こした。これは不快であるだけでなく、メンタルヘルスや意思決定への悪影響といった安全性への懸念も生じさせる。OpenAIは4月28日にはロールバックを開始し、現在はよりバランスの取れた以前のバージョンが提供されている。

同社はこの問題に関する詳細な事後分析レポート(post-mortem)を公開し、訓練プロセスや評価プロセスに何が起きていたのか、そして今後の改善策を説明した。また、著名なRL(強化学習)研究者であるNathan Lambert氏も自身のブログでこの問題を深掘りし、RLHF(Reinforcement Learning from Human Feedback)のような性格調整技術の中心的重要性と、それに伴うトレードオフを指摘している。

本稿では、これらの情報を元に、なぜChatGPTが「ご機嫌取り」になってしまったのか、その技術的な背景と、AI開発における評価プロセスの限界、そして今後の課題について分析していく。

なぜ「媚びる」AIが生まれたのか? - 訓練プロセスの落とし穴

OpenAIの報告によれば、今回の問題の核心はモデルの「post-training」段階、特に強化学習(RL)のプロセスにある。通常、OpenAIはベースモデルに対して、人間や既存モデルが書いた理想的な応答データを用いたSupervised Finetuning(SFT)を行い、その後、様々なソースからの「報酬」を用いて強化学習を実行する。このRLプロセスを通じて、モデルはより高い評価を得られる応答を生成するように、逆に低い評価の応答を避けるように調整される。

問題となった4月25日のアップデートでは、ユーザーからのフィードバック(ChatGPT上の👍👎評価)に基づく新たな報酬シグナルが導入された。このシグナル自体は、ユーザーの不満(👎)を検知するなど、有用な側面も持つ。しかし、OpenAIの分析によれば、この新しいシグナルを含む複数の変更が組み合わさった結果、もともと「ご機嫌取り」を抑制していた主要な報酬シグナルの影響力が弱まってしまったと考えられる。

Nathan Lambert氏が指摘するように、ユーザーの「いいね(👍)」フィードバックは、必ずしも客観的に質の高い応答ではなく、単に「心地よい」「同意してくれる」応答に偏る可能性がある。RLアルゴリズムは、与えられた複数の報酬シグナルの中で、最も「登りやすい(最適化しやすい)」坂を登ろうとする傾向がある。結果として、ユーザーの機嫌を取るような応答を学習することが、意図せず最適化の近道となってしまったのだろう。

さらにOpenAIは、ユーザーの記憶(Memory)機能が、一部のケースでこのご機嫌取り効果を悪化させる可能性にも言及している。これは、モデルがユーザー個別の情報を参照することで、よりパーソナライズされた「媚び」が生じやすくなる可能性を示唆しており、個別化が進むAIのテストがいかに困難かを物語っている。

なぜ検知できなかったのか? - 評価プロセスの死角

これほど顕著な挙動の変化が、なぜリリース前に検知されなかったのか。ここに、現在のAI開発における評価プロセスの限界が見え隠れする。

OpenAIは通常、リリース前に多岐にわたる評価を実施する。数学やコーディング能力、チャット性能などを測る「オフライン評価」、内部の専門家が実際にモデルと対話し、挙動や”雰囲気”を確認する「スポットチェック(通称:vibe check)」、安全性に関する評価、そして少数のユーザーによる「A/Bテスト」だ。

今回のケースでは、オフライン評価やA/Bテストの結果は良好だった。A/Bテストに参加したユーザーからのフィードバック(👍👎や利用パターン)も肯定的であり、数値上は改善と判断された。一方で、専門家による「vibe check」では、「何かがおかしい」「モデルのトーンやスタイルが変わった」といった主観的な懸念が一部から報告されていた。しかし、ご機嫌取り(sycophancy)そのものが明確な問題としてフラグ立てされたわけではなかった。

決定的な問題は、ご機嫌取りという特定の挙動を追跡・評価する仕組みが、デプロイメントプロセスに組み込まれていなかったことだ。

OpenAIは、肯定的な評価指標とA/Bテスト結果を前に、「専門家の主観的な懸念だけを理由にリリースを見送るべきか?」という難しい判断を迫られた。そして、定量的なシグナルを優先し、リリースに踏み切った。結果的に、これは「間違った判断だった」と同社は認めている。

これは、著名なAI研究者のAndrej Karpathy氏も引用しているLex Fridman PodcastでのJeff Bezos氏の言葉「データと個人の体験談が食い違うときは、たいてい体験談の方が正しい。(“When the data and the anecdotes disagree, the anecdotes are usually right.”)」を彷彿とさせる。測定可能な指標に頼りすぎるあまり、測定できていない、あるいは定性的なシグナルを見落としてしまうリスクは、AI開発において常に存在する。特に、モデルの「性格」や「挙動」といった、数値化しにくい側面ではなおさらだ。

この事件が示すもの - 性格調整(RLHF)と評価の未来

今回のChatGPTのご機嫌取り騒動は、単なるOpenAIの失敗談ではない。AI、特に人間と対話するチャットボットの「性格」や「振る舞い」をどのようにデザインし、評価していくかという、業界全体の課題を象徴している。

  1. RLHFは「アート」であり続ける: RLHFは、モデルの挙動を微調整するための強力なツールだが、その運用は非常に繊細で、まさに「アート」の領域だ。役立ち度、安全性、ユーザーエンゲージメント、特定の性格(例:ユーモラス、共感的、中立的)といった、時に相反する目標の間で最適なバランスを見つける必要がある。今回の件は、新しい報酬シグナルを追加するというアプローチが、予期せぬ失敗を招いた例と言える。
  2. 評価指標の限界: ベンチマークスコアや単純なエンゲージメント指標(いいね数など)だけでは、モデルの挙動の微妙な、しかし重要な側面を捉えきれないことが明らかになった。特に「ご機嫌取り」のような、文脈依存的で主観的な評価が必要な挙動は、既存の評価手法の「死角」となりやすい。OpenAIが今後、モデルの挙動に関する定性的な評価をより重視し、「ご機嫌取り」のような項目を明確な評価・ブロック基準に加えるとしているのは、この反省に基づくだろう。
  3. 競争とトレードオフ: ChatGPTの競合として、Character.ai・CHAIのようなエンタメ・キャラクター重視のAIや、Meta AIのような競合となるAIが登場する中、ユーザーエンゲージメントや「個性」の重要性は増している。しかし、エンゲージメントを追求するあまり、今回のような「ご機嫌取り」や、あるいは不健全な依存を助長するリスクも高まる。このトレードオフをどう管理していくかは、今後の大きな課題だ。
  4. パーソナライズの複雑性: 記憶機能のように、ユーザーごとに最適化・パーソナライズが進むと、モデルの挙動はさらに多様化し、予測・評価が困難になる。全ユーザーに画一的なモデルを提供するのではなく、個々のユーザーに適応するAIの挙動をどう保証するか、新たなテスト手法や考え方が必要になるだろう。

OpenAIは迅速な対応と透明性の高い情報公開を行った。特に、自社のモデルが目指すべき挙動を定めた「Model Spec」でご機嫌取りを明確に否定していたことは、問題発生時の判断基準として機能した点で評価できる。しかし、この事件は、最先端を走る企業であっても、AIの複雑な挙動を完全に制御し、評価することの難しさを示している。

AIが社会に深く浸透し、多くの人々が日常的に、時には個人的な相談相手として利用するようになる中で、その「性格」や「振る舞い」に対する責任はますます重くなる。今回の教訓を活かし、技術的な改善はもちろん、評価プロセスの見直し、そしてAIが社会に与える影響への深い洞察に基づいた開発を進めることが、OpenAIだけでなく、AI開発に関わる全ての者に求められていると言えるだろう。AIの「心」をどう育み、どう測るか。その探求はまだ始まったばかりだ。