Anthropicの根深い歪みと、Claude劣化を巡る陰謀論

Safetyの過剰補正とResearch至上主義が招いた摩擦から、AnthropicのClaudeモデルは性能劣化や不透明なBANといった問題を抱え、開発者コミュニティから厳しい目を向けられている
LLM
AI
Podcast
作者

Junichiro Iwasawa

公開

2026年5月5日

最近のAnthropicは、自らの足に向けて12ゲージのショットガンを撃ち続けるという奇妙な性癖に目覚めたようだ。

Nerd Snipe podcastのエピソードにおいて、TheoとBenが指摘したAnthropicの惨状は、単なる一時的なバグやモデルの不調という言葉で片付けるにはあまりにも根が深い。Claude 4.7のリリース以降、コミュニティを席巻しているのは「Claudeが露骨に馬鹿になった」という嘆きと、不可解な仕様変更、そしてサードパーティ製ツール利用者に対する恣意的なBANの嵐である。

本稿では、同podcastにおける彼らの議論、とりわけ後半で展開された「conspiracy theory」を紐解きながら、Anthropicという企業が抱える根源的なエンジニアリングの欠陥と、プラットフォームとしての危うさに焦点を当てる。

過剰なSafetyと、不透明極まりないBANの嵐

現在のAnthropicの狂気を象徴しているのが、Safetyに対する病的なまでの過剰補正である。無害な暗号解読のコード(画像内の文字列をシンプルな暗号で解くようなもの)を書かせようとしただけでプロンプトがブロックされ、挙げ句の果てには会話を再開するために「Sonnetへのダウングレード」を要求される始末だ。モデルの推論能力そのものが、literal-following(字義通りの解釈)を強制するトレーニング時のSafety調整によって阻害されているのは明らかだが、彼らの暴走はモデルの挙動にとどまらない。

さらに深刻なのは、T3 CodeやOpenClawといったサードパーティのオーケストレーターを利用しているAPIユーザーに対する、不透明なBANの横行である。規約上はこれらのツールを使用することは禁止されていないはずだが、突突としてアカウントが凍結される。Anthropic側からの公式な説明は一切なく、X(旧Twitter)でBoris Cherneyや関係者をタグ付けして騒ぎ立てた者だけが、裏口からこっそりとBANを解除されるという完全なブラックボックス体制だ。

なぜAnthropicはサードパーティ製ツールの排除に躍起になっているのか。表向きの理由は明かされていないが、実態は彼らが直面している深刻な「Compute危機」と、キャッシュ管理の未熟さに起因している可能性が高い。

OpenClawのようなツールはバックグラウンドで頻繁にheartbeat(死活監視)リクエストを送信する。正しくキャッシュが機能していれば問題ないはずだが、Anthropicのインフラは多様なハードウェア環境を跨ぐキャッシュの同期に苦戦しているようだ。高価なVRAMの浪費を嫌った彼らは、キャッシュのTTL(有効期間)を1時間からわずか5分へと極端に短縮するという暴挙に出た。その結果、キャッシュミスが頻発し、ユーザーのAPI利用料が不当に跳ね上がるだけでなく、Anthropic側のサーバーインフラにも多大な負荷がかかるという悪循環に陥っている。自らのキャッシュシステムの出来の悪さを棚に上げ、サードパーティのクライアントをBANすることでトラフィックを抑制しようとする姿勢は、プラットフォーム提供者としてお粗末としか言いようがない。

陰謀論その1:外部ユーザーへの「劣化版1M Context」の強制ルーティング

Podcast内でTheoが展開した最初のconspiracy theoryは、非常に現実的なインフラの制約とハードウェアの多様性に基づいている。

現在Anthropicは、自社で確保しているNVIDIA GPUsに加え、AWSのTrainiumやGoogleのTPUsなど、全く異なるアーキテクチャをまたいでモデルをホストしている。ここで重要なのは、NVIDIAのGPUは設計上VRAMの容量に厳しい制限があるという事実だ。Large Language Model (LLM)において、コンテキストウィンドウ(モデルが一度に処理できるトークン数)の維持には大量のVRAMを消費する。通常、OpenAIのような企業であれば、長いコンテキストを要求するリクエストには高い単価(トークンあたりのコスト増)を設定する。

しかし驚くべきことに、Anthropicは最近、1 million token contextのモデルを一般公開し、通常モデルとの価格差を撤廃した。彼らが突如として慈善事業に目覚めたわけではない。

Theoの推測によれば、内部の研究者たちが愛用する高性能なNVIDIA GPUのリソースを確保するため、外部のヘビーユーザー(我々のようなAPI利用者やClaude Codeのユーザー)を、Google TPUsやAWS Trainiumでホストされている「1 million contextバージョン」のモデルへと強制的にルーティングしている可能性が高い。そして、この1M contextバージョンのモデルこそが、推論能力において明確に劣る「馬鹿になったClaude」の正体である。

AMDのAI Groupのシニアディレクター(stellaraccident)がGitHubに残したissueは、この仮説を裏付ける恐ろしいデータを示している。彼女の調査によれば、直近のアップデート以降、API経由でのTokenの消費量が爆増(入力トークンで約170倍、出力で約64倍)し、数万円程度だったAWS Bedrockの請求が突如4,000万円を超えたというのだ。外部の我々が体験している劣化やコストの高騰は、NVIDIA GPUを社内研究用に温存し、外部ユーザーを代替アーキテクチャへと押し流す意図的なトラフィックコントロールの副産物である可能性が極めて高い。

陰謀論その2:Research vs Engineeringの分断が生む機能不全

二つ目のconspiracy theoryはさらに根深く、Anthropicという企業の成り立ちそのものに関わる。そもそもDario AmodeiらAnthropicの創業者たちがOpenAIを去った最大の理由は、エンジニアリング主導のOpenAIの文化に対する、リサーチャーとしての反発だった。Anthropicは本質的に「ResearchとSafetyの会社」であり、インフラやプロダクト構築といった泥臭い「Engineering」をどこか軽視しているきらいがある。

この文化的な歪みが、現在のAPIとプロダクトレイヤーの惨状を直接的に引き起こしているというのだ。

Claudeの推論モデルは、コンテキストに含まれるThinking traces(思考プロセス)を読み込んで次の出力を生成する。しかしAnthropicは、他社へのモデルの蒸留(distillation)を恐れるあまり、APIのレスポンスからこのThinking tracesを完全に隠蔽(redact)する決定を下した。前述のAMDリサーチャーのデータでも、3月上旬を境に思考プロセスの可視性が100%からゼロへと激減したことが確認されている。

結果として何が起きたか。Anthropicは、多様なハードウェア(NVIDIA, TPU, Trainium)を跨ぐロードバランサーを運用しながら、ユーザーから送られてくるプロンプトと、バックエンドのデータベースに隠蔽された思考のキャッシュデータを紐付け(IDマッピング)、正しい状態のメモリを持つGPUへと正確にルーティングするという、神業のような複雑なエンジニアリングを強いられることになった。

サードパーティのツールを経由したリクエストが不当に跳ね返されたり、Claude Desktop appで生成されたファイルが突然消去されるような致命的なバグが頻発している理由は明らかだ。Anthropicのエンジニアリングチームが、この複雑怪奇なアーキテクチャの制御に完全に失敗しているからに他ならない。

モデルそのものが「馬鹿」になったというよりは、思考プロセスを含めたコンテキストのキャッシュが正しくモデルに渡されていないため、結果としてClaudeが「記憶喪失の愚者」のように振る舞っているのだ。これは高度なAIモデルの問題ではなく、純粋かつ初歩的なWebエンジニアリングの敗北である。

開発者軽視のツケと、次なる覇者への期待

Anthropicのモデルが提供するユーザー体験は、かつては間違いなく魔法のようだった。Opus 4.5時代のコーディング体験を懐かしむ開発者は多い。しかし、現在の彼らが提供しているのは、不安定なAPI、不透明なBAN、そしてエンジニアリングの破綻を取り繕うための過剰なSafetyという名の言い訳の山である。

プラットフォームビジネスにおいて、外部開発者との信頼関係は一朝一夕に築けるものではない。T3 CodeやOpenClawのコミュニティが有志でキャッシュの最適化PRを投げているにもかかわらず、それを黙殺し、事前の警告もなくAPIのアクセスを遮断するような企業に、我々のプロダクトの命運を預けることは極めて危険だ。

Anthropicの経営陣、とりわけDario Amodeiがエンジニアリングの重要性を根本から理解し、Research偏重の社内政治を是正しない限り、この惨劇は終わらないだろう。我々開発者にできる唯一の自衛策は、彼らのAPIに依存するリスクを正確に見積もることだ。Googleの次期Geminiや、OpenAIの次世代モデルが、真の意味で「使える」ツール呼び出しと強牢なインフラを提供してくれる日が来ることを、今はただ静かに待ち望むばかりである。