LLMベンチマークの「ミステリーショッパー」:Artificial Analysisが暴くAIの真の実力

Artificial AnalysisのGeorge CameronとMicah-Hill Smithが、LLMベンチマークの「ミステリーショッパー」として、AIの真の実力と「コストと知能のパラドックス」を独自の手法で暴き出す。
LLM
AI
Latent Space Podcast
Podcast
Author

Junichiro Iwasawa

Published

January 12, 2026

「Gemini 1.0 UltraはGPT-4を上回った」——かつてGoogleがそう発表した際、そのベンチマークスコアが32-shot(32個の回答例を与えるプロンプトエンジニアリング)によって達成された数字であることを、どれだけの開発者が認識していただろうか。

LLMの性能評価は、長らく「自作自演」の泥沼にあった。各AIラボが自社に都合の良いプロンプトで、都合の良いテストセットを選び、汚染されたデータでスコアを吊り上げる。このGoodhartの法則(指標が目標になると、それは良い指標ではなくなる)が支配する世界において、唯一の「大人」として現れたのがArtificial Analysisだ。

Latent Spaceのポッドキャストに登場した共同創業者のGeorge CameronとMicah-Hill Smithは、彼らがどのようにして業界の信頼できる審判としての地位を築いたか、そして現在のAIエコノミーが直面している「コストと知能のパラドックス」について語った。彼らの分析は、単なるモデルランキングを超え、AI開発の未来を占う羅針盤となっている。

“Mystery Shopper”という独立性の担保

Artificial Analysisの起源は、創業者が自身のAIアプリケーション(リーガルテック)を開発する過程で、既存のベンチマークが全く役に立たないことに気づいた点にある。彼らが導入した「Mystery Shopper Policy(覆面調査員ポリシー)」は、この分野における発明と言っても過言ではない。

彼らはラボから提供される特別待遇のAPIエンドポイントを使わない。我々一般の開発者と同じように、第三者のドメインでアカウントを登録し、一般公開されているエンドポイントに対してincognito(匿名)でベンチマークを実行する。これにより、「ベンチマーク用には高性能モデルを、一般ユーザーには量子化された劣化モデルを提供する」といった、ラボ側の姑息な最適化(shenanigans)を無効化しているのだ。

この徹底した独立性が、彼らのIntelligence Indexを業界標準へと押し上げた。彼らは単にMMLUやGPQAといった既存のデータセットを回すだけでなく、その実行方法、リトライ回数、温度設定(Temperature)を統一し、統計的有意性(95%信頼区間)を担保するために膨大なコストをかけて再試行を繰り返している。

知能とハルシネーションの非相関

ポッドキャストの中で特に興味深い議論の一つが、新たに導入された「Omissions Index(見落とし指数)」、実質的なハルシネーション率の計測だ。

従来、モデルは「分からない」と答えるよりも、間違っていても自信満々に回答した方がスコアが高くなる傾向にあった。しかし、実務において最も重要なのは「知ったかぶりをしない」ことである。Artificial Analysisはこの指標において、誤答にペナルティを与え、「分からない」という回答を評価する仕組みを取り入れた。

結果は示唆に富んでいる。知能(Intelligence Index)が高いモデルが、必ずしもハルシネーションを起こさないわけではない。

この点において、AnthropicのClaudeモデル群は傑出している。彼らのモデルは、生の知能スコアでは必ずしもトップではない場合でも、ハルシネーション率の低さでは群を抜いている。これは、Anthropicが「Constitutional AI」などを通じて、モデルの挙動や性格(Personality)の調整に成功していることを示唆している。逆に、GoogleのGemini 3 Proなどは知識量(Omniscience)では圧倒的だが、それが必ずしも「正直さ」とは直結しないというデータは、RAG(検索拡張生成)システムを構築するエンジニアにとって極めて重要な意味を持つ。

AIコストの「スマイルカーブ」現象

GeorgeとMicahが提示した「スマイルカーブ」の概念は、AIエコノミクスを理解する上で不可欠な視点だ。

左側では、GPT-4レベルの知能の単価が劇的に低下している。リリース当時と比較して、同等の知能を持つモデルの推論コストは100倍から1000倍安くなった(Amazon Novaなどの登場による)。コモディティ化は急速に進んでいる。

しかし、右側では逆の現象が起きている。推論への総支出額は上昇し続けているのだ。なぜか? それは、より高度な推論モデル(Reasoning Models)や、複雑なAgentic Workflow(エージェントワークフロー)が登場したからだ。

エージェントは、一つのタスクを完了するために数回、あるいは数十回の往復(Turn)を行い、膨大なトークンを消費する。つまり、「トークン単価」は下がっても、「タスク単価」は上がっている可能性がある。DeepSeekやOpenAIのoシリーズのようなReasoningモデルは、思考プロセス(Chain of Thought)のために大量のトークンを「空費」する。

このパラドックスこそが、NVIDIAのGPU需要が衰えない理由であり、企業がAI予算を増やし続ける理由でもある。Sparsity(疎性)技術の進展により、DeepSeek V3のようにアクティブパラメータ数を全パラメータの5%程度(あるいはそれ以下)に抑えることで効率化が進んでいるが、それでも「知能への渇望(Insatiable Demand)」はハードウェアの進化を食いつぶす勢いで進んでいる。

Agentic Benchmarkの夜明け:GDP Val AA

静的なQ&Aベンチマーク(MMLUなど)は既に飽和状態にある。現在のフロンティアは「仕事ができるか」だ。

Artificial Analysisが新たに公開したGDP Val AAは、OpenAIのGDP-benchをベースに、スプレッドシート、PDF、PowerPointなどの実ファイルを扱う44のホワイトカラータスクを評価するものだ。ここで彼らは「Stirrup」と呼ばれる独自のエージェントハーネス(評価用プログラム)を使用し、モデルにコード実行やブラウジングを許可している。

ここで衝撃的な事実が明かされた。Web上のチャットボット(例えばClaude.aiの画面)でタスクを行うよりも、API経由で彼らのAgentic Harnessを通した方が、同じモデルでもパフォーマンスが高かったのだ。これは、Web UI側のシステムプロンプトや安全装置が、モデル本来の能力を(意図的か否かに関わらず)制限している可能性を示唆している。開発者が「Webで試したら微妙だった」と判断するのは尚早であり、API経由で適切なツールを与えれば化ける可能性があるということだ。

信頼のアンカーポイントとして

AIモデルの開発速度は、もはや人間が直感で把握できるレベルを超えている。昨日のSOTA(State-of-the-Art)は今日の標準モデルであり、来週には陳腐化する。

GeorgeとMicahが語ったように、今後は「知能」だけでなく、「性格」「ハルシネーション耐性」「開示性(Openness)」といった多面的な評価が不可欠になる。特にOpenness Indexにおいて、単に重みが公開されているだけでなく、学習データやトレーニングコードの透明性を評価軸に入れたことは、AI2のOLMoのような真のオープンソースプロジェクトを正当に評価する上で重要だ。

「どのモデルを使えばいいのか?」という問いに対し、マーケティングトークではなく、冷徹なデータで答えるArtificial Analysisの存在は、我々エンジニアにとっての灯台と言えるだろう。彼らが次に目指すIntelligence Index V4、そしてさらにその先の「振る舞い(Behavioral)」の評価が、この混沌としたAIランドスケープをどう切り取って見せてくれるのか、期待せずにはいられない。