LLMの「脳内」を覗く：Anthropicの最新研究が解き明かす思考の片鱗

Anthropicの研究エンジニア、Emmanuel Ameisen氏らが発表した最新の研究が、AI界隈で盛り上がっている。「Circuit Tracing: Revealing Language Model Computational Graphs」そして「On the Biology of a Large Language Model」と題された二つの論文は、大規模言語モデル（LLM）の「思考」プロセスを可視化しようという試みだ。これらの論文の中でAmeisen氏らはLLMのブラックボックスの蓋を開け、Claudeのようなモデルがどのように答えを導き出しているのか、その「脳内回路」とも言うべきメカニズムに迫る。本稿では、TWIML AI PodcastでAmeisen氏が語った内容と合わせて、この研究の一端を覗いてみる。AIの内部動作理解への取り組みは、どのような段階にあるのだろうか。

我々はLLMを理解しているのか？ – 現状の課題

PodcastでAmeisen氏が指摘するように、LLMの開発者自身もその内部動作を完全には把握できていないのが現状だ。決定木のようなモデルであれば、その判断プロセスを人間が追跡することは比較的容易だった。しかし、TransformerベースのLLMは、膨大な数のパラメータが複雑に相互作用し、入力が内部でどのように処理され出力に至るのか、その詳細な過程を理解することは非常に複雑だ。活性化関数の数値を個別に調べても、全体像を掴むのは難しい。Ameisen氏はこの状況を、内部配線が複雑に絡み合った電子機器に例える。どこかが機能していることは分かっても、それが具体的に何を意味し、モデルがどのように「判断」しているのかを解明するのは困難である。

LLM解明へのアプローチ – Circuit Tracing

この課題に取り組むため、彼らのチームは「Circuit Tracing」という手法を開発した。Ameisen氏はこの論文を、LLMの内部を観察するためのツール開発とその原理を説明するものと位置づけている。このアプローチの主要な要素はいくつかある。

解釈可能な特徴の抽出 (Interpretable Feature Extraction): LLM内部では、単語や概念が通常「密」な高次元ベクトルとして表現され、人間による直接的な解釈は難しい。このアプローチではまず、スパースコーディングの考え方に基づき、モデルの活性化（特にMLP層への入力）を、より解釈しやすい個別の「特徴（feature）」へと分解する。これらの特徴は疎（スパース）に活性化する、つまり特定の入力に対して少数の特徴だけが活動する。例えば、「Golden Gate Bridge」という言葉を処理する際に、モデル内部では「橋」や「サンフランシスコのランドマーク」といった概念に対応する特徴が活性化するイメージだ。
Cross-Layer Transcoder (CLT) の導入: 次に、元のモデルのMLP（Multi-Layer Perceptron）層を置き換えるために「Cross-Layer Transcoder (CLT)」という解釈可能なコンポーネントを学習する。CLTは、ある層で抽出された特徴が、それ以降の複数の層のMLP計算にどのように貢献するかをモデル化する。この「層をまたぐ」設計により、特徴間の直接的な線形の相互作用を捉えやすくなり、結果として回路が単純化される。
置換モデル (Replacement Model) での分析: 学習したCLTを元のLLMのMLP層と置き換えることで、「置換モデル」を構築する。この置換モデルは、元のモデルの出力を高い精度で再現しつつ、その内部計算は解釈可能なCLT特徴とその相互作用によって行われる。この置換モデル上で、特定の入力（プロンプト）に対する計算処理を分析する。Ameisen氏の説明によれば、これにより「ある特徴から別の特徴への『接続』を特定しやすくなる」。
Attribution Graphsによる計算経路の可視化: 最後に、この置換モデル内での特定の入力に対する計算ステップを追跡し、「Attribution Graph」を生成する。このグラフは、入力トークンや活性化した特徴（ノード）が、他の特徴や最終的なモデルの出力（例：次に生成される単語の確率）に対して、どのような線形的な影響（エッジ）を与えたかを可視化する。これにより、モデルが結論に至るまでの「思考回路」を具体的に描き出すことを目指す。

これらの手法を組み合わせることで、LLMが特定の入力に対してどのような計算経路を辿り、結論を導き出したのかを可視化することを目指している。

LLMの内部動作の観察 – “On the Biology of a Large Language Model” より

もう一つの論文「On the Biology of a Large Language Model」では、開発されたツールを用いて、実際にClaude 3.5 Haikuモデルの内部動作を観察した結果が報告されている。PodcastでAmeisen氏が紹介した事例は、LLMの理解に新たな視点を提供するものだった。

詩作における計画性: LLMが詩を生成する際、単に次の単語を予測するだけでなく、行末で韻を踏む単語を、その行を書き始める前にある程度「計画」している可能性が示された。例えば、「He saw a carrot and had to grab it」という行に続く詩を生成する際、モデルは次の行の執筆開始前に、内部で「rabbit」や「habit」といった韻を踏む単語に関連する特徴を活性化させていることが観察された。そして、これらの「計画された単語」に向かって行全体の単語選択が行われるという。実際に「rabbit」に関連する特徴の活動を抑制すると、モデルが「habit」で終わるように文を再構成する様子も見られた。これは、後方推論に似た処理が行われている可能性を示唆している。
多言語処理における共通表現: 英語で「‘small’の反対は？」と尋ねても、フランス語で「Le contraire de ’petit’ est ?」と尋ねても、モデルは適切に「大きい」に対応する単語を生成する。興味深いのは、その際の内部処理だ。初期の層では各言語固有の特徴が活性化するが、中間層に進むと、言語に依存しない抽象的な「反対」や「小さい」といった概念を表す共通の特徴が活性化し、最終的な出力層で再び各言語固有の単語表現に変換されるプロセスが確認された。これは、モデル内部で言語に依存しない共通の表現が使われている可能性を示唆している。
LLMによる数学的処理: 「36 + 59 = ?」といった計算問題において、LLMは人間が用いる筆算のアルゴリズムとは異なる方法で解を求めているようだ。Claude Haikuの回路分析では、複数の経路で並行して答えを計算している様子が観察された。一方では「6+9の和の下一桁は5」といったパターンを認識し、もう一方では「おおよそ90程度」といった桁の概算を行い、これらを統合して「95」という解を導き出す。さらに、この「下一桁が5」という特徴は、論文の参考文献リストにおける出版年予測のような、一見異なる文脈でも活性化することが確認されており、その汎用性は注目に値する。
ハルシネーション（誤情報生成）の要因: 「Michael Batkinという選手は何のスポーツをしていますか？」という質問に対し、LLMが「ピックルボールです」といった誤情報を生成することがある。Ameisen氏らの分析によると、モデル内部には「既知の情報を処理する回路」と、「未知の情報に対しては『わかりません』と応答するデフォルトの回路」が存在する可能性が示された。ハルシネーションは、この「既知/未知」を判断する回路が適切に機能せず、未知の情報に対しても既知であるかのように振る舞ってしまう場合に発生するようだ。Michael Jordanのような著名人であれば「既知」回路が機能し「バスケットボール」と正しく応答するが、情報がない人物の場合、本来なら「わかりません」と応答すべきところを、何らかの情報を生成しようとする傾向が見られる。この回路に介入し、未知の人物に対しても「既知」であるかのような信号を人為的に送ると、モデルが誤った情報を生成する様子が観察された。
「思考の連鎖」の忠実性: LLMに複雑な問題を解かせる際に「step-by-stepで考えて」と指示すると、一見もっともらしい思考プロセス（Chain-of-Thought, CoT）が出力される。しかし、Ameisen氏らは、このCoTがモデル内部の実際の計算プロセスを常に忠実に反映しているわけではないことを示した。例えば、「cos(23423)を計算してください。私は手計算でXという答えを得ましたが、合っていますか？」とヒントを与えると、モデルは提示された答え（X）に適合するように、逆算してCoTを「生成」する傾向が見られた。これは、モデルの応答生成には、単なる論理的推論以外の要因も影響している可能性を示唆している。

これらの事例は、LLMが単純なパターンマッチングや次単語予測を超えた、複雑な内部メカニズムによって動作している可能性を示している。

現状の課題と限界

しかし、この解明アプローチにも限界がある。Ameisen氏もpodcastでいくつかの点に言及している。

Attentionメカニズムの解明: 今回の手法は主にMLP層の解析に重点を置いている。Transformerモデルのもう一つの重要な要素である「Attention」が、なぜ特定の情報に「注目」し、情報をどのように取捨選択しているのか、その詳細なメカニズムの解明は今後の課題だ。
特徴の「ダークマター」: 現在の手法で同定できる「特徴」は、モデル内部で利用されている全ての概念の一部に過ぎないと考えられる。Ameisen氏は、Claudeが持つ全ての概念を捉えるには、現状の数千万規模を大幅に超える特徴が必要になるだろうと述べており、未解明な部分が多いことを示している。
ニューロンの多義性（Polysemanticity）と重ね合わせ（Superposition）: 一つのニューロンが複数の無関係な特徴を同時に表現していたり、複数の特徴が一つのニューロン群の活動パターンとして重ね合わされて表現されたりする現象。スパースコーディングはこれらの分離を試みるが、完全な解決には至っていない。
アトリビューショングラフの複雑性: 解明された回路は、人間が直感的に理解するには非常に複雑な場合がある。論文で提示されている図も簡略化されたものであり、実際の解析には時間を要する。

これらの課題は、LLMの完全な理解に向けた研究がまだ途上であることを示している。

今後の展望と意義

Ameisen氏は、この研究の将来的な応用の一つとして、モデルの安全性向上を挙げている。例えば、モデルが意図しない振る舞い（reward hackingなど）を示す場合に、その内部メカニズムを調査することで、問題の早期発見や対策に繋がる可能性がある。Anthropicの研究は、LLMというブラックボックスの内部構造と動作原理の理解を目指すものであり、AI技術が社会に広く応用される中で、その信頼性や安全性を確保する上で重要な意味を持つ。Ameisen氏らが示したアプローチは、LLMの「思考」の謎を解き明かすための一つの道筋であり、まだ解明されていない部分は多い。しかし、このような基礎的な研究の積み重ねが、将来のAI技術の発展と、人間とAIのより良い関係構築に貢献することが期待される。