This startup’s new mechanistic interpretability tool lets you debug LLMs

LLMをデバッグできる？機械論的解釈可能性ツールが登場

大規模言語モデルは驚くべきことを成し遂げるが、なぜそう動くのかは誰も正確には分からない。その「ブラックボックス」に挑むスタートアップ、グッドファイアが新ツールをリリースした。AIモデルの内部を可視化し、訓練中にパラメーターを調整できる初のツールだという。 by Will Douglas Heaven2026.05.12

この記事の3つのポイント

グッドファイアがAIモデルの内部構造を可視化・調整できるツール「Silico」をリリースした
機械論的解釈可能性技術でニューロン経路をマッピングし、訓練中のパラメーター調整を可能にする
専門チーム不要で中小企業にも解釈可能性技術を開放する一方、「錬金術の精度向上にすぎない」との批判もある

summarized by Claude 3

サンフランシスコを拠点とするスタートアップ、グッドファイア（Goodfire）は、「Silico（シリコ）」と呼ばれる新しいツールをリリースした。このツールは、研究者やエンジニアが人工知能（AI）モデルの内部を覗き込み、モデルの動作を決定する設定であるパラメーターを訓練中に調整できるようにするものだ。これにより、モデル開発者はこれまで以上に、AIモデルの構築方法をきめ細かく制御できるようになる可能性がある。

グッドファイアは、Silicoがデータセットの構築からモデルの訓練まで、開発プロセスのあらゆる段階のデバッグを支援できる類のツールとしては初めての製品であると主張している。

同社は、AIモデルの構築を錬金術ではなく科学に近づけることを使命としていると述べている。確かに、ChatGPT（チャットGPT）やGemini（ジェミニ）のような大規模言語モデル（LLM）は驚くべきことを成し遂げられる。しかし、それらがどのように、またなぜ機能するのかを正確に理解している人はおらず、そのことが欠陥の修正や望ましくない動作のブロックを難しくする場合がある。

「モデルへの理解度と、モデルが実際に展開されている広さとの間に、拡大するギャップを感じていました」と、グッドファイアのエリック・ホーCEO（最高経営責任者）は、Silicoのリリースに先立つ独占インタビューでMITテクノロジーレビューに語った。「今日の主要な先進的ラボのすべてにおいて支配的な考え方は、スケール、計算資源、データをさらに増やせばAGI（汎用人工知能）が得られ、それ以外は何も重要ではないというものだと思います。しかし私たちは、もっと良い方法があると言っています」。

グッドファイアは、アンソロピック（Anthropic）、オープンAI（OpenAI）、グーグル・ディープマインド（Google DeepMind）といった業界リーダーを含む、機械論的解釈可能性（mechanistic interpretability）として知られる技術で先駆けている数少ない企業の一つである。この技術は、AIモデルがタスクを実行する際にニューロンとその間の経路をマッピングすることで、モデルの内部で何が起きているかを理解することを目指している（MITテクノロジーレビューは、機械論的解釈可能性を2026年の10大ブレークスルー・テクノロジーの一つに選出した）。

グッドファイアは、このアプローチをモデルの監査、すなわち、すでに訓練されたモデルの研究だけでなく、そもそもモデルを設計する段階でも活用したいと考えている。

「試行錯誤をなくし、モデルの訓練を精密工学に変えたいのです」とホーCEOは言う。「そのためには、訓練のプロセス中に実際に使用できるよう、調整用のつまみやダイヤルを公開する必要があります」。

グッドファイアはすでに自社の技術とツールを使ってLLMの動作を調整してきた。例えば、ハルシネーション（幻覚）の発生件数を減らすといった取り組みだ。同社はそうした社内技術の多くをパッケージ化した製品としてSilicoを販売している。

このツールは、複雑な作業の多くを自動化するためにエージェントを活用している。「エージェントは今や、かつて人間がしていた解釈可能性に関する作業の多くをこなせるほど強力になっています」とホーCEOは言う。「顧客が自ら使える実用的なプラットフォームにするためのギャップを埋めたのです」。

機械論的解釈可能性の研究に携わってきたアムステルダム大学の研究者、レオナルド・ベレスカは、Silicoが有用なツールに見えると考えている。しかし、グッドファイアのより大きな野望には異議を唱える。「実際には、彼らは錬金術に精度を加えているにすぎません。それをエンジニアリングと呼ぶことで、実態よりも原理的に聞こえてしまいます」。

モデルをマッピング

Silicoを使うと、個々のニューロンやニューロンのグループなど、訓練済みモデルの特定の部分にズームインし、それらのニューロンが何をするかを確認する実験ができる（モデルの内部動作へのアクセス権がある場合に限る。ほとんどの人はSilicoを使ってChatGPTやGeminiの内部を調べることはできないが、多くのオープンソースモデルのパラメーターを調べることは可能だ）。さらに、どのような入力が異なるニューロンを発火させるかを確認し、あるニューロンの上流・下流の経路を追跡して、他のニューロンがそのニューロンにどう影響し、そのニューロンが他のニューロンにどう影響するかを確認できる。

例えば、グッドファイアはオープンソースモデルのQwen 3（クウェン 3）の内部に、いわゆるトロッコ問題に関連するニューロンを一つ発見した。このニューロンを活性化させると、モデルの応答が変化し、出力を明示的な道徳的ジレンマとして組み立てるようになった。「このニューロンが活性化すると、あらゆる奇妙なことが起きます」とホーCEOは言う。

このような奇妙な動作の原因を特定することは、今や標準的な手法となっている。しかしグッドファイアは、その動作を調整しやすくしたいと考えている。Silicoを使うことで、開発者は個々のニューロンに接続されたパラメーターを調整し、特定の動作を強化または抑制できるようになった。

別の例として、グッドファイアの研究者たちは、あるモデルに対して、自社のAIが2億人のユーザーに影響を与えるケースの0.3%で欺瞞的な動作をすることを企業が開示すべきかどうかを尋ねた。モデルは、そのような開示がビジネスに与える悪影響を理由に、開示すべきでないと答えた。

だが、そのモデルの内部を調べた結果、透明性と開示に関連するニューロンを強化することで、10回中9回、答えが「開示すべきではない」から「開示すべきだ」に変わることが研究者たちによって明らかになった。「モデルはすでに倫理的推論の回路を持っていましたが、商業的リスク評価が上回っていたのです」とホーCEOは言う。

このようにモデルのパラメーター値を調整することは、あくまで一つのアプローチにすぎない。Silicoはまた、特定の訓練データをフィルタリングすることで、そもそも特定のパラメーターに望ましくない値が設定されないようにし、訓練のプロセスを誘導する支援もできる。

例えば、多くのモデルは9.11は9.9より大きいと答える。モデルの内部を調べると、聖書の影響を受けていることが明らかになる場合がある。聖書では9章9節の後に9章11節が来るからだ。あるいは、9.9、9.10、9.11と連番で更新番号が付けられるコードリポジトリの影響を受けている場合もある。この情報を使って、数学の計算時に「聖書」ニューロンを回避するようモデルを再訓練できる。

Silicoをリリースすることで、グッドファイアは、これまで一部のトップラボのみが利用できた技術を、独自モデルの構築やオープンソースモデルの改良を望む中小企業や研究チームの手に届けたいと考えている。このツールは、顧客の要件に応じて個別に決められる料金で利用可能となる（グッドファイアは具体的な価格の詳細を明かすことを断った）。

「モデルの訓練をソフトウェアの構築にもっと近づけられれば、自社のニーズに合ったモデルを設計する企業がもっと多くなるはずです」とホーCEOは言う。

ベレスカも、Silicoのようなツールが、より信頼性の高いモデルを企業が構築するのに役立つ可能性があることに同意している。こうした技術は、医療や金融における安全性が重要なアプリケーションに不可欠となりうると彼は言う。

「先進的なラボはすでに社内に解釈可能性チームを持っています。Silicoは次の層の企業に武器を与えます。そのメリットは、解釈可能性の研究者を雇う必要がなくなる点にあります」。

人気の記事ランキング

ウィル・ダグラス・ヘブン [Will Douglas Heaven]米国版 AI担当上級編集者: AI担当上級編集者として、新研究や新トレンド、その背後にいる人々を取材。前職では、テクノロジーと政治に関するBBCのWebサイト「フューチャー・ナウ（Future Now）」の創刊編集長、ニュー・サイエンティスト（New Scientist）誌のテクノロジー統括編集長を務めた。インペリアル・カレッジ・ロンドンでコンピューターサイエンスの博士号を取得しており、ロボット制御についての知識を持つ。

LLMをデバッグできる？ 機械論的解釈可能性ツールが登場

モデルをマッピング

LLMをデバッグできる？機械論的解釈可能性ツールが登場