ブラックボックスの蓋が開く
「異星人」として扱うことで
見えてきたAIの正体
誰も完全には理解していないテクノロジーを、何億人もが日々使っている——。AIのブラックボックス問題に、ついに光が差し始めた。研究者たちが「異星人」として扱うことで解明しつつあるのは、予想を超えて奇妙なAIの内側の世界だ。 by Will Douglas Heaven2026.01.15
- この記事の3つのポイント
-
- アンソロピックらは大規模言語モデルの内部構造を解析する新手法を開発し、モデルの異常な動作メカニズムを発見
- 従来AIはブラックボックスとされてきたが、機械論的解釈可能性や思考連鎖監視により内部動作の一部解明が可能に
- 解釈手法の限界やモデル進化の速さにより完全理解は困難だが、AI安全性向上への重要な手がかりを提供
大規模言語モデルはどれほど大規模なのか?こう考えてみよう。
米サンフランシスコの中心部に「ツインピークス」と呼ばれる丘があり、そこから街のほぼ全体を見渡すことができる。そのすべての景色を想像してみてほしい。見える限りのすべての街区と交差点、あらゆる地区や公園が、紙のシートで覆われている。そしてその紙が数字でびっしり埋め尽くされている様子を思い浮かべてみてほしい。
これは、大規模言語モデル、あるいは少なくとも中規模モデルのスケールを視覚化する1つの方法である。たとえば、オープンAI(OpenAI)が2024年にリリースしたGPT-4oのように2000億個のパラメータを持つモデルを、14ポイントのフォントで印刷すると、約119平方キロメートル分の紙に数字が印刷されることになる。これはサンフランシスコをほぼ覆い尽くす面積に相当する。最大規模のモデルなら、ロサンゼルスの街全体を覆い尽くすほどになるだろう。
私たちは今、非常に巨大かつ複雑な機械と共存している。その正体や仕組み、実際に何ができるのかを完全に理解している人間は誰一人いない。それを構築している側の人々でさえ、理解しきれていない。「人間の脳では完全に理解することは決してできません」と、オープンAIの研究科学者ダン・モッシングは語る。
それこそが問題なのだ。その仕組みを誰も完全には理解しておらず、つまりその限界も正確にはわからないまま、今や何億人もの人がこのテクノロジーを日々使っている。モデルがどのように、あるいはなぜそのような出力をするのかが不明であれば、その「ハルシネーション(幻覚)」を把握したり、有効なガードレール(安全策)を設けたりすることは難しい。いつモデルを信頼すべきで、いつ信頼すべきでないのかを判断するのも困難である。
このテクノロジーを理解しようという動機に突き動かされている多くの研究者たちのように、リスクを人類の存続に関わる問題とみなすにせよ、モデルが誤情報を拡散したり、脆弱な人々を有害な関係へと誘導したりするという身近な危険と捉えるにせよ、大規模言語モデルの仕組みを理解することは、これまで以上に重要になっている。
オープンAIのモッシングをはじめ、アンソロピック(Anthropic)やグーグル・ディープマインド(Google DeepMind)といったライバル企業の研究者たちも、断片的な手がかりをつなぎ合わせてこの難題の解明に取り組み始めている。彼らは、大規模言語モデルを構成する一見無秩序な数値の中にパターンを見いだす、新たな手法の開発を進めている。それはまるで、都市サイズの未知の生物に対して、生物学や神経科学の研究をしているかのようである。
そして研究者たちは、大規模言語モデルが予想以上に奇妙な存在であることを明らかにしつつある。一方で、これらのモデルが得意なことや不得意なこと、そして予想外の異常行動——たとえばあるタスクで不正をしたり、人間にシャットダウンされように回避策を講じたりする際——に内部で何が起きているかについても、かつてないほど明確に理解しつつある。
成長または進化させられる
大規模言語モデルは、「パラメーター」と呼ばれる何十億もの数値で構成されている。これらのパラメーターが都市全体に広がっている様子を思い浮かべれば、そのスケールの大きさは理解できるだろう。しかし、モデルの複雑さに関しては、まだようやく理解が始まったばかりだ。
まず第一に、これらの数値が何をしているのか、あるいはそもそもどうやって生じるのかは、まだはっきりしていない。というのも、大規模言語モデルは「構築される」のではないからだ。アンソロピックの研究科学者ジョシュ・バトソンによれば、大規模言語モデルは「成長」させられるか、あるいは「進化」させられるのだという。
これは非常に的確な比喩である。モデルのパラメーターの大半は、学習アルゴリズムによって訓練中に自動的に決定される値である。そしてこのアルゴリズム自体も、あまりに複雑で追跡不能だ。たとえるなら、それは木を特定の形に育てるようなものだ。ある程度の方向性は与えられるが、枝や葉がどのように成長するかを完全に制御することはできない。
そしてもう一つ、モデルの複雑さを増している要素がある。いったんそれらの値(すなわち構造)が設定されると、パラメーターは実質的に「骨格」に過ぎなくなる。モデルが稼働してタスクを実行する際、これらのパラメーターは、さらに別の数値を計算するために使われる。それが「活性化値(activations)」と呼ばれる数値で、脳内の電気信号や化学信号のように、モデル内を連鎖的に伝播していく。
アンソロピックなどの企業は、活性化値が通過する特定の経路を追跡できるツールを開発した。これは、脳スキャンによって脳内の活動パターンが可視化されるように、モデル内部のメカニズムや経路を明らかにする。こうしたモデル内部の動作を研究する手法は、「機械論的解釈可能性(mechanistic interpretability)」と呼ばれている。「これはまさに、生物学的な分析手法です」とバトソンは語る。「数学や物理学とはまったく異なるのです」。
アンソロピックは、通常の大規模言語モデルよりも構造が透明な「スパース・オートエンコーダー(sparse autoencoder)」という種類のニューラルネットワークを用いて、第2の特殊なモデルを構築することで、モデルの理解を容易にする方法を編み出した。この第2モデルは、研究対象の元モデルの挙動を模倣するように訓練される。つまり、どんなプロンプトに対しても、元モデルとほぼ同じ方法で応答するよう設計されている。
スパース・オートエンコーダーは、一般向けの大規模言語モデルと比べて、訓練や実行にかかる効率が低いため、現実的には元モデルの代替にはなり得ない。しかし、そのタスクの実行過程を観察することで、元モデルが同じタスクをどのように処理しているのかを解明する手がかりが得られる可能性がある。
アンソロピックはスパース・オートエンコーダーを用いて、さまざまな発見を重ねてきた。2024年には、同社のモデル「Claude 3 Sonnet(クロード3ソネット」の中で、ゴールデンゲートブリッジに関連付けられている部分を特定した。その部分の数値を強調すると、Claudeは出力するほぼすべての応答にゴールデンゲートブリッジへの言及を挿入するようになり、さらには自らを「ゴールデンゲートブリッジである」と主張するに至った。
2025年3月には、アンソロピックはスパース・オートエンコーダーを用いることで、特定の概念に関連するモデル内の領域を特定できるだけでなく、モデルがタスクを実行する際に、活性化値がどのように移動するかを追跡できることも示した。
事例研究 #1:一貫性のないClaude
アンソロピックが自社モデルの内部構造を詳しく調査する中で、直感に反するメカニズムが次々と発見され、その奇妙さがますます明らかになっている。表面的には些細に見えるものもあるが、これらの発見は、人々が大規模言語モデルとどう向き合うべきかに深い示唆を与えている。
その良い例が、アンソロピックが7月に報告した「バナナの色」に関する実験である。研究者たちは、Claudeが正しい文と誤った文にどう反応するのかに興味を持った。バナナは黄色かと尋ねれば、Claudeは「はい」と答える。赤いかと尋ねれば、「いいえ」と返す。しかし、それらの異なる応答を生成する際の処理経路を調べたところ、予想とは異なる挙動が見つかった。
そのような質問に対して、Claudeは自身の持つバナナに関する知識と照らし合わせて答えているように思われるかもしれない。だが実際には、正しい主張と誤った主張に対して、異なる仕組みで応答していたようなのだ。アンソロピックは、Cl …
- 人気の記事ランキング
-
- America’s new dietary guidelines ignore decades of scientific research 「ステーキとバターを食べよ」米国の新食事ガイドラインが波紋
- This company is developing gene therapies for muscle growth, erectile dysfunction, and “radical longevity” まず筋肉増強、勃起不全・薄毛も——「長寿」治療謳う企業が試験
- Text-to-image AI models can be tricked into generating disturbing images AIモデル、「脱獄プロンプト」で不適切な画像生成の新手法
- Meet the man hunting the spies in your smartphone 20年間、独裁国家を追った研究者は今、米国を監視している