OpenAI’s new LLM exposes the secrets of how AI really works

オープンAI、解釈可能な新AIモデル　幻覚や暴走の原因解明へ

オープンAIが、従来より理解しやすい実験的AIモデルを開発した。各ニューロンの接続を減らす「weight-sparse transformer」で、モデル内部の動作を追跡可能になる。幻覚や暴走の原因解明につながり、AIの安全性向上が期待される。 by Will Douglas Heaven2025.11.14

この記事の3つのポイント

オープンAIIが従来より理解しやすい実験的大規模言語モデル「weight-sparse transformer」を開発
現在のLLMはブラックボックス的存在で幻覚や暴走の原因解明が困難という背景がある
現段階では性能が限定的だが数年内にGPT-3レベルの完全解釈可能モデル実現を目指す

summarized by Claude 3

ChatGPT（チャットGPT）の開発元であるオープンAI（OpenAI）は、従来のモデルよりもはるかに理解しやすい実験的な大規模言語モデル（LLM）を構築した。

これは重要な進展である。なぜなら、現在のLLMはブラックボックスのような存在であり、その仕組みを完全に理解している人は誰もいないからだ。より透明性の高いモデルを構築することで、LLMの一般的な動作原理が明らかになり、研究者たちは、なぜモデルが幻覚を起こすのか、なぜ暴走するのか、そして重要なタスクにどこまで信頼できるのかを理解する手がかりを得ることができる。

「これらのAIシステムがより強力になるにつれて、極めて重要な領域への統合がますます進むでしょう」と、オープンAIの研究科学者レオ・ガオは、この新たな研究の独占プレビューでMITテクノロジーレビューに語った。「だからこそ、それらの安全性を確保することが極めて重要なのです」

これはまだ初期段階の研究である。「weight-sparse transformer（ウェイトスパース・トランスフォーマー）」と呼ばれる新しいモデルは、同社のGPT-5や、アンソロピック（Anthropic）のClaude（クロード）、グーグル・ディープマインド（Google DeepMind）のGemini（ジェミニ）といった最先端の市販モデルと比べてはるかに小規模で能力も劣る。能力としては、オープンAIが2018年に開発したGPT-1と同程度にすぎないと、ガオは述べる（ただし、彼と同僚は直接比較をしていない）。

ただし、目的は最先端モデルと競争することではない（少なくとも現時点では）。オープンAIは、この実験的モデルの仕組みを詳しく調べることで、より大規模かつ高性能なモデル内部に潜むメカニズムの理解につながることを期待している。

これは興味深い研究だと、LLMの動作を研究するボストン大学の数学者で、このプロジェクトには関与していないエリセンダ・グリグスビー教授は述べる。「この研究が導入する手法は、大きな影響を与えると確信しています」。

AIスタートアップ、グッドファイア（Goodfire）の研究科学者であるリー・シャーキーも同意する。「この研究は正しい目標を掲げており、実行もよくできているようです」と彼は述べた。

モデルが理解しづらい理由

オープンAIの研究は、「機械論的解釈可能性（mechanistic interpretability）」として知られる新たに注目されている研究分野の一部である。この分野では、モデルがさまざまなタスクを実行する際に用いる内部メカニズムをマッピングしようとしている。

しかし、それは言うほど簡単ではない。LLMは、ニューロンと呼ばれるノードが層状に配置されたニューラルネットワークで構成されている。多くのネットワークでは、各ニューロンが隣接する層のすべてのニューロンと接続されている。このような構造は「密結合ネットワーク（dense network）」と呼ばれる。

密結合ネットワークは、訓練や実行の面では比較的効率的だが、学習された情報は膨大な接続の網の中に分散される。そのため、単純な概念や機能がモデルのさまざまな部分のニューロンに分散される可能性がある。一方で、1つのニューロンが複数の異なる特徴を表現することもあり、これは「重ね合わせ（superposition）」と呼ばれる現象である（この用語は量子物理学から借用された）。その結果、モデルの特定の部分を特定の概念に対応させることが困難になる。

「ニューラルネットワークは巨大で複雑に絡み合っており、理解するのは非常に困難です」と、オープンAIの機械論的解釈可能性チームを率いるダン・モッシングは語る。「私たちはこう考えました。『では、もしこれを“そうではない状態”にしようとしたらどうなるだろう？』と」

オープンAIは密結合ネットワークを使ってモデルを構築するのではなく、「weight-sparse transformer」と呼ばれるニューラルネットワークの一種を採用した。このネットワークでは、各ニューロンが少数の他のニューロンにしか接続されていない。その結果、モデルは特徴を分散して表現するのではなく、局所的なクラスターとして表現せざるを得なくなる。

このモデルは、現在市場に出回っているLLMに比べてはるかに遅い。しかし、個々のニューロンやそのグループが、どのような概念や機能に対応しているかを特定しやすい。「モデルの解釈可能性という点で、本当に劇的な違いがあります」とガオは語る。

ガオと同僚たちは、非常に単純なタスクでこの新しいモデルをテストした。例えば、引用符で始まるテキストブロックに、対応する閉じ引用符を追加して文章を完成させるといった課題である。

このようなタスクは、LLMにとってはごく簡単なものだ。しかしガオによれば、たとえこのような単純なタスクでも、モデルがそれをどのように実行しているかを理解するには、複雑に絡み合ったニューロンや接続を解きほぐす必要があるという。しかし新しいモデルでは、モデルが実行したステップを正確に追跡することができた。

「私たちは実際に、人手で実装するとしても同じように設計するであろう回路を発見しました。そしてそれは、モデルが完全に自ら学習したものでした」と彼は語る。「これは本当にクールで刺激的なことだと思います」

この研究が今後どこへ向かうのか？グリグスビーは、この手法が、より多様で困難なタスクを処理する必要がある大規模モデルにも拡張できるとは確信していない。

ガオとモッシングも、これまでに構築したモデルには大きな限界があることを認めており、このアプローチがGPT-5のような最先端モデルに匹敵する性能を持つモデルにつながることはないだろうという点で意見が一致している。それでもオープンAIは、技術的改良を重ねれば、同社が2021年に発表した画期的なLLMであるGPT-3と同等の透明性を持つモデルを構築できる可能性があると考えている。

「おそらく数年以内に、完全に解釈可能なGPT-3を手に入れられるかもしれません。そうなれば、モデルのあらゆる部分を細部に至るまで調べ、それがどのようにして各処理を行っているかを理解することができるようになります」とガオは述べる。「そのようなシステムがあれば、私たちは非常に多くのことを学べるでしょう」

人気の記事ランキング

ウィル・ダグラス・ヘブン [Will Douglas Heaven]米国版 AI担当上級編集者: AI担当上級編集者として、新研究や新トレンド、その背後にいる人々を取材。前職では、テクノロジーと政治に関するBBCのWebサイト「フューチャー・ナウ（Future Now）」の創刊編集長、ニュー・サイエンティスト（New Scientist）誌のテクノロジー統括編集長を務めた。インペリアル・カレッジ・ロンドンでコンピューターサイエンスの博士号を取得しており、ロボット制御についての知識を持つ。

オープンAI、解釈可能な新AIモデル 幻覚や暴走の原因解明へ

モデルが理解しづらい理由

オープンAI、解釈可能な新AIモデル　幻覚や暴走の原因解明へ