KADOKAWA Technology Review
×
Innovators Under 35 Japan 2026 候補者募集開始!
AIの「頭の中」で何が起きているのか? ディープマインドが新ツール
Photo Illustration by Sarah Rogers/MITTR | Photos Getty
人工知能(AI) Insider Online限定
Google DeepMind has a new way to look inside an AI’s “mind”

AIの「頭の中」で何が起きているのか? ディープマインドが新ツール

AIの問題点の一つに、もっともらしい出力がどのようにして生成されるのか、よくわかっていないことがある。グーグル・ディープマインドの新しいツールを使えば、ブラックボックスの中を覗いて、理解や制御が可能なAIを構築するのに役立つかもしれない。 by Scott J Mulligan2024.11.19

この記事の3つのポイント
  1. AIの内部動作の理解を目指す機械論的解釈可能性の研究が進展している
  2. ディープマインドはAIモデル内部を調査できるツールをリリースした
  3. 機械論的解釈可能性はAIのバイアスや誤りの原因解明に役立つ可能性がある
summarized by Claude 3

人工知能(AI)は、創薬やロボット工学の分野にブレークスルーをもたらし、人間が機械やWebとやり取りする方法を根底から変えようとしている。唯一の問題は、AIがどのような仕組みで動いているのか、なぜこれほど効果的に機能するのか、正確に分かっていないことだ。それなりの見当はつけられているものの、複雑すぎてすみずみまで解明できずにいる。これは一大事だ。重大な欠陥が潜んでいる可能性を見落としたまま、医療などのきわめてセンシティブな分野にAIシステムを導入してしまう可能性があるからだ。

「機械論的解釈可能性(mechanistic interpretability)」について研究しているグーグル・ディープマインド(Google DeepMind)のチームは、AIの仕組みを解明する新たな方法を模索してきた。7月末には、AIが出力を生成する際に何が起きているのか、研究者の理解を助けるツール「ジェマ・スコープ(Gemma Scope)」をリリースした。AIモデル内部の事象の理解を深められれば、その出力を適切に制御できるようになり、将来的にはAIシステムの大きな改善につながると期待されている。

「モデルの内部を覗き込み、詐欺的な振る舞いをしていないか、確認できるようにしたいのです」。グーグル・ディープマインドで機械論的解釈可能性チームを率いるニール・ナンダは言う。「モデルの思考を読み取ることができれば、役に立つはずです」。

機械論的解釈可能性は「メック・インタープ(mech interp)」とも呼ばれ、ニューラル・ネットワークの実際の仕組みを理解することを目指す新しい研究分野だ。非常に大雑把に言えば、現時点では、大量のデータという形で入力をモデルに与え、訓練の終了時にモデルの重みの集合を取得する。モデルの重みとは、モデルがどのように判断するかを決めるパラメーターだ。入力からモデルの重み付けの間で何が起きているのかについては、ある程度の理解はある。 基本的にAIはデータの中からパターンを見つけ、そのパターンに基づいて結論を導き出す。だが、このパターンというのがきわめて複雑で、人間が解釈するには難しいことが多い。

教師が複雑な数学のテスト問題の回答を採点するところを想像してほしい。生徒(この場合はAI)は正しい答えを書いているが、その過程はくねくねとした線の集まりにしか見えないのだ。この例では、AIが常に正解を出すものと仮定しているが、現実は必ずしもそうではない。AIの生徒は、無関係なパターンを正解だと思い込んだだけかもしれない。たとえば、現在でもAIシステムは、9.11は9.8より大きいという結果を返してくることがある。機械論的解釈可能性の分野で開発されたさまざまな方法により、内部の動きが少しずつ分かってきて、そのくねくねとした線の集まりの意味の理解が始まっているのだ。

ナンダは、「機械論的解釈可能性の最重要目標は、これらのシステム内のアルゴリズムをリバースエンジニアリングすることです」と説明した。「たとえば『詩を書いて』とプロンプトを投げると、モデルは韻を踏んだ文章を返してきます。どのようなアルゴリズムで詩が出てきたのでしょうか。私たちはそれをぜひ理解したいと思っています」。

ディープマインドは、自社のAIモデルである「ジェマ(Gemma)」の特徴量、つまりデータの大きな概念を表すカテゴリーを見つけるため、「スパース・オートエンコーダー(sparse autoencoder)」と呼ばれるツールをモデルの各層で実行した。スパース・オートエンコーダーは、これらの層を拡大して細部を観察できる顕微鏡のようなものだ。たとえば、ジェマにチワワについて尋ねると、「犬」という特徴量が反応し、モデルが「犬」について知っている情報が活性化される。「スパース(希薄、まばら)」とされる理由は、使用するニューロンの数を制限し、より効率的で一般的なデータ表 …

こちらは有料会員限定の記事です。
有料会員になると制限なしにご利用いただけます。
有料会員にはメリットがいっぱい!
  1. 毎月120本以上更新されるオリジナル記事で、人工知能から遺伝子療法まで、先端テクノロジーの最新動向がわかる。
  2. オリジナル記事をテーマ別に再構成したPDFファイル「eムック」を毎月配信。
    重要テーマが押さえられる。
  3. 各分野のキーパーソンを招いたトークイベント、関連セミナーに優待価格でご招待。
人気の記事ランキング
  1. Anthropic’s Code with Claude showed off coding’s future—whether you like it or not 「Claudeに任せてしまおう」 たった1年で激変したソフトウェア開発
  2. Promotion Call for entries for Innovators Under 35 Japan 2026 「Innovators Under 35 Japan」2026年度候補者募集のお知らせ
  3. It’s time to address the looming crisis in entry-level work. 「コーディングを学べ」もう通用せず、AIが若者の雇用を奪い始めた
MITテクノロジーレビューが選んだ、AIの10大潮流 [2026年版]

AIをめぐる喧騒の中で、本当に目を向けるべきものは何か。この問いに対する答えとして、MITテクノロジーレビューはAIの重要なアイデア、潮流、新たな進展を整理したリストを発表する。

特集ページへ
MITテクノロジーレビューが選んだ、 世界を変える10大技術

MITテクノロジーレビューの記者と編集者は、未来を形作るエマージング・テクノロジーについて常に議論している。年に一度、私たちは現状を確認し、その見通しを読者に共有する。以下に挙げるのは、良くも悪くも今後数年間で進歩を促し、あるいは大きな変化を引き起こすと本誌が考えるテクノロジーである。

特集ページへ
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る