AIモデルは誰も完全に理解していない理由で決定を下す。その結果、AIモデルはデータを入れると、生成されたテキスト、画像、動画などが出てくる「ブラックボックス」だとしばしば考えられている。
だが、モデルがなぜ、そして何をするのかを理解できなければ、悪い情報や役に立たない情報を生成する時にそれを修正することは困難だ。26歳のニール・ナンダが取り組む研究の肝はまさにこの点にある。「私の仕事は、人間レベルのAIを作る時までに、それが安全で世界のためになるような研究をすることです」。ナンダはグーグル・ディープマインド(Google DeepMind)で、「機械論的解釈可能性(Mechanistic Interpretability)」、しばしば「メック・インタープ(mech interp)」と呼ばれるテーマに取り組むチームを率いている。これはAI安全性の下位分野の1つで、数学的手法で使用してAIモデルが内部で何をしているかをより理解しようという研究である。
一般的なアプローチは、AIモデルを計算層に分割し、疎オートエンコーダーと呼ばれるツールを使用して、モデルが各層内で暗黙的に学習している特性と概念を引き出すことだ。昨年、ナンダと他のグーグル・ディープマインドの研究者らは、400を超える疎オートエンコーダーのコレクションである「Gemma Scope(ジェマ・スコープ)」を発表した。それぞれが、Gemma(ジェマ)がテキストの断片で解釈する異なる概念を表現するために、グーグルのGemma 2モデルで訓練されている。公開されているコレクションは、オンラインでデモが可能だ。研究者はGemmaモデルの動作へのX線のような視点を得ることができ、モデルが完全に自律的に構築した関連性を明らかにすることが可能になる。
ナンダがAI分野に入った理由は、汎用人工知能(AGI)が急速に到達する可能性についての懸念が高まったためだった。彼はそれが適切な安全化方法の理解なしには重大なリスクをもたらす可能性があると考えている。AGIを構築する前にそれを理解することを確実にするために、より多くの人々がこの分野に関与することが重要だと信じているのだ。この目的のために、ナンダは機械論的解釈可能性に関する解説を書き、ユーチューブで解説動画を公開し、独立系のMLアラインメント・理論研究者プログラムでメンターとして働いている。
ナンダは、このアウトリーチが機械論的解釈可能性を分野として普及させるのに役立ったと考えている。「教授たちがX上で、あまりにも多くの博士課程志願者が機械論的解釈可能性をやりたがっているとの不満を述べているのを見かけました。自分が貢献したと思いたいですね」。
- 人気の記事ランキング
-
- It’s time to address the looming crisis in entry-level work. 「コーディングを学べ」もう通用せず、AIが若者の雇用を奪い始めた
- Promotion Call for entries for Innovators Under 35 Japan 2026 「Innovators Under 35 Japan」2026年度候補者募集のお知らせ
- Anthropic’s Code with Claude showed off coding’s future—whether you like it or not 「Claudeに任せてしまおう」 たった1年で激変したソフトウェア開発
- A reality check on the AI jobs hysteria 「ホワイトカラー消滅」 まだデータに兆候なし ——ただし若者に警戒信号
- Inside the stealthy startup that pitched brainless human clones 「臓器袋」から全身置換へ ステルス企業R3が隠す 「脳なし」クローン計画
