Neel Nanda ニール・ナンダ (26)

所属: グーグル・ディープマインド

AIモデルを開き、なぜそのような発言をするのかを理解する。

AIモデルは誰も完全に理解していない理由で決定を下す。その結果、AIモデルはデータを入れると、生成されたテキスト、画像、動画などが出てくる「ブラックボックス」だとしばしば考えられている。

だが、モデルがなぜ、そして何をするのかを理解できなければ、悪い情報や役に立たない情報を生成する時にそれを修正することは困難だ。26歳のニール・ナンダが取り組む研究の肝はまさにこの点にある。「私の仕事は、人間レベルのAIを作る時までに、それが安全で世界のためになるような研究をすることです」。ナンダはグーグル・ディープマインド（Google DeepMind）で、「機械論的解釈可能性（Mechanistic Interpretability）」、しばしば「メック・インタープ（mech interp）」と呼ばれるテーマに取り組むチームを率いている。これはAI安全性の下位分野の1つで、数学的手法で使用してAIモデルが内部で何をしているかをより理解しようという研究である。

一般的なアプローチは、AIモデルを計算層に分割し、疎オートエンコーダーと呼ばれるツールを使用して、モデルが各層内で暗黙的に学習している特性と概念を引き出すことだ。昨年、ナンダと他のグーグル・ディープマインドの研究者らは、400を超える疎オートエンコーダーのコレクションである「Gemma Scope（ジェマ・スコープ）」を発表した。それぞれが、Gemma（ジェマ）がテキストの断片で解釈する異なる概念を表現するために、グーグルのGemma 2モデルで訓練されている。公開されているコレクションは、オンラインでデモが可能だ。研究者はGemmaモデルの動作へのX線のような視点を得ることができ、モデルが完全に自律的に構築した関連性を明らかにすることが可能になる。

ナンダがAI分野に入った理由は、汎用人工知能（AGI）が急速に到達する可能性についての懸念が高まったためだった。彼はそれが適切な安全化方法の理解なしには重大なリスクをもたらす可能性があると考えている。AGIを構築する前にそれを理解することを確実にするために、より多くの人々がこの分野に関与することが重要だと信じているのだ。この目的のために、ナンダは機械論的解釈可能性に関する解説を書き、ユーチューブで解説動画を公開し、独立系のMLアラインメント・理論研究者プログラムでメンターとして働いている。

ナンダは、このアウトリーチが機械論的解釈可能性を分野として普及させるのに役立ったと考えている。「教授たちがX上で、あまりにも多くの博士課程志願者が機械論的解釈可能性をやりたがっているとの不満を述べているのを見かけました。自分が貢献したと思いたいですね」。

人気の記事ランキング

タグ	Innovators Under 35 Innovators Under 35 2025
著者	ピーター・ホール [Peter Hall]