現代の人工知能(AI)革命は、ある無名の研究コンテストから始まった。それは年に一度の「イメージネット(ImageNet)・チャレンジ」というコンテストの3年目となる、2012年のことだった。このコンテストで参加チームは、動物や風景から人間まで1000個の対象物を認識する、コンピューター・ビジョンシステムの構築に挑戦する。
コンテストの最初の2年間は、最優秀チームでも正確度は75%にも達しなかった。しかし、3年目には1人の教授とその生徒2人の3人グループが、突然この限界を打ち破った。2位以下に10ポイント以上の驚異的な差をつけてコンテストを制したのだ。その教授こそがジェフリー・ヒントン(トロント大学)であり、このとき使われた手法が深層学習(deep learning)と呼ばれるものだった。
ヒントン教授は1980年代から深層学習に取り組んでいたが、当時はデータと計算能力が不足していたために実用的ではなかった。深層学習に対するヒントン教授の揺るがぬ信念は、最終的に大きく実を結んだ。4年目となる翌年のイメージネット・チャレンジではほぼすべてのチームが深層学習を使用し、奇跡的な進歩を遂げたのだ。ほどなくして深層学習は、画像認識を超えた幅広い産業で応用されるようになった。
ヒントン教授は2019年、AIへの基礎的な貢献を果たしたとして、ヤン・ルカン、ヨシュア・ベンジオと共にチューリング賞を受賞している。
深層学習分野の状況や、AIは次にどこに向かうべきかなのか、ヒントン教授に話を聞いた。なお、インタビューは内容を明確にするため、編集・要約されている。
◆◆◆
——あなたは、深層学習さえあれば人間の知能のすべてを再現できると考えていますよね。どうしてそこまで確信しているのですか?
確かに深層学習はどんなことでもできるようになると信じていますが、一方でかなり多くの数の概念的なブレイクスルーが必要となると思います。例えば、2017年にアシシュ・バスワニの研究チームが「トランスフォーマー(transformer)」を発表しました。トランスフォーマーは、単語の意味を表す非常に優れたベクトルを導き出すもので、これは概念的なブレイクスルーだったと言えます。今では、ほとんどあらゆる最も優れた自然言語処理において使用されています。そのようなブレイクスルーがさらに多く必要になるでしょう。
——そのようなブレイクスルーがあれば、深層学習を通して人間の知能のすべてに近づくことができのですか。
そうですね。特に推論のように、物事を実行する神経活動の大きなベクトルを得る方法に関わるブレイクスルーです。しかし、規模を大幅に拡大する必要もあります。人間の脳には約100兆個のパラメーター、つまりシナプスがあります。現在、GPT-3のように大きな文章生成言語モデルでも1750億個なので、脳より1000分の1小さい。GPT-3は今ではかなりもっともらしい文章を生成していますが、それでも脳と比べればまだまだ小さなものなのです。
——規模というのは、ニューラルネットワークの規模を大きくするということですか、それともデータを増やすということですか、あるいはその両方をさすのでしょうか。
両方です。コンピューター・サイエンスで起こることと人間に起こることとの間には、ある種の矛盾があります。人間は得られるデータ量に比べて、膨大な量のパラメーターを有しています。ニューラルネットワークは、膨大なパラメーターを使って少量のデータを扱うのはとても得意ですが、人間はさらに優れています。
——この分野には、取り組むべき次の大きな能力は常識的な判断(common sense)であると考えている人がたくさんいますが、あなたも同意見なのでしょうか。
非常に重要なものの1つであることには同意します。また、運動制御も非常に重要でしょう。現在、深層ニューラル・ネットワークは運動制御を得意とするようになっています。特に、最近グーグルが実施している研究では、優れた運動制御と言語を組み合わせて、ロボットが引き出しを開けてブロックを取り出し、その様子をシステムが自然言語で説明できます。
このすばらしい文章を生成するGPT-3のような文章生成言語モデルは、文章を生成するためにかなりのことを理解する必要がありますが、どの程度のことを理解しているのかははっきり分かりません。ただ、何かが引き出しを開けてブロックを取り出し、「今引き出しを開けてブロックを取り出しました」と話すとき、その行動が何を意味しているのかを理解していないとは言い切れないでしょう。
——AI分野は常に、着想の最大の源として人間の脳に目を向けてきました。また、AIへの異なるアプローチは、認知科学におけるさまざまな理論から生まれてきました。あなたは、脳が実際に外部の世界を理解するために、その表象を構築していると考えていますか。あるいは、それは単に便利な考え方なのでしょうか。
認知科学では以前、2つの学派の間で論争がありました。1つはスティーブン・コスリンが率いる学派で、視覚映像を頭の中で操作する時にあるのはピクセルの配列であり、それを操作しているとコスリンは考えていました。もう1つの学派は、「コスリンの考え方はナンセンスであり、実際には階層的で構造的な記述になっています。頭の中には記号構造があり、それを操作しているのです」と、従来のAIの考え方と一致するものでした。
両者は同じ勘違いしていたのではないかと思っています。コスリンは、外界の映像がピクセルでできており、それが一般に理解されている表現であるために、ピクセルを操作していると考えました。一方で記号の立場を取る人々は、物事は記号を使っても表現され、それが一般に理解されている表現であるために、記号を操作するのだと考えました。これも同様に間違いだと思います。脳の中にあるのは、神経活動の大きなベクトルなのです。
——今でも、記号処理がAIにとってのアプローチの1つだと信じている人もいます。
そうですね。私の身近にも、記号的なアプローチを信じてすばらしい仕事をしてきた、ヘクター・レベスク(トロント大学教授)のような友人もいます。彼の考えに同意はしませんが、記号的なアプローチを試みることは、完全に合理的なことです。ただし、私の推測では、記号は最終的には単に外部の世界に存在しており、脳の内部処理は大きなベクトルによって行なわれていることに気づくのではないかと思います。
——AIの未来について、他人と反対の見解を示していることについてどう思っていますか。
問題は、私が人と反対の見解を示しても、5年後には私の考えの方が主流になっていることです。1980年代から私が示した反対意見のほとんどが、今ではほぼ一般的に受け入れられ、異なる意見を持つ人はほとんどいません。そう、私は反対の意見を覆してきたのです。
- 人気の記事ランキング
-
- A tiny new open-source AI model performs as well as powerful big ones 720億パラメーターでも「GPT-4o超え」、Ai2のオープンモデル
- The coolest thing about smart glasses is not the AR. It’s the AI. ようやく物になったスマートグラス、真価はARではなくAIにある
- Geoffrey Hinton, AI pioneer and figurehead of doomerism, wins Nobel Prize in Physics ジェフリー・ヒントン、 ノーベル物理学賞を受賞
- Why OpenAI’s new model is such a big deal GPT-4oを圧倒、オープンAI新モデル「o1」に注目すべき理由
- カーレン・ハオ [Karen Hao]米国版 AI担当記者
- MITテクノロジーレビューの人工知能(AI)担当記者。特に、AIの倫理と社会的影響、社会貢献活動への応用といった領域についてカバーしています。AIに関する最新のニュースと研究内容を厳選して紹介する米国版ニュースレター「アルゴリズム(Algorithm)」の執筆も担当。グーグルX(Google X)からスピンアウトしたスタートアップ企業でのアプリケーション・エンジニア、クオーツ(Quartz)での記者/データ・サイエンティストの経験を経て、MITテクノロジーレビューに入社しました。