KADOKAWA Technology Review
×
メタ、画像・音声・テキストを認識できるAIアルゴリズムを開発
Ms Tech | Getty
Meta's new learning algorithm can teach AI to multi-task

メタ、画像・音声・テキストを認識できるAIアルゴリズムを開発

メタ(旧フェイスブック)のAIチームが、音声、画像、テキストといった複数のスキルを学習できる単一のアルゴリズムを開発した。現時点では一度に1つのスキルしか学習できないが、今後期待される汎用AIへの第一歩となるか。 by Will Douglas Heaven2022.01.25

犬を見てそれが「犬」であると認識できるなら人なら、言葉で説明されてもそれが犬のことだと分かるだろう。しかし現在の人工知能(AI)はそうではない。深層ニューラルネットワークは、写真の中の物体を識別することも自然言語で会話することも非常に得意だが、複数のことを同時にはできない。どちらか一方に優れた人工知能(AI)モデルはあっても、両方に優れたAIモデルはまだ存在しないのだ。

この課題の一つの要因は、こうしたAIモデルが一つ一つのスキルをそれぞれ異なる手法で学ぶことにある。このことは、より汎用的なAI、つまりマルチタスクに適応できる機械を開発する上で大きな障害となっている。また、ある特定のスキルに対する深層学習の進歩が、他のスキルに転移しないことも多い。

メタAI(Meta AI:旧「フェイスブックAIリサーチ」)のチームは、こうした状況を変えたいと考えている。同研究所の研究員らは、画像、テキスト、音声を認識するニューラル・ネットワークの学習に使用できる単一のアルゴリズムを開発した。「Data2vec(データトゥベク)」と名付けられたこのアルゴリズムは、学習プロセスを統一しているだけでなく、3つのスキルにおいて既存の技術と同等以上の性能を発揮するものだ。メタAIのマイケル・アウリィ研究員は、「このような種類のタスクに対する人々の考え方が変わることを期待しています」と言う。

Data2vecは、ニューラル・ネットワークがラベルありの例に頼らず、AI自身でデータセットのパターンを見つけることを学習する「自己教師あり学習(Self-supervised learning) 」と呼ぶアプローチを採用している。これはGPT-3のような大規模な言語モデルが、インターネットから収集した膨大なラベルのないテキストから学習する方法であり、近年の深層学習の進歩の原動力となっている。

アウリィ研究員らは以前、音声認識のための自己教師あり学習に取り組んでいた。しかし彼らは、他の研究者がどのように画像やテキストの「自己教師あり学習」に挑んでいるのかを調査した際、同じ目的のために異なる技術を使用していることに気づいた。

Data2vecでは、生徒と教師の2つのニューラル・ネットワークを採用している。まず、教師のニューラル・ネットワークは通常の方法で画像やテキスト、音声を学習し、データの内部表現を学習する。これにより、新しい例を見せられたときに何を見ているかを予測できるようにする。例えば、犬の写真を見せられると、それを犬であると認識する。

ここで工夫されている点は、生徒のニューラル・ネットワークは、教師の内部表現を予測するように訓練されているという点だ。つまり、単に犬を見せられて「犬の写真を見ている」と推測するのではなく、その画像を見せられた教師が、何を見ているのかを推測するように訓練されているのである。

生徒は実際の画像や文章を推測するのではなく、教師が内部で表現した画像や文章を推測する。そのため、このアルゴリズムは特定のタイプの入力に合わせる必要はない。

Data2vecは、複数の方法を用いて世界を理解できる学習モデルを目指す、AIの大きなトレンドの一部だ。シアトルにあるアレン人工知能研究所(AI2)でコンピュータービジョンと自然言語について研究しているアニィ・ケンハビィは、Data2vecについて「巧妙なアイデア」だとした上で、「学習のための汎用化されたシステムにおける、有望な進歩だと言えます」と付け加えた。

ただ、注意点がある。同じ学習アルゴリズムを異なるスキルに使用できると言っても、一度に1つのスキルしか学習できない。つまり、画像を認識できるようになったら、今度は音声を認識できるように最初から学習しなければならない。難しいことだが、メタAIの研究チームは今後、一度に複数のスキルをAIに与える方法を検討したい考えだ。

研究者たちは、この研究アプローチが、画像や音声の認識において既存の技術よりも優れた性能を発揮し、テキスト理解においては主要な言語モデルと同等の性能を発揮したことに驚いた。

マーク・ザッカーバーグは、すでにメタバースのアプリケーションの今後の可能性について夢に描いており、「これはすべて、最終的にはAIアシスタント付きのARグラスに組み込まれるようになるでしょう」とフェイスブックに投稿した。「例えばあなたが夕食を作るときに、AIが材料が足りないと教えてくれたり、火を弱めるように促したり、あるいはもっと複雑な作業をサポートしてくれるかもしれません」。

アウリィ研究員は、これまでに学んだ重要な教訓は、研究者らは自身の研究分野から飛び出すべきだということだ、とした上で、「一つのことだけに集中しなくてもいいんじゃないでしょうか」と述べた。さらに「良いアイデアがあれば、実際にそれが広く役に立つかもしれません」と続けた。

人気の記事ランキング
  1. China’s heat wave is creating havoc for electric vehicle drivers 中国猛暑でEVオーナーが悲鳴、電力不足でスタンドに長蛇の列
  2. How do strong muscles keep your brain healthy? 高齢者に運動なぜ必要? 筋肉が脳を健康に保つ仕組み
  3. Decarbonization is Japan’s last chance to raise its power 大場紀章「脱炭素化は日本の力を底上げする最後のチャンス」
  4. Russia’s battle to convince people to join its war is being waged on Telegram ロシア内戦の舞台は「テレグラム」、親プーチン派と反戦派が激突
  5. Kyoto University startup pioneers the era of fusion power generation 京大スタートアップが拓く、核融合発電の時代
ウィル・ダグラス・ヘブン [Will Douglas Heaven]米国版 AI担当上級編集者
AI担当上級編集者として、新研究や新トレンド、その背後にいる人々を取材しています。前職では、テクノロジーと政治に関するBBCのWebサイト「フューチャー・ナウ(Future Now)」の創刊編集長、ニュー・サイエンティスト(New Scientist)誌のテクノロジー統括編集長を務めていました。インペリアル・カレッジ・ロンドンでコンピュータサイエンスの博士号を取得しており、ロボット制御についての知識があります。
日本発「世界を変える」35歳未満のイノベーター

MITテクノロジーレビューが20年以上にわたって開催しているグローバル・アワード「Innovators Under 35 」。世界的な課題解決に取り組み、向こう数十年間の未来を形作る若きイノベーターの発掘を目的とするアワードの日本版の最新情報を発信する。

記事一覧を見る
人気の記事ランキング
  1. China’s heat wave is creating havoc for electric vehicle drivers 中国猛暑でEVオーナーが悲鳴、電力不足でスタンドに長蛇の列
  2. How do strong muscles keep your brain healthy? 高齢者に運動なぜ必要? 筋肉が脳を健康に保つ仕組み
  3. Decarbonization is Japan’s last chance to raise its power 大場紀章「脱炭素化は日本の力を底上げする最後のチャンス」
  4. Russia’s battle to convince people to join its war is being waged on Telegram ロシア内戦の舞台は「テレグラム」、親プーチン派と反戦派が激突
  5. Kyoto University startup pioneers the era of fusion power generation 京大スタートアップが拓く、核融合発電の時代
MITテクノロジーレビュー[日本版] Vol.8
MITテクノロジーレビュー[日本版] Vol.8脱炭素イノベーション

2050年のカーボンニュートラル(炭素中立)の実現に向けて、世界各国で研究開発が加速する脱炭素技術、社会実装が進む気候変動の緩和・適応策などGX(グリーン・トランスフォーメーション)の最新動向を丸ごと1冊取り上げる。

詳細を見る
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る