KADOKAWA Technology Review
×
メタ、画像・音声・テキストを認識できるAIアルゴリズムを開発
Ms Tech | Getty
Meta's new learning algorithm can teach AI to multi-task

メタ、画像・音声・テキストを認識できるAIアルゴリズムを開発

メタ(旧フェイスブック)のAIチームが、音声、画像、テキストといった複数のスキルを学習できる単一のアルゴリズムを開発した。現時点では一度に1つのスキルしか学習できないが、今後期待される汎用AIへの第一歩となるか。 by Will Douglas Heaven2022.01.25

犬を見てそれが「犬」であると認識できるなら人なら、言葉で説明されてもそれが犬のことだと分かるだろう。しかし現在の人工知能(AI)はそうではない。深層ニューラルネットワークは、写真の中の物体を識別することも自然言語で会話することも非常に得意だが、複数のことを同時にはできない。どちらか一方に優れた人工知能(AI)モデルはあっても、両方に優れたAIモデルはまだ存在しないのだ。

この課題の一つの要因は、こうしたAIモデルが一つ一つのスキルをそれぞれ異なる手法で学ぶことにある。このことは、より汎用的なAI、つまりマルチタスクに適応できる機械を開発する上で大きな障害となっている。また、ある特定のスキルに対する深層学習の進歩が、他のスキルに転移しないことも多い。

メタAI(Meta AI:旧「フェイスブックAIリサーチ」)のチームは、こうした状況を変えたいと考えている。同研究所の研究員らは、画像、テキスト、音声を認識するニューラル・ネットワークの学習に使用できる単一のアルゴリズムを開発した。「Data2vec(データトゥベク)」と名付けられたこのアルゴリズムは、学習プロセスを統一しているだけでなく、3つのスキルにおいて既存の技術と同等以上の性能を発揮するものだ。メタAIのマイケル・アウリィ研究員は、「このような種類のタスクに対する人々の考え方が変わることを期待しています」と言う。

Data2vecは、ニューラル・ネットワークがラベルありの例に頼らず、AI自身でデータセットのパターンを見つけることを学習する「自己教師あり学習(Self-supervised learning) 」と呼ぶアプローチを採用している。これはGPT-3のような大規模な言語モデルが、インターネットから収集した膨大なラベルのないテキストから学習する方法であり、近年の深層学習の進歩の原動力となっている。

アウリィ研究員らは以前、音声認識のための自己教師あり学習に取り組んでいた。しかし彼らは、他の研究者がどのように画像やテキストの「自己教師あり学習」に挑んでいるのかを調査した際、同じ目的のために異なる技術を使用していることに気づいた。

Data2vecでは、生徒と教師の2つのニューラル・ネットワークを採用している。まず、教師のニューラル・ネットワークは通常の方法で画像やテキスト、音声を学習し、データの内部表現を学習する。これにより、新しい例を見せられたときに何を見ているかを予測できるようにする。例えば、犬の写真を見せられると、それを犬であると認識する。

ここで工夫されている点は、生徒のニューラル・ネットワークは、教師の内部表現を予測するように訓練されているという点だ。つまり、単に犬を見せられて「犬の写真を見ている」と推測するのではなく、その画像を見せられた教師が、何を見ているのかを推測するように訓練されているのである。

生徒は実際の画像や文章を推測するのではなく、教師が内部で表現した画像や文章を推測する。そのため、このアルゴリズムは特定のタイプの入力に合わせる必要はない。

Data2vecは、複数の方法を用いて世界を理解できる学習モデルを目指す、AIの大きなトレンドの一部だ。シアトルにあるアレン人工知能研究所(AI2)でコンピュータービジョンと自然言語について研究しているアニィ・ケンハビィは、Data2vecについて「巧妙なアイデア」だとした上で、「学習のための汎用化されたシステムにおける、有望な進歩だと言えます」と付け加えた。

ただ、注意点がある。同じ学習アルゴリズムを異なるスキルに使用できると言っても、一度に1つのスキルしか学習できない。つまり、画像を認識できるようになったら、今度は音声を認識できるように最初から学習しなければならない。難しいことだが、メタAIの研究チームは今後、一度に複数のスキルをAIに与える方法を検討したい考えだ。

研究者たちは、この研究アプローチが、画像や音声の認識において既存の技術よりも優れた性能を発揮し、テキスト理解においては主要な言語モデルと同等の性能を発揮したことに驚いた。

マーク・ザッカーバーグは、すでにメタバースのアプリケーションの今後の可能性について夢に描いており、「これはすべて、最終的にはAIアシスタント付きのARグラスに組み込まれるようになるでしょう」とフェイスブックに投稿した。「例えばあなたが夕食を作るときに、AIが材料が足りないと教えてくれたり、火を弱めるように促したり、あるいはもっと複雑な作業をサポートしてくれるかもしれません」。

アウリィ研究員は、これまでに学んだ重要な教訓は、研究者らは自身の研究分野から飛び出すべきだということだ、とした上で、「一つのことだけに集中しなくてもいいんじゃないでしょうか」と述べた。さらに「良いアイデアがあれば、実際にそれが広く役に立つかもしれません」と続けた。

人気の記事ランキング
  1. Inside the tedious effort to tally AI’s energy appetite 動画生成は別次元、思ったより深刻だったAIの電力問題
  2. Promotion Call for entries for Innovators Under 35 Japan 2025 「Innovators Under 35 Japan」2025年度候補者募集のお知らせ
  3. IBM aims to build the world’s first large-scale, error-corrected quantum computer by 2028 IBM、世界初の大規模誤り訂正量子コンピューター 28年実現へ
  4. What is vibe coding, exactly? バイブコーディングとは何か? AIに「委ねる」プログラミング新手法
ウィル・ダグラス・ヘブン [Will Douglas Heaven]米国版 AI担当上級編集者
AI担当上級編集者として、新研究や新トレンド、その背後にいる人々を取材しています。前職では、テクノロジーと政治に関するBBCのWebサイト「フューチャー・ナウ(Future Now)」の創刊編集長、ニュー・サイエンティスト(New Scientist)誌のテクノロジー統括編集長を務めていました。インペリアル・カレッジ・ロンドンでコンピュータサイエンスの博士号を取得しており、ロボット制御についての知識があります。
日本発「世界を変える」U35イノベーター

MITテクノロジーレビューが20年以上にわたって開催しているグローバル・アワード「Innovators Under 35 」。世界的な課題解決に取り組み、向こう数十年間の未来を形作る若きイノベーターの発掘を目的とするアワードの日本版の最新情報を発信する。

特集ページへ
MITTRが選んだ 世界を変える10大技術 2025年版

本当に長期的に重要となるものは何か?これは、毎年このリストを作成する際に私たちが取り組む問いである。未来を完全に見通すことはできないが、これらの技術が今後何十年にもわたって世界に大きな影響を与えると私たちは予測している。

特集ページへ
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る