KADOKAWA Technology Review
×
メタ、画像・音声・テキストを認識できるAIアルゴリズムを開発
Ms Tech | Getty
Meta's new learning algorithm can teach AI to multi-task

メタ、画像・音声・テキストを認識できるAIアルゴリズムを開発

メタ(旧フェイスブック)のAIチームが、音声、画像、テキストといった複数のスキルを学習できる単一のアルゴリズムを開発した。現時点では一度に1つのスキルしか学習できないが、今後期待される汎用AIへの第一歩となるか。 by Will Douglas Heaven2022.01.25

犬を見てそれが「犬」であると認識できるなら人なら、言葉で説明されてもそれが犬のことだと分かるだろう。しかし現在の人工知能(AI)はそうではない。深層ニューラルネットワークは、写真の中の物体を識別することも自然言語で会話することも非常に得意だが、複数のことを同時にはできない。どちらか一方に優れた人工知能(AI)モデルはあっても、両方に優れたAIモデルはまだ存在しないのだ。

この課題の一つの要因は、こうしたAIモデルが一つ一つのスキルをそれぞれ異なる手法で学ぶことにある。このことは、より汎用的なAI、つまりマルチタスクに適応できる機械を開発する上で大きな障害となっている。また、ある特定のスキルに対する深層学習の進歩が、他のスキルに転移しないことも多い。

メタAI(Meta AI:旧「フェイスブックAIリサーチ」)のチームは、こうした状況を変えたいと考えている。同研究所の研究員らは、画像、テキスト、音声を認識するニューラル・ネットワークの学習に使用できる単一のアルゴリズムを開発した。「Data2vec(データトゥベク)」と名付けられたこのアルゴリズムは、学習プロセスを統一しているだけでなく、3つのスキルにおいて既存の技術と同等以上の性能を発揮するものだ。メタAIのマイケル・アウリィ研究員は、「このような種類のタスクに対する人々の考え方が変わることを期待しています」と言う。

Data2vecは、ニューラル・ネットワークがラベルありの例に頼らず、AI自身でデータセットのパターンを見つけることを学習する「自己教師あり学習(Self-supervised learning) 」と呼ぶアプローチを採用している。これはGPT-3のような大規模な言語モデルが、インターネットから収集した膨大なラベルのないテキストから学習する方法であり、近年の深層学習の進歩の原動力となっている。

アウリィ研究員らは以前、音声認識のための自己教師あり学習に取り組んでいた。しかし彼らは、他の研究者がどのように画像やテキストの「自己教師あり学習」に挑んでいるのかを調査した際、同じ目的のために異なる技術を使用していることに気づいた。

Data2vecでは、生徒と教師の2つのニューラル・ネットワークを採用している。まず、教師のニューラル・ネットワークは通常の方法で画像やテキスト、音声を学習し、データの内部表現を学習する。これにより、新しい例を見せられたときに何を見ているかを予測できるようにする。例えば、犬の写真を見せられると、それを犬であると認識する。

ここで工夫されている点は、生徒のニューラル・ネットワークは、教師の内部表現を予測するように訓練されているという点だ。つまり、単に犬を見せられて「犬の写真を見ている」と推測するのではなく、その画像を見せられた教師が、何を見ているのかを推測するように訓練されているのである。

生徒は実際の画像や文章を推測するのではなく、教師が内部で表現した画像や文章を推測する。そのため、このアルゴリズムは特定のタイプの入力に合わせる必要はない。

Data2vecは、複数の方法を用いて世界を理解できる学習モデルを目指す、AIの大きなトレンドの一部だ。シアトルにあるアレン人工知能研究所(AI2)でコンピュータービジョンと自然言語について研究しているアニィ・ケンハビィは、Data2vecについて「巧妙なアイデア」だとした上で、「学習のための汎用化されたシステムにおける、有望な進歩だと言えます」と付け加えた。

ただ、注意点がある。同じ学習アルゴリズムを異なるスキルに使用できると言っても、一度に1つのスキルしか学習できない。つまり、画像を認識できるようになったら、今度は音声を認識できるように最初から学習しなければならない。難しいことだが、メタAIの研究チームは今後、一度に複数のスキルをAIに与える方法を検討したい考えだ。

研究者たちは、この研究アプローチが、画像や音声の認識において既存の技術よりも優れた性能を発揮し、テキスト理解においては主要な言語モデルと同等の性能を発揮したことに驚いた。

マーク・ザッカーバーグは、すでにメタバースのアプリケーションの今後の可能性について夢に描いており、「これはすべて、最終的にはAIアシスタント付きのARグラスに組み込まれるようになるでしょう」とフェイスブックに投稿した。「例えばあなたが夕食を作るときに、AIが材料が足りないと教えてくれたり、火を弱めるように促したり、あるいはもっと複雑な作業をサポートしてくれるかもしれません」。

アウリィ研究員は、これまでに学んだ重要な教訓は、研究者らは自身の研究分野から飛び出すべきだということだ、とした上で、「一つのことだけに集中しなくてもいいんじゃないでしょうか」と述べた。さらに「良いアイデアがあれば、実際にそれが広く役に立つかもしれません」と続けた。

人気の記事ランキング
  1. A tiny new open-source AI model performs as well as powerful big ones 720億パラメーターでも「GPT-4o超え」、Ai2のオープンモデル
  2. The coolest thing about smart glasses is not the AR. It’s the AI. ようやく物になったスマートグラス、真価はARではなくAIにある
  3. Geoffrey Hinton, AI pioneer and figurehead of doomerism, wins Nobel Prize in Physics ジェフリー・ヒントン、 ノーベル物理学賞を受賞
  4. Why OpenAI’s new model is such a big deal GPT-4oを圧倒、オープンAI新モデル「o1」に注目すべき理由
ウィル・ダグラス・ヘブン [Will Douglas Heaven]米国版 AI担当上級編集者
AI担当上級編集者として、新研究や新トレンド、その背後にいる人々を取材しています。前職では、テクノロジーと政治に関するBBCのWebサイト「フューチャー・ナウ(Future Now)」の創刊編集長、ニュー・サイエンティスト(New Scientist)誌のテクノロジー統括編集長を務めていました。インペリアル・カレッジ・ロンドンでコンピュータサイエンスの博士号を取得しており、ロボット制御についての知識があります。
日本発「世界を変える」U35イノベーター

MITテクノロジーレビューが20年以上にわたって開催しているグローバル・アワード「Innovators Under 35 」。2024年受賞者は11月発表予定です。 世界的な課題解決に取り組み、向こう数十年間の未来を形作る若きイノベーターの発掘を目的とするアワードの日本版の最新情報を随時発信中。

特集ページへ
MITTRが選んだ 世界を変える10大技術 2024年版

「ブレークスルー・テクノロジー10」は、人工知能、生物工学、気候変動、コンピューティングなどの分野における重要な技術的進歩を評価するMITテクノロジーレビューの年次企画だ。2024年に注目すべき10のテクノロジーを紹介しよう。

特集ページへ
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る