KADOKAWA Technology Review
×
ひと月あたり1000円で購読できる春のキャンペーン実施中!
メタ、画像・音声・テキストを認識できるAIアルゴリズムを開発
Ms Tech | Getty
Meta's new learning algorithm can teach AI to multi-task

メタ、画像・音声・テキストを認識できるAIアルゴリズムを開発

メタ(旧フェイスブック)のAIチームが、音声、画像、テキストといった複数のスキルを学習できる単一のアルゴリズムを開発した。現時点では一度に1つのスキルしか学習できないが、今後期待される汎用AIへの第一歩となるか。 by Will Douglas Heaven2022.01.25

犬を見てそれが「犬」であると認識できるなら人なら、言葉で説明されてもそれが犬のことだと分かるだろう。しかし現在の人工知能(AI)はそうではない。深層ニューラルネットワークは、写真の中の物体を識別することも自然言語で会話することも非常に得意だが、複数のことを同時にはできない。どちらか一方に優れた人工知能(AI)モデルはあっても、両方に優れたAIモデルはまだ存在しないのだ。

この課題の一つの要因は、こうしたAIモデルが一つ一つのスキルをそれぞれ異なる手法で学ぶことにある。このことは、より汎用的なAI、つまりマルチタスクに適応できる機械を開発する上で大きな障害となっている。また、ある特定のスキルに対する深層学習の進歩が、他のスキルに転移しないことも多い。

メタAI(Meta AI:旧「フェイスブックAIリサーチ」)のチームは、こうした状況を変えたいと考えている。同研究所の研究員らは、画像、テキスト、音声を認識するニューラル・ネットワークの学習に使用できる単一のアルゴリズムを開発した。「Data2vec(データトゥベク)」と名付けられたこのアルゴリズムは、学習プロセスを統一しているだけでなく、3つのスキルにおいて既存の技術と同等以上の性能を発揮するものだ。メタAIのマイケル・アウリィ研究員は、「このような種類のタスクに対する人々の考え方が変わることを期待しています」と言う。

Data2vecは、ニューラル・ネットワークがラベルありの例に頼らず、AI自身でデータセットのパターンを見つけることを学習する「自己教師あり学習(Self-supervised learning) 」と呼ぶアプローチを採用している。これはGPT-3のような大規模な言語モデルが、インターネットから収集した膨大なラベルのないテキストから学習する方法であり、近年の深層学習の進歩の原動力となっている。

アウリィ研究員らは以前、音声認識のための自己教師あり学習に取り組んでいた。しかし彼らは、他の研究者がどのように画像やテキストの「自己教師あり学習」に挑んでいるのかを調査した際、同じ目的のために異なる技術を使用していることに気づいた。

Data2vecでは、生徒と教師の2つのニューラル・ネットワークを採用している。まず、教師のニューラル・ネットワークは通常の方法で画像やテキスト、音声を学習し、データの内部表現を学習する。これにより、新しい例を見せられたときに何を見ているかを予測できるようにする。例えば、犬の写真を見せられると、それを犬であると認識する。

ここで工夫されている点は、生徒のニューラル・ネットワークは、教師の内部表現を予測するように訓練されているという点だ。つまり、単に犬を見せられて「犬の写真を見ている」と推測するのではなく、その画像を見せられた教師が、何を見ているのかを推測するように訓練されているのである。

生徒は実際の画像や文章を推測するのではなく、教師が内部で表現した画像や文章を推測する。そのため、このアルゴリズムは特定のタイプの入力に合わせる必要はない。

Data2vecは、複数の方法を用いて世界を理解できる学習モデルを目指す、AIの大きなトレンドの一部だ。シアトルにあるアレン人工知能研究所(AI2)でコンピュータービジョンと自然言語について研究しているアニィ・ケンハビィは、Data2vecについて「巧妙なアイデア」だとした上で、「学習のための汎用化されたシステムにおける、有望な進歩だと言えます」と付け加えた。

ただ、注意点がある。同じ学習アルゴリズムを異なるスキルに使用できると言っても、一度に1つのスキルしか学習できない。つまり、画像を認識できるようになったら、今度は音声を認識できるように最初から学習しなければならない。難しいことだが、メタAIの研究チームは今後、一度に複数のスキルをAIに与える方法を検討したい考えだ。

研究者たちは、この研究アプローチが、画像や音声の認識において既存の技術よりも優れた性能を発揮し、テキスト理解においては主要な言語モデルと同等の性能を発揮したことに驚いた。

マーク・ザッカーバーグは、すでにメタバースのアプリケーションの今後の可能性について夢に描いており、「これはすべて、最終的にはAIアシスタント付きのARグラスに組み込まれるようになるでしょう」とフェイスブックに投稿した。「例えばあなたが夕食を作るときに、AIが材料が足りないと教えてくれたり、火を弱めるように促したり、あるいはもっと複雑な作業をサポートしてくれるかもしれません」。

アウリィ研究員は、これまでに学んだ重要な教訓は、研究者らは自身の研究分野から飛び出すべきだということだ、とした上で、「一つのことだけに集中しなくてもいいんじゃないでしょうか」と述べた。さらに「良いアイデアがあれば、実際にそれが広く役に立つかもしれません」と続けた。

人気の記事ランキング
  1. The way whales communicate is closer to human language than we realized クジラの言語構造、想像以上に人間の言語に近かった
  2. Sam Altman says helpful agents are poised to become AI’s killer function サム・アルトマンが語った スマホ超えAIツールの姿 「人生を完全に把握」
  3. Almost every Chinese keyboard app has a security flaw that reveals what users type 人気の中国語キーボード・アプリ、ほぼすべてに脆弱性が存在
  4. Three takeaways about the current state of batteries エネルギー革命の主役に躍り出た蓄電池、押さえておきたいデータ3つ
ウィル・ダグラス・ヘブン [Will Douglas Heaven]米国版 AI担当上級編集者
AI担当上級編集者として、新研究や新トレンド、その背後にいる人々を取材しています。前職では、テクノロジーと政治に関するBBCのWebサイト「フューチャー・ナウ(Future Now)」の創刊編集長、ニュー・サイエンティスト(New Scientist)誌のテクノロジー統括編集長を務めていました。インペリアル・カレッジ・ロンドンでコンピュータサイエンスの博士号を取得しており、ロボット制御についての知識があります。
10 Breakthrough Technologies 2024

MITテクノロジーレビューは毎年、世界に真のインパクトを与える有望なテクノロジーを探している。本誌がいま最も重要だと考える進歩を紹介しよう。

記事一覧を見る
人気の記事ランキング
  1. The way whales communicate is closer to human language than we realized クジラの言語構造、想像以上に人間の言語に近かった
  2. Sam Altman says helpful agents are poised to become AI’s killer function サム・アルトマンが語った スマホ超えAIツールの姿 「人生を完全に把握」
  3. Almost every Chinese keyboard app has a security flaw that reveals what users type 人気の中国語キーボード・アプリ、ほぼすべてに脆弱性が存在
  4. Three takeaways about the current state of batteries エネルギー革命の主役に躍り出た蓄電池、押さえておきたいデータ3つ
気候テック企業15 2023

MITテクノロジーレビューの「気候テック企業15」は、温室効果ガスの排出量を大幅に削減する、あるいは地球温暖化の脅威に対処できる可能性が高い有望な「気候テック企業」の年次リストである。

記事一覧を見る
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る