KADOKAWA Technology Review
×
メタ、画像・音声・テキストを認識できるAIアルゴリズムを開発
Ms Tech | Getty
Meta's new learning algorithm can teach AI to multi-task

メタ、画像・音声・テキストを認識できるAIアルゴリズムを開発

メタ(旧フェイスブック)のAIチームが、音声、画像、テキストといった複数のスキルを学習できる単一のアルゴリズムを開発した。現時点では一度に1つのスキルしか学習できないが、今後期待される汎用AIへの第一歩となるか。 by Will Douglas Heaven2022.01.25

犬を見てそれが「犬」であると認識できるなら人なら、言葉で説明されてもそれが犬のことだと分かるだろう。しかし現在の人工知能(AI)はそうではない。深層ニューラルネットワークは、写真の中の物体を識別することも自然言語で会話することも非常に得意だが、複数のことを同時にはできない。どちらか一方に優れた人工知能(AI)モデルはあっても、両方に優れたAIモデルはまだ存在しないのだ。

この課題の一つの要因は、こうしたAIモデルが一つ一つのスキルをそれぞれ異なる手法で学ぶことにある。このことは、より汎用的なAI、つまりマルチタスクに適応できる機械を開発する上で大きな障害となっている。また、ある特定のスキルに対する深層学習の進歩が、他のスキルに転移しないことも多い。

メタAI(Meta AI:旧「フェイスブックAIリサーチ」)のチームは、こうした状況を変えたいと考えている。同研究所の研究員らは、画像、テキスト、音声を認識するニューラル・ネットワークの学習に使用できる単一のアルゴリズムを開発した。「Data2vec(データトゥベク)」と名付けられたこのアルゴリズムは、学習プロセスを統一しているだけでなく、3つのスキルにおいて既存の技術と同等以上の性能を発揮するものだ。メタAIのマイケル・アウリィ研究員は、「このような種類のタスクに対する人々の考え方が変わることを期待しています」と言う。

Data2vecは、ニューラル・ネットワークがラベルありの例に頼らず、AI自身でデータセットのパターンを見つけることを学習する「自己教師あり学習(Self-supervised learning) 」と呼ぶアプローチを採用している。これはGPT-3のような大規模な言語モデルが、インターネットから収集した膨大なラベルのないテキストから学習する方法であり、近年の深層学習の進歩の原動力となっている。

アウリィ研究員らは以前、音声認識のための自己教師あり学習に取り組んでいた。しかし彼らは、他の研究者がどのように画像やテキストの「自己教師あり学習」に挑んでいるのかを調査した際、同じ目的のために異なる技術を使用していることに気づいた。

Data2vecでは、生徒と教師の2つのニューラル・ネットワークを採用している。まず、教師のニューラル・ネットワークは通常の方法で画像やテキスト、音声を学習し、データの内部表現を学習する。これにより、新しい例を見せられたときに何を見ているかを予測できるようにする。例えば、犬の写真を見せられると、それを犬であると認識する。

ここで工夫されている点は、生徒のニューラル・ネットワークは、教師の内部表現を予測するように訓練されているという点だ。つまり、単に犬を見せられて「犬の写真を見ている」と推測するのではなく、その画像を見せられた教師が、何を見ているのかを推測するように訓練されているのである。

生徒は実際の画像や文章を推測するのではなく、教師が内部で表現した画像や文章を推測する。そのため、このアルゴリズムは特定のタイプの入力に合わせる必要はない。

Data2vecは、複数の方法を用いて世界を理解できる学習モデルを目指す、AIの大きなトレンドの一部だ。シアトルにあるアレン人工知能研究所(AI2)でコンピュータービジョンと自然言語について研究しているアニィ・ケンハビィは、Data2vecについて「巧妙なアイデア」だとした上で、「学習のための汎用化されたシステムにおける、有望な進歩だと言えます」と付け加えた。

ただ、注意点がある。同じ学習アルゴリズムを異なるスキルに使用できると言っても、一度に1つのスキルしか学習できない。つまり、画像を認識できるようになったら、今度は音声を認識できるように最初から学習しなければならない。難しいことだが、メタAIの研究チームは今後、一度に複数のスキルをAIに与える方法を検討したい考えだ。

研究者たちは、この研究アプローチが、画像や音声の認識において既存の技術よりも優れた性能を発揮し、テキスト理解においては主要な言語モデルと同等の性能を発揮したことに驚いた。

マーク・ザッカーバーグは、すでにメタバースのアプリケーションの今後の可能性について夢に描いており、「これはすべて、最終的にはAIアシスタント付きのARグラスに組み込まれるようになるでしょう」とフェイスブックに投稿した。「例えばあなたが夕食を作るときに、AIが材料が足りないと教えてくれたり、火を弱めるように促したり、あるいはもっと複雑な作業をサポートしてくれるかもしれません」。

アウリィ研究員は、これまでに学んだ重要な教訓は、研究者らは自身の研究分野から飛び出すべきだということだ、とした上で、「一つのことだけに集中しなくてもいいんじゃないでしょうか」と述べた。さらに「良いアイデアがあれば、実際にそれが広く役に立つかもしれません」と続けた。

人気の記事ランキング
  1. These scientists used CRISPR to put an alligator gene into catfish ワニの遺伝子を組み込んだ「CRISPRナマズ」が米国で誕生
  2. People are already using ChatGPT to create workout plans チャットGPTはパーソナルトレーナーになるか? 実際に試してみた
  3. Why EVs won’t replace hybrid cars anytime soon トヨタの賭け、EV一辺倒ではなくハイブリッド車を売り続ける理由
  4. What’s next for batteries リチウムイオン以外の選択肢は台頭するか? 23年の電池業界を占う
  5. How AI-generated text is poisoning the internet AI生成コンテンツに汚染されるインターネット、その対策は?
ウィル・ダグラス・ヘブン [Will Douglas Heaven]米国版 AI担当上級編集者
AI担当上級編集者として、新研究や新トレンド、その背後にいる人々を取材しています。前職では、テクノロジーと政治に関するBBCのWebサイト「フューチャー・ナウ(Future Now)」の創刊編集長、ニュー・サイエンティスト(New Scientist)誌のテクノロジー統括編集長を務めていました。インペリアル・カレッジ・ロンドンでコンピュータサイエンスの博士号を取得しており、ロボット制御についての知識があります。
2023年のテクノロジー大予測

2023年のテクノロジーはどう動くのか? AIから量子コンピューター、宇宙開発、mRNAワクチンまで、重要トレンドをMITテクノロジーレビューが徹底予測。各分野の専門家や有力プレイヤーへの取材をもとに、技術・資金・政策などの多角的な視点で解説する。

記事一覧を見る
人気の記事ランキング
  1. These scientists used CRISPR to put an alligator gene into catfish ワニの遺伝子を組み込んだ「CRISPRナマズ」が米国で誕生
  2. People are already using ChatGPT to create workout plans チャットGPTはパーソナルトレーナーになるか? 実際に試してみた
  3. Why EVs won’t replace hybrid cars anytime soon トヨタの賭け、EV一辺倒ではなくハイブリッド車を売り続ける理由
  4. What’s next for batteries リチウムイオン以外の選択肢は台頭するか? 23年の電池業界を占う
  5. How AI-generated text is poisoning the internet AI生成コンテンツに汚染されるインターネット、その対策は?
MITテクノロジーレビュー[日本版] Vol.9
MITテクノロジーレビュー[日本版] Vol.9量子時代のコンピューティング

グーグルやIBMなどの巨大テック企業からベンチャーまで、世界的な開発競争が加速する「量子コンピューター」を中心に、コンピューティングの動向を取り上げる。

詳細を見る
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る