KADOKAWA Technology Review
×
【春割】実施中!年間購読料20%オフ!
メタ、1000言語以上に対応した音声認識・生成モデルを公開
Stephanie Arnett/MITTR | Envato
Meta’s new AI models can recognize and produce speech for more than 1,000 languages

メタ、1000言語以上に対応した音声認識・生成モデルを公開

メタは、音声データと付随するテキストデータを納めたデータセットがなくても、わずかなデータから音声認識・生成可能なAIモデルを構築した。多くの言語に対応した音声アプリの開発に役立つ可能性がある。 by Rhiannon Williams2023.05.25

メタ(Meta)は1000以上の言語について、音声認識・生成が可能な人工知能(AI)モデルを構築した。対応可能な言語の数はこれまでの10倍となる。この取り組みは、消滅の危機に瀕している数々の言語の保存に向けた重要な一歩であると同社は述べている。

メタは、コード・ホスティング・ サービス「ギットハブ(GitHub)」を通じてモデルを公開した。同社は、モデルをオープンソース化することで、異なる言語を使う開発者が、すべての人が理解できるメッセージングサービスや、あらゆる言語で利用可能な実質現実(VR)システムといった新しい音声アプリケーションを構築できるようになるだろうとしている。

世界には約7000の言語があるが、既存の音声認識モデルでは、これらのうち約100の言語しか包括的にカバーできていない。その理由は、AIモデルは訓練用に大量のラベル付きデータが必要になる場合が多く、そのようなデータは、英語やスペイン語、中国語など少数の言語でしか用意されていないからだ。

メタの研究者らは、同社が2020年に開発した既存のAIモデルを再訓練することで問題を回避した。このモデルは転写などによる大量のラベル付きデータを必要とせず、音声から会話パターンを学習できる。

研究チームは、2つの新しいデータセットでモデルを訓練した。一つは新約聖書の音声録音データとそれに対応する1107言語のテキストデータ(インターネットから取得)、もう1つは3809言語のラベルなしの新約聖書の音声録音データだ。同チームは音声録音データとテキストデータを処理して品質を向上させたうえで、音声録音と付随するテキストが並ぶように設計されたアルゴリズムを実行。次に、新たに並べられたデータで訓練した2つ目のアルゴリズムを使ってこのプロセスを繰り返した。この方法によって研究チームは、付随するテキストがなくても新しい言語をより簡単に学習できるようにアルゴリズムを教育できた。

「モデルが学んだことを利用して、ごくわずかなデータから迅速に音声システムを構築できます」と、プロジェクトに携わったメタの研究者、マイケル・アウリ博士は語る。

「英語に関してはよいデータセットがたくさんありますし、その他いくつかの言語についてもそうです。ですが、例えば話す人が1000人しかいないような言語については、よいデータセットがありません」 。

研究チームによると、彼らが構築したモデルで会話できる言語は1000以上だが、認識できる言語は4000以上だという。

同チームは、このモデルをオープンAI(OpenAI)の「ウィスパー(Whisper)」をはじめとするライバル企業のモデルと比較し、他社の11倍以上の言語をカバーしているにもかかわらず、エラー率は半分だったと主張している。しかし、同チームは、このモデルには依然として特定の単語やフレーズを誤って転写するリスクがあり、それが不正確または潜在的に侮辱的なラベル付けに繋がる可能性があると警告している。さらに、0.7%というわずかな数値ではあるものの、自社の音声認識モデルが他のモデルより偏った単語を生成したことも認める。

研究そのものについては印象的だが、宗教に関するテキストを使用してAIモデルを訓練したことは物議を醸すかもしれない。アフリカ言語の自然言語処理に取り組む機関、マサカーネ(Masakhane)の研究者で、メタのプロジェクトには参加していないクリス・エメズエは、「聖書には、バイアスや誤った表現がたくさんあります」と述べている。

人気の記事ランキング
  1. Here’s why some people choose cryonics to store their bodies and brains after death 蘇生の可能性は「限りなく小さい」、それでも人体冷凍保存を選ぶ理由
  2. Why the world doesn’t recycle more nuclear waste 核廃棄物はリサイクルできる——ただし「経済的利益はない」
  3. Are high gas prices good news for EVs? It’s complicated. ガソリン高騰でEV人気も、「だから言ったでしょ」と喜べない理由
  4. This startup wants to change how mathematicians do math AIの力をすべての数学者に解き放つ、スパコン不要の無料ツールが登場
リアノン・ウィリアムズ [Rhiannon Williams]米国版 ニュース担当記者
米国版ニュースレター「ザ・ダウンロード(The Download)」の執筆を担当。MITテクノロジーレビュー入社以前は、英国「i (アイ)」紙のテクノロジー特派員、テレグラフ紙のテクノロジー担当記者を務めた。2021年には英国ジャーナリズム賞の最終選考に残ったほか、専門家としてBBCにも定期的に出演している。
MITテクノロジーレビューが選んだ、 世界を変える10大技術

MITテクノロジーレビューの記者と編集者は、未来を形作るエマージング・テクノロジーについて常に議論している。年に一度、私たちは現状を確認し、その見通しを読者に共有する。以下に挙げるのは、良くも悪くも今後数年間で進歩を促し、あるいは大きな変化を引き起こすと本誌が考えるテクノロジーである。

特集ページへ
AI革命の真実 誇大宣伝の先にあるもの

AIは人間の知能を再現する。AIは病気を根絶する。AIは人類史上、最大にして最も重要な発明だ——。こうした言葉を、あなたも何度となく耳にしてきたはずだ。しかし、その多くは、おそらく真実ではない。現在地を見極め、AIが本当に可能にするものは何かを問い、次に進むべき道を探る。

特集ページへ
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る