KADOKAWA Technology Review
×
「Innovators Under 35 Japan」2024年度候補者募集中!
メタ、1000言語以上に対応した音声認識・生成モデルを公開
Stephanie Arnett/MITTR | Envato
Meta’s new AI models can recognize and produce speech for more than 1,000 languages

メタ、1000言語以上に対応した音声認識・生成モデルを公開

メタは、音声データと付随するテキストデータを納めたデータセットがなくても、わずかなデータから音声認識・生成可能なAIモデルを構築した。多くの言語に対応した音声アプリの開発に役立つ可能性がある。 by Rhiannon Williams2023.05.25

メタ(Meta)は1000以上の言語について、音声認識・生成が可能な人工知能(AI)モデルを構築した。対応可能な言語の数はこれまでの10倍となる。この取り組みは、消滅の危機に瀕している数々の言語の保存に向けた重要な一歩であると同社は述べている。

メタは、コード・ホスティング・ サービス「ギットハブ(GitHub)」を通じてモデルを公開した。同社は、モデルをオープンソース化することで、異なる言語を使う開発者が、すべての人が理解できるメッセージングサービスや、あらゆる言語で利用可能な実質現実(VR)システムといった新しい音声アプリケーションを構築できるようになるだろうとしている。

世界には約7000の言語があるが、既存の音声認識モデルでは、これらのうち約100の言語しか包括的にカバーできていない。その理由は、AIモデルは訓練用に大量のラベル付きデータが必要になる場合が多く、そのようなデータは、英語やスペイン語、中国語など少数の言語でしか用意されていないからだ。

メタの研究者らは、同社が2020年に開発した既存のAIモデルを再訓練することで問題を回避した。このモデルは転写などによる大量のラベル付きデータを必要とせず、音声から会話パターンを学習できる。

研究チームは、2つの新しいデータセットでモデルを訓練した。一つは新約聖書の音声録音データとそれに対応する1107言語のテキストデータ(インターネットから取得)、もう1つは3809言語のラベルなしの新約聖書の音声録音データだ。同チームは音声録音データとテキストデータを処理して品質を向上させたうえで、音声録音と付随するテキストが並ぶように設計されたアルゴリズムを実行。次に、新たに並べられたデータで訓練した2つ目のアルゴリズムを使ってこのプロセスを繰り返した。この方法によって研究チームは、付随するテキストがなくても新しい言語をより簡単に学習できるようにアルゴリズムを教育できた。

「モデルが学んだことを利用して、ごくわずかなデータから迅速に音声システムを構築できます」と、プロジェクトに携わったメタの研究者、マイケル・アウリ博士は語る。

「英語に関してはよいデータセットがたくさんありますし、その他いくつかの言語についてもそうです。ですが、例えば話す人が1000人しかいないような言語については、よいデータセットがありません」 。

研究チームによると、彼らが構築したモデルで会話できる言語は1000以上だが、認識できる言語は4000以上だという。

同チームは、このモデルをオープンAI(OpenAI)の「ウィスパー(Whisper)」をはじめとするライバル企業のモデルと比較し、他社の11倍以上の言語をカバーしているにもかかわらず、エラー率は半分だったと主張している。しかし、同チームは、このモデルには依然として特定の単語やフレーズを誤って転写するリスクがあり、それが不正確または潜在的に侮辱的なラベル付けに繋がる可能性があると警告している。さらに、0.7%というわずかな数値ではあるものの、自社の音声認識モデルが他のモデルより偏った単語を生成したことも認める。

研究そのものについては印象的だが、宗教に関するテキストを使用してAIモデルを訓練したことは物議を醸すかもしれない。アフリカ言語の自然言語処理に取り組む機関、マサカーネ(Masakhane)の研究者で、メタのプロジェクトには参加していないクリス・エメズエは、「聖書には、バイアスや誤った表現がたくさんあります」と述べている。

人気の記事ランキング
  1. AI can make you more creative—but it has limits 生成AIは人間の創造性を高めるか? 新研究で限界が明らかに
  2. Promotion Call for entries for Innovators Under 35 Japan 2024 「Innovators Under 35 Japan」2024年度候補者募集のお知らせ
  3. A new weather prediction model from Google combines AI with traditional physics グーグルが気象予測で新モデル、機械学習と物理学を統合
  4. How to fix a Windows PC affected by the global outage 世界規模のウィンドウズPCトラブル、IT部門「最悪の週末」に
  5. The next generation of mRNA vaccines is on its way 日本で承認された新世代mRNAワクチン、従来とどう違うのか?
リアノン・ウィリアムズ [Rhiannon Williams]米国版 ニュース担当記者
米国版ニュースレター「ザ・ダウンロード(The Download)」の執筆を担当。MITテクノロジーレビュー入社以前は、英国「i (アイ)」紙のテクノロジー特派員、テレグラフ紙のテクノロジー担当記者を務めた。2021年には英国ジャーナリズム賞の最終選考に残ったほか、専門家としてBBCにも定期的に出演している。
日本発「世界を変える」U35イノベーター

MITテクノロジーレビューが20年以上にわたって開催しているグローバル・アワード「Innovators Under 35 」。2024年も候補者の募集を開始しました。 世界的な課題解決に取り組み、向こう数十年間の未来を形作る若きイノベーターの発掘を目的とするアワードの日本版の最新情報を随時発信中。

特集ページへ
MITTRが選んだ 世界を変える10大技術 2024年版

「ブレークスルー・テクノロジー10」は、人工知能、生物工学、気候変動、コンピューティングなどの分野における重要な技術的進歩を評価するMITテクノロジーレビューの年次企画だ。2024年に注目すべき10のテクノロジーを紹介しよう。

特集ページへ
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る