KADOKAWA Technology Review
×
世界中の「声」を AIに、180言語を集める草の根プロジェクト
Stephanie Arnett/ MIT Technology Review | Adobe Stock, Pexels
人工知能(AI) Insider Online限定
How this grassroots effort could make AI voices more diverse

世界中の「声」を AIに、180言語を集める草の根プロジェクト

音声AIブームの陰で、英語以外の言語は取り残されている。AIアシスタントの多くは白人米国人の声で、他言語の音声は少ない。この不均衡を正そうと、モジラが立ち上げた「コモンボイス」には90万人のボランティアが参加。消滅の危機にある言語の保存も視野に、世界中から音声データを収集している。 by Melissa Heikkilä2024.11.20

この記事の3つのポイント
  1. AIモデルの訓練データは英語に偏っており多様性に欠ける
  2. モジラのコモンボイス・プロジェクトは多様な言語の音声データを収集している
  3. コモンボイスのデータ活用における透明性と公平性の課題がある
summarized by Claude 3

アップルやオープンAIなどのテック企業から人工知能(AI)を搭載した次世代アシスタントの発表が続き、音声AIブームが今まさに始まろうとしている。だが、これらの次世代アシスタントのデフォルト音声は、白人米国人(あるいはまれに英国人)であることが多く、間違いなく英語を話す。そして、その英語はほんの一部の英語話者を代表するものに過ぎない。英語は多くの方言やなまりがある言語であり、多くの地域や文化に広がっている。そして、英語を話さない何十億人もの人々には残念な話だが、音声AIツールの英語以外の音声の質はかなり劣る。

なぜなら、次世代アシスタントに搭載されているAIモデルの訓練に使用されたデータが限られているからだ。AI研究分野では、AIモデルの訓練に使われるデータのほとんどは、アングロサクソン系米国人の文化を反映しているインターネット上の英語データから抽出されている。しかし、この現状を変え、AI音声における透明性と多様性の向上を目指す大規模な草の根活動が進行中である。 モジラ(Mozilla)が立ち上げたプロジェクト「コモンボイス(Common Voice)」だ。

コモンボイスがこれまで7年をかけて作成してきたデータセットは、音声AIを開発したい人にとっては最も有用なリソースの1つだ。現在のAIブームのおかげもあり、ダウンロード数は急増しており、2020年の3万8500件から最近では500万件を突破した。データセットの作成は簡単ではなかった。データ収集が大勢のボランティアに依存していることがその主な理由だ。ボランティアの数も、2020年の50万人弱から2024年には90万人超へと増加している。ただ、モジラがコモンボイスのデータを無償提供することで、実質的にボランティアに巨大テック企業への無償労働を促しているのではないか、と指摘する声もある。

2017年以来、コモンボイス・プロジェクトのボランティアは、ロシア語、カタロニア語、マラーティー語などの多様な約180言語で、合計3万1000時間の音声データを収集してきた。あなたが使ったことがある音声AIサービスは、少なくとも部分的にはコモンボイスで訓練された可能性が高い。

モジラの目的は崇高なものだ。AIが私たちの生活やコミュニケーション方法にますます組み込まれるにつれて、私たちが利用するツールが私たちと同じような声を持つことが重要になってくる。AIテクノロジーはコミュニケーションの障壁を打ち破り、たとえば文字が読めない人にも説得力のある方法で情報を伝えるのに役立つだろう。しかしその一方で、英語に重点を絞ってしまうと、新たな植民地主義的な世界秩序を定着させ、言語を完全に消滅させてしまう危険性がある。

「最終的に、真の意味でマルチモーダルで多言語の高性能翻訳モデルを作り上げ、より多言語化された世界を実現するのではなく、すべての人に英語やフランス語で操作することを強制してしまうことになるのであればとても残念です」。コモンボイス・プロジェクトで製品部門を率いるEM・ルイス・ジョンは語る。

コモンボイスはオープンソースであるため、そのデータセットの中身を誰でも見ることができ、ユーザーは無料で自由に使うことができる。このような透明性はAIデータガバナンスでは珍しい。ワシントン大学、カーネギーメロン大学、ノースウェスタン大学の共同研究によると、大規模な音声データセットのほとんどは公開されておらず、その多くはユーチューブ(YouTube)などのサイトから収集されたデータで構成されているという。

コモンボイスの言語データの大部分は、ボランティアによって収集されている。トルコの研究者であるビュレント・オズデンもそのひとりだ。2020年以来、オズデンは自分の声を無償提供するだけでなく、より多くの人々に声を提供してもらうためにコモンボイス・プロジェクトの認知度向上に取り組んできた。最近では、2か月間かかりっきりで、トルコ語のデータ修正と誤字脱字のチェックに取り組んだ。オズデンにとって、AIモデルの改善だけが作業に取り組む動機ではない。

「私は文化、特にリソースの少ない言語の保存のためにこの活動に参加しています」とオズデンは語る。また、最近、チェルケス語やザザキ語など、話者 …

こちらは有料会員限定の記事です。
有料会員になると制限なしにご利用いただけます。
有料会員にはメリットがいっぱい!
  1. 毎月120本以上更新されるオリジナル記事で、人工知能から遺伝子療法まで、先端テクノロジーの最新動向がわかる。
  2. オリジナル記事をテーマ別に再構成したPDFファイル「eムック」を毎月配信。
    重要テーマが押さえられる。
  3. 各分野のキーパーソンを招いたトークイベント、関連セミナーに優待価格でご招待。
人気の記事ランキング
  1. Inside the tedious effort to tally AI’s energy appetite 動画生成は別次元、思ったより深刻だったAIの電力問題
  2. Promotion Call for entries for Innovators Under 35 Japan 2025 「Innovators Under 35 Japan」2025年度候補者募集のお知らせ
  3. IBM aims to build the world’s first large-scale, error-corrected quantum computer by 2028 IBM、世界初の大規模誤り訂正量子コンピューター 28年実現へ
  4. What is vibe coding, exactly? バイブコーディングとは何か? AIに「委ねる」プログラミング新手法
日本発「世界を変える」U35イノベーター

MITテクノロジーレビューが20年以上にわたって開催しているグローバル・アワード「Innovators Under 35 」。世界的な課題解決に取り組み、向こう数十年間の未来を形作る若きイノベーターの発掘を目的とするアワードの日本版の最新情報を発信する。

特集ページへ
MITTRが選んだ 世界を変える10大技術 2025年版

本当に長期的に重要となるものは何か?これは、毎年このリストを作成する際に私たちが取り組む問いである。未来を完全に見通すことはできないが、これらの技術が今後何十年にもわたって世界に大きな影響を与えると私たちは予測している。

特集ページへ
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る