KADOKAWA Technology Review
×
メタ、音声から直接翻訳するAIモデル リアタイ通訳実現近づく
Stephanie Arnett/MIT Technology Review | Adobe Stock
Meta’s new AI model can translate speech from more than 100 languages

メタ、音声から直接翻訳するAIモデル リアタイ通訳実現近づく

メタが、101種類の言語の音声を別の言語の音声へと翻訳できるAIモデルを発表した。SF小説で描かれてきたような、言語間のリアルタイム同時通訳の実現が近づいている。 by Scott J Mulligan2025.01.17

この記事の3つのポイント
  1. メタが101言語間の音声翻訳AI「シームレスM4T」を開発した
  2. パラレル・データ・マイニングにより翻訳精度が向上した
  3. 即時通訳の実現に向けて期待が高まっている
summarized by Claude 3

メタが、101種類の異なる言語の音声を翻訳できる新しい人工知能(AI)モデルをリリースした。 誰かの口から発せられた言葉がただちに翻訳されるリアルタイム同時通訳に、一歩近づく進歩である。

通常、音声の翻訳モデルは多段階のアプローチを用いる。まず、音声をテキストに翻訳する。次に、そのテキストを別の言語のテキストに翻訳する。最後に、その翻訳されたテキストを新しい言語の音声に変換する。だが、この方法は非効率的であり、各段階でエラーや誤訳が入り込むことがある。メタの新たなモデル「シームレスM4T(SeamlessM4T)」により、ある言語の音声から別の言語の音声へ、より直接的な翻訳が可能になる。このモデルの詳細は、1月15日のネイチャー誌に掲載された論文で説明されている。

SeamlessM4Tは、既存の最有力モデルよりも23%高い正確さでテキストを翻訳できる。また、グーグルが開発した別のモデル「オーディオパーム(AudioPaLM)」は、技術的にはより多くの言語(SeamlessM4Tの101種類に対して113種類)を翻訳可能だが、英語にしか変換できない。SeamlessM4Tは、他の36言語に翻訳が可能だ。

その鍵となるのは、パラレル・データ・マイニングと呼ばれるプロセスである。このプロセスでは、クロールによって得られたWebデータから、ある映像やオーディオの音声が別の言語の字幕と一致する事例を見つけ出す。SeamlessM4Tは、ある言語のそのような音声を、それと一致する別の言語のテキストと関連付けることを学習した。これによって、翻訳モデルのためのまったく新しい翻訳例の宝庫が開け放たれたのだ。

「メタは、テキストから音声への変換、音声からテキストへの変換、さらには自動音声認識など、広範囲で、さまざまな優れた仕事をしてきました」と、キニピアック大学コンピューター科学のチェタン・ジャイスワル准教授は言う(同准教授はこの研究に参加していない)。「対応している言語の数だけでも、とてつもなく大きな成果です」。

人間の翻訳者はまだ、翻訳プロセスの不可欠な一部であると、この論文は述べている。なぜなら、人間の翻訳者は多様な文化的文脈に対処し、ある言語から別の言語へ同じ意味を確実に伝えることができるからだ。このステップは重要であると、オタワ大学翻訳・通訳学部のリン・ボウカー博士は言う(同博士はSeamlessM4Tの開発には加わっていない)。「言語は文化を反映しています。そしてそれぞれの文化には、独自の物事の捉え方があります」。

医療や法律といった分野への適用に関しては、機械翻訳は人間による徹底的なチェックが必要であると、ボウカー博士は言う。そうしないと、誤解が生じる可能性がある。たとえば、2021年1月にヴァージニア州保健局が発表した新型コロナウイルス感染症(COVID-19)ワクチンに関する公衆衛生情報の翻訳にグーグル翻訳が使用された際、英語の「強制ではない」が、スペイン語では「必要ではない」と翻訳され、メッセージの全体的な意味が変わってしまった。

AIモデルを訓練するための事例は、一部の言語のものが、他の言語のものよりもはるかに多く存在する。つまり、現在の音声から音声への翻訳モデルは、事例が多く存在する可能性があるギリシャ語から英語への翻訳は可能かもしれないが、スワヒリ語からギリシャ語への翻訳はできない。SeamlessM4Tの開発チームは、この問題の解決を目指し、さまざまな言語で発せられた数百万時間に及ぶ音声でモデルを事前訓練した。この事前訓練によって、SeamlessM4Tは言語の一般的なパターンを認識できるようになり、あまり広く話されていない言語でも処理がより簡単になった。話された言葉がどのように聞こえるはずかということに関して、ある程度の基準をすでに持っていたためである。

このシステムはオープンソースであり、研究チームは、現在の機能が基盤となって他の研究者による開発が促進されることを期待している。しかし、利用可能な他のツールと比較した場合のこのモデルの有用性については、懐疑的な意見もある。「グーグルの翻訳モデルはSeamlessM4Tほどオープンソースではありませんが、反応性や処理速度がはるかに高く、学術的な利用ではコストが一切かかりません」と、ジャイスワル准教授は言う。

メタのシステムに関して最も魅力的な点は、そう遠くない未来にさまざまな言語間の即時通訳が実現する可能性を指し示していることである。それはまるで、ダグラス・アダムスのカルトSF小説『銀河ヒッチハイク・ガイド』に登場する、バベル魚のようなものだ。SeamlessM4Tは既存のモデルより速いが、それでもまだ即時ではない。とはいえ、メタの主張によれば、人間の通訳者と同じくらい処理が速い、新しいバージョンのSeamlessM4Tがすでにあるという。

「このような種類の翻訳は遅延があってもいいし、有用ですが、同時翻訳の方がさらにいっそう役に立つと思います」と、テキサス大学アーリントン校のアーリントン計算言語学研究所の所長で、この新たな研究には関わっていないケニー・チュウは言う。

人気の記事ランキング
  1. Inside the tedious effort to tally AI’s energy appetite 動画生成は別次元、思ったより深刻だったAIの電力問題
  2. Promotion Call for entries for Innovators Under 35 Japan 2025 「Innovators Under 35 Japan」2025年度候補者募集のお知らせ
  3. IBM aims to build the world’s first large-scale, error-corrected quantum computer by 2028 IBM、世界初の大規模誤り訂正量子コンピューター 28年実現へ
  4. What is vibe coding, exactly? バイブコーディングとは何か? AIに「委ねる」プログラミング新手法
スコット・J・マリガン [Scott J Mulligan]米国版 AI担当記者
政策、ガバナンス、AIの内部構造などを取材するAI担当記者。AIに特化した若手ジャーナリスト育成プログラム「ターベル・フェローシップ(Tarbell Fellowship)」の支援を受けている。ヴァイス(VICE)ニュースでのドキュメンタリー映像制作、ビデオゲーム・デザイナーなどを経て現職。
日本発「世界を変える」U35イノベーター

MITテクノロジーレビューが20年以上にわたって開催しているグローバル・アワード「Innovators Under 35 」。世界的な課題解決に取り組み、向こう数十年間の未来を形作る若きイノベーターの発掘を目的とするアワードの日本版の最新情報を発信する。

特集ページへ
MITTRが選んだ 世界を変える10大技術 2025年版

本当に長期的に重要となるものは何か?これは、毎年このリストを作成する際に私たちが取り組む問いである。未来を完全に見通すことはできないが、これらの技術が今後何十年にもわたって世界に大きな影響を与えると私たちは予測している。

特集ページへ
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る