A new AI translation system for headphones clones multiple voices simultaneously

複数話者の声と位置も識別、多言語通訳のAIヘッドフォン技術

4月末に横浜の国際会議で発表されたAIヘッドホン技術は、3つの言語から英語に翻訳された音声を、話者の方向から話者に似せた声で伝えることで、音声翻訳の最大の課題の1つである、多くの人が同時に話すという問題に対処している。 by Rhiannon Williams2025.05.13

友人たちといっしょにディナーに行くことを想像してみよう。彼らはあなたが話せない様々な言語を切り替えながら会話をしているが、それでも彼らが何を言っているのかを理解できるのだ。このシナリオは、複数の話者の音声を同時にリアルタイムで翻訳する新しい人工知能（AI）ヘッドホンシステムの着想となった。

「空間的音声翻訳（Spatial Speech Translation）」と呼ばれるこのシステムは、各話者の方向と声の特徴を追跡することで、グループの中で誰が何を言っているのかをヘッドホンを着用している人が特定できるようにする。

「世界中にはとても頭の良い人がたくさんいますが、言語の壁によって自信を持ってコミュニケーションを取れずにいます」と、このシステムのプロジェクトに携わったワシントン大学のシャイアム・ゴラコタ教授は言う。「私の母はテルグ語で話している時は信じられないようなアイデアを持っています。ですが、インドから米国を訪れたときに、米国の人々とコミュニケーションを取るのは非常に困難です。私たちは、空間的音声翻訳システムが、彼女のような人々に変革をもたらす可能性があると考えています」。

ライブAI翻訳システムは、ほかにも多く存在する。例えばメタ（Meta）のレイバン（Ray-Ban）スマートグラスで動作しているシステムは、複数の人が同時に話すのではなく、単一の話者に焦点を当てており、ロボット音声のように聞える自動翻訳を提供する。このシステムは、マイクを備えた既存の市販ノイズキャンセリング・ヘッドホンを、ニューラル・ネットワークをサポートできるアップルのM2シリコンチップを搭載したノートパソコンに接続して動作するように設計されている。同じチップは、アップルビジョンプロ（Apple Vision Pro）ヘッドセットにも搭載されている。ゴラコタ教授らの研究は、4月末に横浜で開催された「第43回 CHIカンファレンス（人と情報システムの相互作用に関する国際会議）」（ACM CHI Conference on Human Factors in Computing Systems）で発表された。

ここ数年、大規模言語モデル（LLM）が音声翻訳の大幅な改善を後押ししてきた。その結果、訓練データが大量に利用可能な言語間（今回の研究で使用された4つの言語など）の翻訳は、グーグル翻訳（Google Translate）やチャットGPT（ChatGPT）などのアプリではほぼ完璧に近い。しかし、多くの言語間でシームレスかつ瞬時に実行されるまでには至っていない。多くの言語間でのシームレスかつ瞬時の翻訳は、多くの企業が目指している目標だと、計算言語学を研究しているオランダのライデン大学の助教授で、ゴラコタ教授のプロジェクトには関与していないアリーナ・カラカンタは言う。「有用なアプリケーションだと感じます。人々の助けになるでしょう」。

空間的音声翻訳システムは2つのAIモデルで構成されている。1つ目のモデルは、ヘッドホンを装着している人の周囲の空間を小さな領域に分割し、ニューラルネットワークを使用して潜在的な話者を探索し、その方向を特定するものである。

2つ目のモデルは、公開されているデータセットを使用して、話者のフランス語、ドイツ語、またはスペイン語の言葉を英語のテキストに翻訳する。同じモデルが、ピッチや振幅など、各話者の声の固有の特徴と感情的なトーンを抽出し、それらの特性をテキストに適用することで、本質的に「複製された」声を作成する。その声は、話者の言葉を翻訳した音声が数秒後にヘッドホンの装着者に伝えられる際、あたかも話者の方向から聞こえてくるかのようであり、話者自身の声によく似ている。ロボットのようなコンピューターボイスではない。

「AIシステムにとって人間の声を分離することは十分に難しいことを考えると、その能力をリアルタイム翻訳システムに組み込み、装着者と話者の距離を測定し、実際のデバイスで適切な遅延を達成していることには感銘を受けます」と、カーネギーメロン大学の言語技術研究所（Language Technologies Institute）の博士研究員であり、ゴラコタ教授のプロジェクトには関わっていないサミュエル・コーネルは述べる。

「音声から音声へのリアルタイム翻訳は信じられないほど困難です」とコーネル博士は言う。「ゴラコタ教授らの結果は限定的なテストの設定では非常に良いものです。しかし、実際の製品のためには、純粋に合成データに頼るのではなく、ノイズやヘッドセットからの実世界の録音を含む、はるかに多くの訓練データが必要になるでしょう」。

ゴラコタ教授の研究チームは現在、話者が何かを言った後、AI翻訳が開始されるまでの時間を短縮することに注力している。これにより、異なる言語を話す人々の間で、より自然な会話が可能になるだろう。「遅延時間を1秒未満にまで大幅に短縮したいと本当に考えています。そうすれば、会話の雰囲気を維持できるからです」と同教授は述べる。

これは依然として大きな課題である。AIシステムがある言語を別の言語に翻訳できる速度は、言語の構造に依存するからである。空間的音声翻訳システムが訓練に用いた3つの言語では、フランス語から英語に翻訳するのが最も速く、次にスペイン語、そしてドイツ語の順であった。これは、他の言語とは異なり、ドイツ語では文の動詞と多くの意味が文の最後に置かれ、文の始めには置かれないことを反映している。そう述べるのは、ドイツのマインツにあるヨハネス・グーテンベルク大学の研究者で、同システムのプロジェクトには関わっていないクラウディオ・ファンティヌオーリ博士だ。

遅延を短くすると、翻訳の精度が下がる可能性があるとファンティヌオーリ博士は警告する。「翻訳をする前に待てば待つほど、より多くのコンテキストが得られ、翻訳の質が向上します。バランス取りの問題なのです」。

人気の記事ランキング

リアノン・ウィリアムズ [Rhiannon Williams]米国版ニュース担当記者: 米国版ニュースレター「ザ・ダウンロード（The Download）」の執筆を担当。MITテクノロジーレビュー入社以前は、英国「i （アイ）」紙のテクノロジー特派員、テレグラフ紙のテクノロジー担当記者を務めた。2021年には英国ジャーナリズム賞の最終選考に残ったほか、専門家としてBBCにも定期的に出演している。

▼Promotion