KADOKAWA Technology Review
×
IU35 2025受賞者が集結するSummitを12/17開催!来場申込受付中。
「あなたの声」のまま変換、グーグルの新しい翻訳システム
EMILIO MORENATTI/AP
Google’s AI can now translate your speech while keeping your voice

「あなたの声」のまま変換、グーグルの新しい翻訳システム

グーグルが、ある言語で入力した音声を、話者の声の特徴を保ったまま別の言語の音声で出力する自動翻訳システムを開発した。ある言語での話者の「声紋」を別の言語にマッピングするように訓練したニューラルネットワークを利用する。 by Karen Hao2019.05.22

このスペイン語の音声クリップを聞いてみよう。

この音声クリップを従来の自動翻訳システムで英語に翻訳すると、次のようになる。

そしてこちらが、グーグルの新しい自動翻訳システムを利用した場合のものである。

完璧ではないものの、グーグルの翻訳システムでは、元の話者の声と口調がある程度維持されていることがわかる。グーグルの翻訳システムは、音声入力を音声出力に直接変換しているからだ。その間に他のステップはない。それに対して従来の翻訳システムは、音声を一旦テキストに変換し、そのテキストを翻訳した後、再度音声を合成している。そのため、その過程で元の声の特徴が失われてしまう。

トランスラトトロン(Translatotron)」と名付けられたこの新しいシステムには3つのコンポーネントがあり、そのすべてが、話者の音声スペクトログラムを調べている。音声スペクトログラムとは、再生されている音の周波数分布のスナップショットを視覚化したもので、一般的に声紋と呼ばれる。トランスラトトロンの最初のコンポーネントでは、入力言語の声紋を出力言語の声紋にマッピングするように訓練したニューラル・ネットワークを使用する。2つめのコンポーネントは、マッピングした声紋を、再生可能な音声の波形に変換する。その後、3つめのコンポーネントが、元の話者の声の特徴を、最終的な音声出力に被せて戻す。

このアプローチによって、言葉には表されない重要な情報が維持され、より繊細な表現の翻訳が可能になるだけでなく、理論的には、翻訳ミスが最小限に抑えられる。ステップがより少なくなるからだ。

トランスラトトロンは現在、研究者らが概念実証をしている段階だ。テストでは、精選された訓練用データがすでに大量に確保されているスペイン語から英語への翻訳だけを試みている。だが、上の音声クリップを聞くと、いずれは商用システムとして実用化される可能性がありそうだ。その他の音声クリップはこちらから確認できる。

人気の記事ランキング
  1. Quantum physicists have shrunk and “de-censored” DeepSeek R1 量子技術でDeepSeekを55%小型化、「検閲解除」にも成功
  2. Promotion Innovators Under 35 Japan Summit 2025 2025年のイノベーターが集結「IU35 Summit」参加者募集
  3. Google’s new Gemini 3 “vibe-codes” responses and comes with its own agent グーグルが「Gemini 3」発表、質問に応じて回答形式もAIが判断
カーレン・ハオ [Karen Hao]米国版 寄稿者
受賞歴のあるフリー・ジャーナリスト。人工知能が社会に与える影響について取材している。ウォール・ストリート・ジャーナル紙の海外特派員として中国のテクノロジー業界を担当。2022年4月まではMITテクノロジーレビューのAI担当上級編集者を務めた。
日本発「世界を変える」U35イノベーター

MITテクノロジーレビューが20年以上にわたって開催しているグローバル・アワード「Innovators Under 35 」。世界的な課題解決に取り組み、向こう数十年間の未来を形作る若きイノベーターの発掘を目的とするアワードの日本版の最新情報を発信する。

特集ページへ
気候テック企業10 2025

MITテクノロジーレビューは毎年、気候テック分野で注目すべき企業を選出し、その一覧を発表している。 新たなクリーン・エネルギー源の創出や、食品生産・物流の再構築といった形で経済の主要セクターの脱炭素化に取り組む注目企業10社を紹介しよう。

特集ページへ
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る