KADOKAWA Technology Review
×
【本日最終日!!】年間サブスク20%オフのお得な【春割】実施中
「あなたの声」のまま変換、グーグルの新しい翻訳システム
EMILIO MORENATTI/AP
Google’s AI can now translate your speech while keeping your voice

「あなたの声」のまま変換、グーグルの新しい翻訳システム

グーグルが、ある言語で入力した音声を、話者の声の特徴を保ったまま別の言語の音声で出力する自動翻訳システムを開発した。ある言語での話者の「声紋」を別の言語にマッピングするように訓練したニューラルネットワークを利用する。 by Karen Hao2019.05.22

このスペイン語の音声クリップを聞いてみよう。

この音声クリップを従来の自動翻訳システムで英語に翻訳すると、次のようになる。

そしてこちらが、グーグルの新しい自動翻訳システムを利用した場合のものである。

完璧ではないものの、グーグルの翻訳システムでは、元の話者の声と口調がある程度維持されていることがわかる。グーグルの翻訳システムは、音声入力を音声出力に直接変換しているからだ。その間に他のステップはない。それに対して従来の翻訳システムは、音声を一旦テキストに変換し、そのテキストを翻訳した後、再度音声を合成している。そのため、その過程で元の声の特徴が失われてしまう。

トランスラトトロン(Translatotron)」と名付けられたこの新しいシステムには3つのコンポーネントがあり、そのすべてが、話者の音声スペクトログラムを調べている。音声スペクトログラムとは、再生されている音の周波数分布のスナップショットを視覚化したもので、一般的に声紋と呼ばれる。トランスラトトロンの最初のコンポーネントでは、入力言語の声紋を出力言語の声紋にマッピングするように訓練したニューラル・ネットワークを使用する。2つめのコンポーネントは、マッピングした声紋を、再生可能な音声の波形に変換する。その後、3つめのコンポーネントが、元の話者の声の特徴を、最終的な音声出力に被せて戻す。

このアプローチによって、言葉には表されない重要な情報が維持され、より繊細な表現の翻訳が可能になるだけでなく、理論的には、翻訳ミスが最小限に抑えられる。ステップがより少なくなるからだ。

トランスラトトロンは現在、研究者らが概念実証をしている段階だ。テストでは、精選された訓練用データがすでに大量に確保されているスペイン語から英語への翻訳だけを試みている。だが、上の音声クリップを聞くと、いずれは商用システムとして実用化される可能性がありそうだ。その他の音声クリップはこちらから確認できる。

人気の記事ランキング
  1. AI companions are the final stage of digital addiction, and lawmakers are taking aim SNS超える中毒性、「AIコンパニオン」に安全対策求める声
  2. Here’s why we need to start thinking of AI as “normal” AIは「普通」の技術、プリンストン大のつまらない提言の背景
カーレン・ハオ [Karen Hao]米国版 寄稿者
受賞歴のあるフリー・ジャーナリスト。人工知能が社会に与える影響について取材している。ウォール・ストリート・ジャーナル紙の海外特派員として中国のテクノロジー業界を担当。2022年4月まではMITテクノロジーレビューのAI担当上級編集者を務めた。
▼Promotion
年間購読料 春割20%off
MITTRが選んだ 世界を変える10大技術 2025年版

本当に長期的に重要となるものは何か?これは、毎年このリストを作成する際に私たちが取り組む問いである。未来を完全に見通すことはできないが、これらの技術が今後何十年にもわたって世界に大きな影響を与えると私たちは予測している。

特集ページへ
日本発「世界を変える」U35イノベーター

MITテクノロジーレビューが20年以上にわたって開催しているグローバル・アワード「Innovators Under 35 」。世界的な課題解決に取り組み、向こう数十年間の未来を形作る若きイノベーターの発掘を目的とするアワードの日本版の最新情報を発信する。

特集ページへ
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る