「フェイク音声」時代到来か？FB研究員が作ったゲイツそっくりさん

フェイスブックのAI研究者グループは、深層学習のアルゴリズムを使って、あらゆる人の声を本物そっくりに複製できる音声合成システムを開発した。現状のシステムよりもずっと人間に近い形でやり取りを自動化できるようになる可能性がある。 by Emerging Technology from the arXiv2019.06.14

機械の音声にはがっかりさせられる。最高の音声読み上げシステムでも品質は機械的であり、人間が使うイントネーションの基本的な変化がない。代表的な例として、これまで多く複製されてきたスティーヴン・ホーキング博士の音声合成システムがあげられる。

近年の機械学習における大きな進歩を考えると、このことは驚きに値する。確かに、顔や物体を認識して、それらのリアルな画像を再現することに長けているこの技術は、音声に関しても同様に機能しそうだ。しかし、現実はそうではない。

少なくとも、これまでは上手くいかなかった。そこで、フェイスブック人工知能（AI）研究所のメンバーであるショーン・ヴァスケスとマイク・ルイスの出番だ。2人は音声読み上げシステムの限界を克服し、完全に機械から生成された非常にリアルな音声クリップを作り出す方法を編み出した。彼らが作った「メルネット（MelNet）」と呼ばれる機械は、人間のイントネーションを再現するだけでなく、実際の人物と同じ声を再現できる。このチームは特に、ビル・ゲイツを真似て話すよう機械を訓練した。ヴァスケスとルイスの研究は、人間とコンピューターの間のよりリアルな対話の可能性を開く一方で、フェイク音声コンテンツの新時代到来に対する不安を引き起こす。

まずは背景的な話をしよう。本物の人間のようにテキストを読み上げるシステムの進歩が遅いのは、試みが欠如していたからではない。これまで多くのチームが、大量の音声データベースを使い、深層学習アルゴリズムを訓練して、実際の人間のような音声パターンを再現する試みをしてきた。

このアプローチにおける問題はデータの種類にあると、ヴェスケスとルイスは話す。これまでのほとんどの取り組みは、音声波形の記録データに焦点を当ててきた。音声波形の記録データでは、秒単位の録音において、音の振幅が経時的にどう変化しているかを、何万というタイムステップで構成された音声データにより示している。

音声波形は、さまざまに異なる時間尺度で特定のパターンを示す。例えば数秒間の発話では、波形は単語の配列に関係する特徴的なパターンを示す。しかし、マイクロ秒単位では、波形は声の高低と音色に関係した特性を表す。さらに、別の尺度では、波形は話し手のイントネーションや音素構造などを示す。

こうしたパターンについての別の考え方として、あるタイムステップと次のタイムステップにおける波形の …

こちらは有料会員限定の記事です。 有料会員になると制限なしにご利用いただけます。

有料会員にはメリットがいっぱい！

毎月120本以上更新されるオリジナル記事で、人工知能から遺伝子療法まで、先端テクノロジーの最新動向がわかる。
オリジナル記事をテーマ別に再構成したPDFファイル「eムック」を毎月配信。
重要テーマが押さえられる。
各分野のキーパーソンを招いたトークイベント、関連セミナーに優待価格でご招待。

人気の記事ランキング