ニューズラインエマージング・テクノロジーの最新情報をお届け。

A new algorithm can mimic your voice with just snippets of audio

バイドゥ、たった10個のサンプルからそっくりな音声合成に成功

バイドゥ（Baidu）は、ニューラル・ネットワークを用いて、驚くほどうまく声を模倣できるシステムを開発した。

人工知能（AI）は通常、ある人の声を再合成するために、その人の話し声の録音を何時間分も聞く必要がある。だが、新しいシステムでは、それを1分間にまで短縮できる。バイドゥの研究者が発表した、テキストから音声を合成するシステム「ディープ・ボイス（Deep Voice）」のアップグレード版は今や、音声の断片をいくつか聞けばどんな声でも模倣できる。

ディープ・ボイスによる音声の模倣は、聞くサンプルの数が多いほどよい結果となる。しかし、それぞれ5秒未満のたった10個のサンプルから生成した合成音声であっても、音声認識システムを95％以上の確率で欺くことができた。バイドゥは、模倣した合成音声のいくつかをサーバー上に置いて、誰でも聞けるようにしている。

もちろん、不都合な点もある。このようなテクノロジーは、声を使用する生体認証システムのセキュリティを大きく損なう可能性がある。人々は、すでに送信元を友達と偽った電子メールの罠に落ちている。母親が電話してお金を借りようとしているふうに聞こえたら、どうなるのだろう？

jackie.snow [Jackie Snow] 2018.03.01, 7:55

日本発「世界を変える」U35イノベーター: MITテクノロジーレビューが20年以上にわたって開催しているグローバル・アワード「Innovators Under 35 」。世界的な課題解決に取り組み、向こう数十年間の未来を形作る若きイノベーターの発掘を目的とするアワードの日本版の最新情報を発信する。
特集ページへ

MITテクノロジーレビューは有料会員制サイトです

有料会員になると、毎月150本以上更新されるオリジナル記事が読み放題！