バイドゥ、たった10個のサンプルからそっくりな音声合成に成功

バイドゥ（Baidu）は、ニューラル・ネットワークを用いて、驚くほどうまく声を模倣できるシステムを開発した。

人工知能（AI）は通常、ある人の声を再合成するために、その人の話し声の録音を何時間分も聞く必要がある。だが、新しいシステムでは、それを1分間にまで短縮できる。バイドゥの研究者が発表した、テキストから音声を合成するシステム「ディープ・ボイス（Deep Voice）」のアップグレード版は今や、音声の断片をいくつか聞けばどんな声でも模倣できる。

ディープ・ボイスによる音声の模倣は、聞くサンプルの数が多いほどよい結果となる。しかし、それぞれ5秒未満のたった10個のサンプルから生成した合成音声であっても、音声認識システムを95％以上の確率で欺くことができた。バイドゥは、模倣した合成音声のいくつかをサーバー上に置いて、誰でも聞けるようにしている。

もちろん、不都合な点もある。このようなテクノロジーは、声を使用する生体認証システムのセキュリティを大きく損なう可能性がある。人々は、すでに送信元を友達と偽った電子メールの罠に落ちている。母親が電話してお金を借りようとしているふうに聞こえたら、どうなるのだろう？

A new algorithm can mimic your voice with just snippets of audio バイドゥ、たった10個のサンプルからそっくりな音声合成に成功