アーロン・ヴァン・デン・オード(ディープマインド)

Aäron van den Oord アーロン・ヴァン・デン・オード(ディープマインド)

機械学習を利用して、驚くほど人間そっくりの人工音声を生み出すAIシステムを開発した。 by MIT Technology Review Editors2022.01.13

アーロン・ヴァン・デン・オード博士は、画像生成の研究で受賞したばかりの2016年、あるアイデアが浮かんだ。自分が開発した技術がピクセルの2次元シーケンスを予測することを学習できるなら、波形を予測することを学習してリアルな音声を生成することも可能ではないか? 興味深いアイデアだったが、実現は難しそうだった。グーグルの人工知能(AI)研究子会社であるディープマインド(DeepMind)の上司は、「もしうまくいかなかったら別のアイデアに進んで」と伝え、ヴァン・デン・オード博士に2週間の猶予を与えた。

結果は皆の予想を上回るものだった。ヴァン・デン・オード博士は2週間もしないうちにプロトタイプを作成した。3カ月後には既存のどのシステムよりも人間そっくりの音声を生成できるようになった。さらに1年後には、グーグルは、「ウェーブネット(WaveNet)」と呼ばれるようになったこのシステムをグーグル・アシスタントの音声生成に利用し始めた。

ウェーブネットは現在、51種類の音声と、ユーザーに代わってサロンやレストランに電話をかけて席を予約をするグーグルの最新音声アシスタントで使われている。生成される音声は、驚くほど人間そっくりだ。グーグルのサンダー・ピチャイCEO(最高経営責任者)が2018年に「デュープレックス(Duplex)」を初めてデモしたとき、「うーん」や「あー」という人間らしい声のすべてが、人と機械がコミュニケーションするときにできることの基準を引き上げたことを印象付けた。

音声アシスタントには、単に合成音声を生成するだけでなく、相手が話していることを認識し、その内容を理解することも求められる。それぞれ課題がある。研究者は長年、自然で相手とかみ合った会話を実現できる人工音声の開発を探求してきた。「1つの声には多くの意味があります」とヴァン・デン・オード博士は言う。

(Karen Hao)