

Aäron van den Oord アーロン・ヴァン・デン・オード (33)
機械学習を利用して、驚くほど人間そっくりの人工音声を生み出すAIシステムを開発した。
アーロン・ヴァン・デン・オード博士は、画像生成の研究で受賞したばかりの2016年、あるアイデアが浮かんだ。自分が開発した技術がピクセルの2次元シーケンスを予測することを学習できるなら、波形を予測することを学習してリアルな音声を生成することも可能ではないか? 興味深いアイデアだったが、実現は難しそうだった。グーグルの人工知能(AI)研究子会社であるディープマインド(DeepMind)の上司は、「もしうまくいかなかったら別のアイデアに進んで」と伝え、ヴァン・デン・オード博士に2週間の猶予を与えた。
結果は皆の予想を上回るものだった。ヴァン・デン・オード博士は2週間もしないうちにプロトタイプを作成した。3カ月後には既存のどのシステムよりも人間そっくりの音声を生成できるようになった。さらに1年後には、グーグルは、「ウェーブネット(WaveNet)」と呼ばれるようになったこのシステムをグーグル・アシスタントの音声生成に利用し始めた。
ウェーブネットは現在、51種類の音声と、ユーザーに代わってサロンやレストランに電話をかけて席を予約をするグーグルの最新音声アシスタントで使われている。生成される音声は、驚くほど人間そっくりだ。グーグルのサンダー・ピチャイCEO(最高経営責任者)が2018年に「デュープレックス(Duplex)」を初めてデモしたとき、「うーん」や「あー」という人間らしい声のすべてが、人と機械がコミュニケーションするときにできることの基準を引き上げたことを印象付けた。
音声アシスタントには、単に合成音声を生成するだけでなく、相手が話していることを認識し、その内容を理解することも求められる。それぞれ課題がある。研究者は長年、自然で相手とかみ合った会話を実現できる人工音声の開発を探求してきた。「1つの声には多くの意味があります」とヴァン・デン・オード博士は言う。
(Karen Hao)
- 人気の記事ランキング
- The Biggest Questions: Are we alone in the universe? 地球外生命体は存在するか? 人類の先入観を超えた探索
- Google DeepMind wants to define what counts as artificial general intelligence 汎用人工知能(AGI)とは何か? ディープマインドが定義を提案
- Text-to-image AI models can be tricked into generating disturbing images AIモデル、「脱獄プロンプト」で不適切な画像生成の新手法
- This mathematician is making sense of nature’s complexity 幾何学で世界の複雑さを理解する、異才数学者の型破りな方法論