Aäron van den Oord アーロン・ヴァン・デン・オード (33)
機械学習を利用して、驚くほど人間そっくりの人工音声を生み出すAIシステムを開発した。
アーロン・ヴァン・デン・オード博士は、画像生成の研究で受賞したばかりの2016年、あるアイデアが浮かんだ。自分が開発した技術がピクセルの2次元シーケンスを予測することを学習できるなら、波形を予測することを学習してリアルな音声を生成することも可能ではないか? 興味深いアイデアだったが、実現は難しそうだった。グーグルの人工知能(AI)研究子会社であるディープマインド(DeepMind)の上司は、「もしうまくいかなかったら別のアイデアに進んで」と伝え、ヴァン・デン・オード博士に2週間の猶予を与えた。
結果は皆の予想を上回るものだった。ヴァン・デン・オード博士は2週間もしないうちにプロトタイプを作成した。3カ月後には既存のどのシステムよりも人間そっくりの音声を生成できるようになった。さらに1年後には、グーグルは、「ウェーブネット(WaveNet)」と呼ばれるようになったこのシステムをグーグル・アシスタントの音声生成に利用し始めた。
ウェーブネットは現在、51種類の音声と、ユーザーに代わってサロンやレストランに電話をかけて席を予約をするグーグルの最新音声アシスタントで使われている。生成される音声は、驚くほど人間そっくりだ。グーグルのサンダー・ピチャイCEO(最高経営責任者)が2018年に「デュープレックス(Duplex)」を初めてデモしたとき、「うーん」や「あー」という人間らしい声のすべてが、人と機械がコミュニケーションするときにできることの基準を引き上げたことを印象付けた。
音声アシスタントには、単に合成音声を生成するだけでなく、相手が話していることを認識し、その内容を理解することも求められる。それぞれ課題がある。研究者は長年、自然で相手とかみ合った会話を実現できる人工音声の開発を探求してきた。「1つの声には多くの意味があります」とヴァン・デン・オード博士は言う。
(Karen Hao)
- 人気の記事ランキング
-
- This company claims a battery breakthrough. Now they need to prove it. すべてのパラメーターが矛盾——「出来すぎ」全固体電池は本物か?
- OpenAI’s “compromise” with the Pentagon is what Anthropic feared アンソロピック排除の裏で進んだオープンAIの軍事契約、その代償は
- AI is rewiring how the world’s best Go players think 「アルファ碁」から10年、 AIは囲碁から 創造性を奪ったのか
- How uncrewed narco subs could transform the Colombian drug trade 中には誰もいなかった—— コカイン密輸組織が作った 「自律潜水ドローン」の脅威