Aäron van den Oord アーロン・ヴァン・デン・オード (33)
機械学習を利用して、驚くほど人間そっくりの人工音声を生み出すAIシステムを開発した。
アーロン・ヴァン・デン・オード博士は、画像生成の研究で受賞したばかりの2016年、あるアイデアが浮かんだ。自分が開発した技術がピクセルの2次元シーケンスを予測することを学習できるなら、波形を予測することを学習してリアルな音声を生成することも可能ではないか? 興味深いアイデアだったが、実現は難しそうだった。グーグルの人工知能(AI)研究子会社であるディープマインド(DeepMind)の上司は、「もしうまくいかなかったら別のアイデアに進んで」と伝え、ヴァン・デン・オード博士に2週間の猶予を与えた。
結果は皆の予想を上回るものだった。ヴァン・デン・オード博士は2週間もしないうちにプロトタイプを作成した。3カ月後には既存のどのシステムよりも人間そっくりの音声を生成できるようになった。さらに1年後には、グーグルは、「ウェーブネット(WaveNet)」と呼ばれるようになったこのシステムをグーグル・アシスタントの音声生成に利用し始めた。
ウェーブネットは現在、51種類の音声と、ユーザーに代わってサロンやレストランに電話をかけて席を予約をするグーグルの最新音声アシスタントで使われている。生成される音声は、驚くほど人間そっくりだ。グーグルのサンダー・ピチャイCEO(最高経営責任者)が2018年に「デュープレックス(Duplex)」を初めてデモしたとき、「うーん」や「あー」という人間らしい声のすべてが、人と機械がコミュニケーションするときにできることの基準を引き上げたことを印象付けた。
音声アシスタントには、単に合成音声を生成するだけでなく、相手が話していることを認識し、その内容を理解することも求められる。それぞれ課題がある。研究者は長年、自然で相手とかみ合った会話を実現できる人工音声の開発を探求してきた。「1つの声には多くの意味があります」とヴァン・デン・オード博士は言う。
(Karen Hao)
- 人気の記事ランキング
-
- A tiny new open-source AI model performs as well as powerful big ones 720億パラメーターでも「GPT-4o超え」、Ai2のオープンモデル
- The coolest thing about smart glasses is not the AR. It’s the AI. ようやく物になったスマートグラス、真価はARではなくAIにある
- Geoffrey Hinton, AI pioneer and figurehead of doomerism, wins Nobel Prize in Physics ジェフリー・ヒントン、 ノーベル物理学賞を受賞
- Why OpenAI’s new model is such a big deal GPT-4oを圧倒、オープンAI新モデル「o1」に注目すべき理由