バイドゥ、音声合成の調整を深層学習で短縮しグーグルを出し抜く
バイドゥの人工知能研究所が、グーグルの子会社ディープマインドを上回る成果を発表した。グーグルの研究では実用化が難しかった音声合成の微調整を、深層学習により、人間が関わらずに数時間で完了できるようにしたのだ。 by Emerging Technology from the arXiv2017.03.09
深層学習の手法を実社会に適用する競争では、1社が独走の状態だ。グーグルの子会社であるディープマインドは、ビデオゲームや古典的ゲーム「囲碁」で人間を打ち負かせる機械の開発に強化学習を使った。さらに昨年に、グーグルの翻訳サービスがバックエンドで深層学習の手法を導入したことで、翻訳精度が劇的に改善された。
こうなると、競合他社がグーグルに追いつくため、どう奔走しているのかを見るのは興味深い。今回は「中国版グーグル」と称されることもあるインターネット検索企業バイドゥの出番だ。バイドゥは2013年に人工知能研究所をシリコンバレーに開設した。「この研究所は最近何をしているのか?」は興味深い疑問ではないだろうか。
バイドゥの人工知能研究所は、音声合成の研究を初公開した。音声を合成できるまでに必要な微調整の量をどう削減できるか、という音声合成における課題のひとつに挑んだ研究だ。バイドゥはこの点で、人間がほとんど干渉せずに済む深層学習マシンを開発し、大きな飛躍を遂げた。ほとんど、あるいはまったく人間が干渉することなく、わずか数時間で話すことを学習できるテキスト読み上げ(Text-to-Speech)システム「ディープ・ボイス」を成果として発表したのだ。
まず、いくつかの背景について説明しておこう。テキスト読み上げシステムは、案内アプリや音声時計、電話応答システムなど、私たちの日常にありふれている。ただし、従来の音声合成システムは、ひとりの人物の話す言葉を録音して巨大データベースを作り、発声を組み替えて新しいフレーズを作る方法で開発されてきた。
従来型システムには、新しい話し手への切り替えや音声データベースを完全に新しく作り替えずに語勢を変えにくいのが難点だった。そこでコンピューター科学者は、必要なときにゼロからリアルタイムで音声を合成することを目標に、別の手法に取り組んできた。
昨年、グーグル子会社ディープマインドは、この研究領域で重大な飛躍を果たした。ディープマインドは、実際の会話の …
- 人気の記事ランキング
-
- What’s next for Chinese open-source AI ディープシーク騒動から1年 中国のオープンモデルが 世界の開発者を席巻している
- Promotion Emerging Technology Nite #36 Special 【3/9開催】2026年版「新規事業の発想と作り方」開催のお知らせ
- EVs could be cheaper to own than gas cars in Africa by 2040 アフリカでEVがガソリン車より安くなる日——鍵は「太陽光オフグリッド」
- Is a secure AI assistant possible? 大手が出せなかったAI 「OpenClaw」の衝撃 安全性対策に特効薬なし
- RFK Jr. follows a carnivore diet. That doesn’t mean you should. 「肉か発酵食品しか食べない」米保健長官が目指す「健康な米国」
