KADOKAWA Technology Review
×
来たれ、世界を変える若きイノベーター
「Innovators Under 35」日本初開催!
Face of a Robot, Voice of an Angel?

いつも感じる、あれは機械の声
肉声に聞こえる音声合成技術

ディープマインドのニューラルネットワークを使った音声合成で、ついにコンピューターの声が人間らしくなった。 by Jamie Condliffe2016.09.12

コンピューターにテキストを音声に変換させると、人間の声とは異なる、周波数の微妙な揺らぎを感じるはずだ。グーグルの機械学習系子会社ディープマインドは、人工知能による音声合成の新システムを開発し、この問題を解決しようとしている。

コンピューターに発話させるのは新しい試みではない。最も一般的なアプローチは、ある人の膨大な数の録音から採取した音の断片をつなぎ合わせることだろう。「素片接続型」と呼ばれる手法では、音の断片をつなげて音節や単語、文を合成する。だが、コンピューター出力の発話にはノイズやイントネーションの不自然な変化、発音のばらつきなどの問題がある。一方で、「パラメトリック音声合成」と呼ばれる手法では、数学的モデルで再現した既定の音節から単語や文を組み立てる。不具合を起こしにくい反面、いかにもロボットな音声になってしまうのが欠点だ。

2つの手法の共通点は、音声波形全体を生成するのではなく、音節をつなぎ合わせていることだ。

ところが、ディープマインドの手法では、音声波形全体を生成する。「WaveNet」(ディープマインドの音声生成モデル)の畳み込みニューラルネットワークは、本物の人間の音声の断片と、対応する言語学的、音声学的な特徴を与えることで、2つに関連するパターンを識別できるように訓練される。音声を出力するとき、WaveNetには音声の特徴をテキストから生成した与え、テキストから再生されるべき音の波形全体を未加工の状態で作り出す。最初のサンプルを作り、既存のサンプルの情報を参照して次のサンプルを生成する処理を繰り返すことで、音波を完成させる仕組みだ。

研究成果は、十分納得のいく聞き心地だ。素片接続型やパラメトリック音声合成に比べて、はるかに人間的な音声だ。

ただし、難点がある。この手法は膨大な計算量が必要で、波形全体の生成に、WaveNetは毎秒1万6000ものサンプルを作るため、ニューラルネットワークのプロセスを使わなくてはいけない(しかも合成音声の品質はせいぜい電話かVoIPと同レベルだ)。ファイナンシャルタイムズ紙(有料会員のみの記事)によると、ディープマインドの話では現在のところ、WaveNetがグーグル製品に採用される計画はない。

もちろん、不自然な発話は、コンピューターが直面する言語上の唯一の問題ではない。音声や言葉の解釈も、人工知能システムには異常なほど難しい。少なくともこの調子でいけば、コンピューターが真の知性を獲得するための手段をすべて得たとき、コンピューターは得意げにできるようになったことを人間に教えてくれることだろう。

(関連記事:DeepMind, Financial Times, “AI’s Language Problem”)

人気の記事ランキング
  1. There might be even more underground reservoirs of liquid water on Mars 火星の南極に新たな地下湖、生命体が見つかる可能性も
  2. Satellite mega-constellations risk ruining astronomy forever 増え続ける人工衛星群で天体観測が台無し、解決策はあるか?
  3. Room-temperature superconductivity has been achieved for the first time 世界初、15°C「室温超伝導」達成 夢の新技術へ突破口
  4. Astronauts on the ISS are hunting for the source of another mystery air leak ISSで再び原因不明の空気漏れ、乗組員が発生場所を調査中
  5. How to talk to conspiracy theorists—and still be kind 「あなただけが特別ではない」陰謀論者と対話する10のヒント
ジェイミー コンドリフ [Jamie Condliffe]米国版 ニュース・解説担当副編集長
MIT Technology Reviewのニュース・解説担当副編集長。ロンドンを拠点に、日刊ニュースレター「ザ・ダウンロード」を米国版編集部がある米国ボストンが朝を迎える前に用意するのが仕事です。前職はニューサイエンティスト誌とGizmodoでした。オックスフォード大学で学んだ工学博士です。
Innovators Under 35 Japan 2020

MITテクノロジーレビューが主催するグローバル・アワード「Innovators Under 35」が2020年、日本に上陸する。特定の分野や業界だけでなく、世界全体にとって重要かつ独創的なイノベーターを発信していく取り組みを紹介しよう。

記事一覧を見る
人気の記事ランキング
  1. There might be even more underground reservoirs of liquid water on Mars 火星の南極に新たな地下湖、生命体が見つかる可能性も
  2. Satellite mega-constellations risk ruining astronomy forever 増え続ける人工衛星群で天体観測が台無し、解決策はあるか?
  3. Room-temperature superconductivity has been achieved for the first time 世界初、15°C「室温超伝導」達成 夢の新技術へ突破口
  4. Astronauts on the ISS are hunting for the source of another mystery air leak ISSで再び原因不明の空気漏れ、乗組員が発生場所を調査中
  5. How to talk to conspiracy theorists—and still be kind 「あなただけが特別ではない」陰謀論者と対話する10のヒント
MITテクノロジーレビュー[日本版] Vol.1/Autumn 2020
MITテクノロジーレビュー[日本版] Vol.1/Autumn 2020AI Issue

技術動向から社会実装の先進事例、倫理・ガバナンスまで、
AI戦略の2020年代のあたらしい指針。

詳細を見る
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る