KADOKAWA Technology Review
×
【締め切り迫る!1/20まで】年間購読料20%オフ & マガジン1冊プレゼントキャンペーン 実施中!
グーグルが超格安チップでも動く音声認識アルゴリズムを開発中
Flickr | msantos7
For Disposable Voice Recognition, Take Cheap Chips and Add Simple AI

グーグルが超格安チップでも動く音声認識アルゴリズムを開発中

グーグルの研究チームが使い捨てできるほど安価なチップで音声認識を実現しようとしている。まだ開発中だが、クラウドに処理を頼らないことで、音声認識の用途が広がる可能性がある。 by Jamie Condliffe2017.09.27

ピート・ワーデンは人々に音声認識ハードウェアをゴミ箱に捨て去って欲しいと考えている。一度だけではない。買って買って買い続けて欲しいのだ。グーグルの技術者であるワーデンは、音声認識機器を使い捨てできるくらい安価にすることを目指している。

ワーデンのアイデアはとても単純だ。音声処理には通常ニューラル・ネットワークが使われているが、安価なチップでも音声処理が可能になるところまで効率を上げるというものだ。「目標は、シンプルな音声認識が可能で、コイン型電池で1年間使用できる50セントのチップです」と、英国ケンブリッジで開かれたARM研究者サミットで語った。「まだそこまでには至っていませんが、現状のテクノロジーでも実現可能だと考えています」。

そこまで低価格でハードウェアが使い捨てできれば、これまで想像ができないような使用方法の道が開けることになる。この機器を使用して、たとえば、子供の呼びかけに応える安価な人形や、音声で電源が操作できる照明のような、シンプルな家電が作れるようになる。産業分野でも、人工知能(AI)の用途が見出せるとワーデンは述べている。何百ものセンサーを使って、工場設備の歯車のきしみの兆候や、農場内のコオロギの鳴き声など、音声以外の音の検知にも利用できるというのだ。

ワーデンはグーグルで「テンサーフロー(TensorFlow)」というクラウドAIツールの、モバイルおよび組み込み用アプリケーションを開発するチームを率いている。音声認識に対する自身の取り組みの難しさを認識している。たとえば、アマゾンのAIアシスタントであるアレクサ(Alexa)を作動させているAIの処理を切り詰めて、数百メガヘルツのクロック・スピードのシンプルな電池式のチップで動作できるようにするのは非現実的だ。アレクサが多くの異なる音声を翻訳しなければならないことも1つの理由だが、大部分の音声認識用AIが、巨大なニューラルネットワークを使用していることがその原因である。アレクサが、音声認識の処理をクラウドに送っているのもそのためである。

そこでワーデンは、音声認識の対象を制限した。「オン」「オフ」「スタート」「ストップ」などの、ごく一部の重要な指示に絞り込むことを目指したのだ。ワーデンはまた、通常の音声認識アルゴリズムを簡略化した。その代わりに、音声を細分化して短い断片にした音声クリップを使用し、それらの周波数成分を算出した。その周波数プロットを1つずつ時系列に並べ、時間と周波数成分の2次元画像を作成して、特定の言葉を発している独特のサインを検知する視覚認識アルゴリズムを採用している。

ワーデンのチームの最初の試みでは、1秒の音声クリップの分析に800万回の計算を要し、精度は89パーセントであった。これは現行のスマートフォンに搭載可能であり、会話のやり取りも十分可能な速度であるため、クラウドに処理を送るよりも有利である。しかし、この方法は低消費電力のチップでは正常に作動しない。研究チームが試しに、アンドロイド搭載のスマホに「オーケー、グーグル」というフレーズを認識させるグーグルのアルゴリズム・トリック(algorithmic tricks)を使ってみると、システムが1秒の発言の分析に要したのはわずか75万回の計算であり、精度は85パーセントであった。

ワーデンのチームは、他の人々にもこのアルゴリズムを使用してもらうために、テンサーフローのWebサイトにコードを公開した。現在チームは、スマホやラズベリーパイ(Raspberry Pis)で使用されているチップ上でソフトウェアを実行している。ラズベリーパイは、非常に廉価なシングルボード・コンピューターで、今後はアルドゥイーノ(Arduino)のボードに見られるような、より小型のチップ上でこの音声認識ソフトを動作させることを目指している。

以前、英国ケンブリッジ大学でAIの研究に従事していた、音声認識企業スピーチマティックス(Speechmatics)のトニー・ロビンソン最高技術責任者(CTO)はワーデンの試みを支持しており、近い将来、こういったアプローチが音声認識の一般への普及に貢献すると主張している。だが、これらの限定的なAIの構築には問題もあるとロビンソンCTOは見ている。「人々は台本どおりには言葉を話しません」といい、制約の中で音声認識を利用するほど、人間は寛容ではないと説明する。

ロビンソンCTOはむしろ、グーグル・アシスタントやアマゾンのアレクサに見られる言語機能をより高める、いくらか消費電力が多いチップのほうが消費者向けのアプリケーションには向いている可能性をほのめかした。

 

人気の記事ランキング
  1. Don’t panic about the latest coronavirus mutations, say drug companies 新型コロナ「変異種」を過度に恐れる必要がないこれだけの理由
  2. Don’t worry, the earth is doomed 人類を滅亡に導く、15の破壊的リスク
  3. Singapore’s police now have access to contact tracing data シンガポールの接触追跡アプリが方針転換、犯罪捜査でも利用可に
  4. The kitchen of the future is here, it’s just not evenly distributed 電子レンジ、真空調理器超える「キッチン・テクノロジー」の未来
ジェイミー コンドリフ [Jamie Condliffe]米国版 ニュース・解説担当副編集長
MIT Technology Reviewのニュース・解説担当副編集長。ロンドンを拠点に、日刊ニュースレター「ザ・ダウンロード」を米国版編集部がある米国ボストンが朝を迎える前に用意するのが仕事です。前職はニューサイエンティスト誌とGizmodoでした。オックスフォード大学で学んだ工学博士です。
Innovators Under 35 Japan 2020

MITテクノロジーレビューが主催するグローバル・アワード「Innovators Under 35」が2020年、日本に上陸する。特定の分野や業界だけでなく、世界全体にとって重要かつ独創的なイノベーターを発信していく取り組みを紹介しよう。

記事一覧を見る
人気の記事ランキング
  1. Don’t panic about the latest coronavirus mutations, say drug companies 新型コロナ「変異種」を過度に恐れる必要がないこれだけの理由
  2. Don’t worry, the earth is doomed 人類を滅亡に導く、15の破壊的リスク
  3. Singapore’s police now have access to contact tracing data シンガポールの接触追跡アプリが方針転換、犯罪捜査でも利用可に
  4. The kitchen of the future is here, it’s just not evenly distributed 電子レンジ、真空調理器超える「キッチン・テクノロジー」の未来
MITテクノロジーレビュー[日本版] Vol.2/Winter 2020
MITテクノロジーレビュー[日本版] Vol.2/Winter 2020SDGs Issue

今、世界中の企業や機関の技術者・研究者たちが各地で抱える社会課題を解決し、持続可能な世界の実現へ向けて取り組んでいる「SDGs(持続可能な開発目標)」。
気候変動や貧困といった地球規模の課題の解決策としての先端テクノロジーに焦点を当て、解決に挑む人々の活動や、日本企業がSDGsを経営にどう取り入れ、取り組むべきか、日本が国際社会から期待される役割について、専門家の提言を紹介します。

詳細を見る
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る