For Disposable Voice Recognition, Take Cheap Chips and Add Simple AI

グーグルが超格安チップでも動く音声認識アルゴリズムを開発中

グーグルの研究チームが使い捨てできるほど安価なチップで音声認識を実現しようとしている。まだ開発中だが、クラウドに処理を頼らないことで、音声認識の用途が広がる可能性がある。 by Jamie Condliffe2017.09.27

ピート・ワーデンは人々に音声認識ハードウェアをゴミ箱に捨て去って欲しいと考えている。一度だけではない。買って買って買い続けて欲しいのだ。グーグルの技術者であるワーデンは、音声認識機器を使い捨てできるくらい安価にすることを目指している。

ワーデンのアイデアはとても単純だ。音声処理には通常ニューラル・ネットワークが使われているが、安価なチップでも音声処理が可能になるところまで効率を上げるというものだ。「目標は、シンプルな音声認識が可能で、コイン型電池で1年間使用できる50セントのチップです」と、英国ケンブリッジで開かれたARM研究者サミットで語った。「まだそこまでには至っていませんが、現状のテクノロジーでも実現可能だと考えています」。

そこまで低価格でハードウェアが使い捨てできれば、これまで想像ができないような使用方法の道が開けることになる。この機器を使用して、たとえば、子供の呼びかけに応える安価な人形や、音声で電源が操作できる照明のような、シンプルな家電が作れるようになる。産業分野でも、人工知能（AI）の用途が見出せるとワーデンは述べている。何百ものセンサーを使って、工場設備の歯車のきしみの兆候や、農場内のコオロギの鳴き声など、音声以外の音の検知にも利用できるというのだ。

ワーデンはグーグルで「テンサーフロー（TensorFlow）」というクラウドAIツールの、モバイルおよび組み込み用アプリケーションを開発するチームを率いている。音声認識に対する自身の取り組みの難しさを認識している。たとえば、アマゾンのAIアシスタントであるアレクサ（Alexa）を作動させているAIの処理を切り詰めて、数百メガヘルツのクロック・スピードのシンプルな電池式のチップで動作できるようにするのは非現実的だ。アレクサが多くの異なる音声を翻訳しなければならないことも1つの理由だが、大部分の音声認識用AIが、巨大なニューラルネットワークを使用していることがその原因である。アレクサが、音声認識の処理をクラウドに送っているのもそのためである。

そこでワーデンは、音声認識の対象を制限した。「オン」「オフ」「スタート」「ストップ」などの、ごく一部の重要な指示に絞り込むことを目指したのだ。ワーデンはまた、通常の音声認識アルゴリズムを簡略化した。その代わりに、音声を細分化して短い断片にした音声クリップを使用し、それらの周波数成分を算出した。その周波数プロットを1つずつ時系列に並べ、時間と周波数成分の2次元画像を作成して、特定の言葉を発している独特のサインを検知する視覚認識アルゴリズムを採用している。

ワーデンのチームの最初の試みでは、1秒の音声クリップの分析に800万回の計算を要し、精度は89パーセントであった。これは現行のスマートフォンに搭載可能であり、会話のやり取りも十分可能な速度であるため、クラウドに処理を送るよりも有利である。しかし、この方法は低消費電力のチップでは正常に作動しない。研究チームが試しに、アンドロイド搭載のスマホに「オーケー、グーグル」というフレーズを認識させるグーグルのアルゴリズム・トリック（algorithmic tricks）を使ってみると、システムが1秒の発言の分析に要したのはわずか75万回の計算であり、精度は85パーセントであった。

ワーデンのチームは、他の人々にもこのアルゴリズムを使用してもらうために、テンサーフローのWebサイトにコードを公開した。現在チームは、スマホやラズベリーパイ（Raspberry Pis）で使用されているチップ上でソフトウェアを実行している。ラズベリーパイは、非常に廉価なシングルボード・コンピューターで、今後はアルドゥイーノ（Arduino）のボードに見られるような、より小型のチップ上でこの音声認識ソフトを動作させることを目指している。

以前、英国ケンブリッジ大学でAIの研究に従事していた、音声認識企業スピーチマティックス（Speechmatics）のトニー・ロビンソン最高技術責任者（CTO）はワーデンの試みを支持しており、近い将来、こういったアプローチが音声認識の一般への普及に貢献すると主張している。だが、これらの限定的なAIの構築には問題もあるとロビンソンCTOは見ている。「人々は台本どおりには言葉を話しません」といい、制約の中で音声認識を利用するほど、人間は寛容ではないと説明する。

ロビンソンCTOはむしろ、グーグル・アシスタントやアマゾンのアレクサに見られる言語機能をより高める、いくらか消費電力が多いチップのほうが消費者向けのアプリケーションには向いている可能性をほのめかした。

人気の記事ランキング

タグ	グーグル人工知能人工知能（AI）機械学習音声認識

ジェイミーコンドリフ [Jamie Condliffe]米国版ニュース・解説担当副編集長: MIT Technology Reviewのニュース・解説担当副編集長。ロンドンを拠点に、日刊ニュースレター「ザ・ダウンロード」を米国版編集部がある米国ボストンが朝を迎える前に用意するのが仕事です。前職はニューサイエンティスト誌とGizmodoでした。オックスフォード大学で学んだ工学博士です。