KADOKAWA Technology Review
×
【1/31まで】ひと月あたり1000円。
お得に購読できるキャンペーン実施中!
グーグルが超格安チップでも動く音声認識アルゴリズムを開発中
Flickr | msantos7
For Disposable Voice Recognition, Take Cheap Chips and Add Simple AI

グーグルが超格安チップでも動く音声認識アルゴリズムを開発中

グーグルの研究チームが使い捨てできるほど安価なチップで音声認識を実現しようとしている。まだ開発中だが、クラウドに処理を頼らないことで、音声認識の用途が広がる可能性がある。 by Jamie Condliffe2017.09.27

ピート・ワーデンは人々に音声認識ハードウェアをゴミ箱に捨て去って欲しいと考えている。一度だけではない。買って買って買い続けて欲しいのだ。グーグルの技術者であるワーデンは、音声認識機器を使い捨てできるくらい安価にすることを目指している。

ワーデンのアイデアはとても単純だ。音声処理には通常ニューラル・ネットワークが使われているが、安価なチップでも音声処理が可能になるところまで効率を上げるというものだ。「目標は、シンプルな音声認識が可能で、コイン型電池で1年間使用できる50セントのチップです」と、英国ケンブリッジで開かれたARM研究者サミットで語った。「まだそこまでには至っていませんが、現状のテクノロジーでも実現可能だと考えています」。

そこまで低価格でハードウェアが使い捨てできれば、これまで想像ができないような使用方法の道が開けることになる。この機器を使用して、たとえば、子供の呼びかけに応える安価な人形や、音声で電源が操作できる照明のような、シンプルな家電が作れるようになる。産業分野でも、人工知能(AI)の用途が見出せるとワーデンは述べている。何百ものセンサーを使って、工場設備の歯車のきしみの兆候や、農場内のコオロギの鳴き声など、音声以外の音の検知にも利用できるというのだ。

ワーデンはグーグルで「テンサーフロー(TensorFlow)」というクラウドAIツールの、モバイルおよび組み込み用アプリケーションを開発するチームを率いている。音声認識に対する自身の取り組みの難しさを認識している。たとえば、アマゾンのAIアシスタントであるアレクサ(Alexa)を作動させているAIの処理を切り詰めて、数百メガヘルツのクロック・スピードのシンプルな電池式のチップで動作できるようにするのは非現実的だ。アレクサが多くの異なる音声を翻訳しなければならないことも1つの理由だが、大部分の音声認識用AIが、巨大なニューラルネットワークを使用していることがその原因である。アレクサが、音声認識の処理をクラウドに送っているのもそのためである。

そこでワーデンは、音声認識の対象を制限した。「オン」「オフ」「スタート」「ストップ」などの、ごく一部の重要な指示に絞り込むことを目指したのだ。ワーデンはまた、通常の音声認識アルゴリズムを簡略化した。その代わりに、音声を細分化して短い断片にした音声クリップを使用し、それらの周波数成分を算出した。その周波数プロットを1つずつ時系列に並べ、時間と周波数成分の2次元画像を作成して、特定の言葉を発している独特のサインを検知する視覚認識アルゴリズムを採用している。

ワーデンのチームの最初の試みでは、1秒の音声クリップの分析に800万回の計算を要し、精度は89パーセントであった。これは現行のスマートフォンに搭載可能であり、会話のやり取りも十分可能な速度であるため、クラウドに処理を送るよりも有利である。しかし、この方法は低消費電力のチップでは正常に作動しない。研究チームが試しに、アンドロイド搭載のスマホに「オーケー、グーグル」というフレーズを認識させるグーグルのアルゴリズム・トリック(algorithmic tricks)を使ってみると、システムが1秒の発言の分析に要したのはわずか75万回の計算であり、精度は85パーセントであった。

ワーデンのチームは、他の人々にもこのアルゴリズムを使用してもらうために、テンサーフローのWebサイトにコードを公開した。現在チームは、スマホやラズベリーパイ(Raspberry Pis)で使用されているチップ上でソフトウェアを実行している。ラズベリーパイは、非常に廉価なシングルボード・コンピューターで、今後はアルドゥイーノ(Arduino)のボードに見られるような、より小型のチップ上でこの音声認識ソフトを動作させることを目指している。

以前、英国ケンブリッジ大学でAIの研究に従事していた、音声認識企業スピーチマティックス(Speechmatics)のトニー・ロビンソン最高技術責任者(CTO)はワーデンの試みを支持しており、近い将来、こういったアプローチが音声認識の一般への普及に貢献すると主張している。だが、これらの限定的なAIの構築には問題もあるとロビンソンCTOは見ている。「人々は台本どおりには言葉を話しません」といい、制約の中で音声認識を利用するほど、人間は寛容ではないと説明する。

ロビンソンCTOはむしろ、グーグル・アシスタントやアマゾンのアレクサに見られる言語機能をより高める、いくらか消費電力が多いチップのほうが消費者向けのアプリケーションには向いている可能性をほのめかした。

 

人気の記事ランキング
  1. The metaverse has a groping problem already メタのバーチャル空間でさっそく痴漢行為が発生、安全策は?
  2. The internet runs on free open-source software. Who pays to fix it? Log4J問題で明るみになった「ボランティア頼み」の危うさ
  3. Facebook says 50,000 users were targeted by cyber mercenary firms in 2021 メタが明らかにした民間監視会社の実態、5万人が狙われていた
  4. The worst technology of 2021 MITTRが選ぶ、2021年の「最低なテクノロジー」5選
ジェイミー コンドリフ [Jamie Condliffe]米国版 ニュース・解説担当副編集長
MIT Technology Reviewのニュース・解説担当副編集長。ロンドンを拠点に、日刊ニュースレター「ザ・ダウンロード」を米国版編集部がある米国ボストンが朝を迎える前に用意するのが仕事です。前職はニューサイエンティスト誌とGizmodoでした。オックスフォード大学で学んだ工学博士です。
日本発「世界を変える」35歳未満のイノベーター

MITテクノロジーレビューが20年以上にわたって開催しているグローバル・アワード「Innovators Under 35 」。世界的な課題解決に取り組み、向こう数十年間の未来を形作る若きイノベーターの発掘を目的とするアワードの日本版の最新情報を発信する。

記事一覧を見る
人気の記事ランキング
  1. The metaverse has a groping problem already メタのバーチャル空間でさっそく痴漢行為が発生、安全策は?
  2. The internet runs on free open-source software. Who pays to fix it? Log4J問題で明るみになった「ボランティア頼み」の危うさ
  3. Facebook says 50,000 users were targeted by cyber mercenary firms in 2021 メタが明らかにした民間監視会社の実態、5万人が狙われていた
  4. The worst technology of 2021 MITTRが選ぶ、2021年の「最低なテクノロジー」5選
MITテクノロジーレビュー[日本版] Vol.5
MITテクノロジーレビュー[日本版] Vol.5Cities Issue

新型コロナのパンデミックによって激変した都市生活は、ポストコロナでどう変わるのか? 都市部への人口集中が世界で加速する中、環境、災害、貧困といった負の側面をテクノロジーは解決できるのか? 多様な人々が集まり、化学反応が起きるイノベーションの集積地としての役割を都市は今後も果たし続けるのか? 世界の豊富な事例と識者への取材を通して、新しい都市の未来像を描く。

詳細を見る
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る