KADOKAWA Technology Review
×
マガジン刊行記念「Vol.1 AI Issue」を新規購読でプレゼント。
さらに割引も。
グーグルが超格安チップでも動く音声認識アルゴリズムを開発中
Flickr | msantos7
For Disposable Voice Recognition, Take Cheap Chips and Add Simple AI

グーグルが超格安チップでも動く音声認識アルゴリズムを開発中

グーグルの研究チームが使い捨てできるほど安価なチップで音声認識を実現しようとしている。まだ開発中だが、クラウドに処理を頼らないことで、音声認識の用途が広がる可能性がある。 by Jamie Condliffe2017.09.27

ピート・ワーデンは人々に音声認識ハードウェアをゴミ箱に捨て去って欲しいと考えている。一度だけではない。買って買って買い続けて欲しいのだ。グーグルの技術者であるワーデンは、音声認識機器を使い捨てできるくらい安価にすることを目指している。

ワーデンのアイデアはとても単純だ。音声処理には通常ニューラル・ネットワークが使われているが、安価なチップでも音声処理が可能になるところまで効率を上げるというものだ。「目標は、シンプルな音声認識が可能で、コイン型電池で1年間使用できる50セントのチップです」と、英国ケンブリッジで開かれたARM研究者サミットで語った。「まだそこまでには至っていませんが、現状のテクノロジーでも実現可能だと考えています」。

そこまで低価格でハードウェアが使い捨てできれば、これまで想像ができないような使用方法の道が開けることになる。この機器を使用して、たとえば、子供の呼びかけに応える安価な人形や、音声で電源が操作できる照明のような、シンプルな家電が作れるようになる。産業分野でも、人工知能(AI)の用途が見出せるとワーデンは述べている。何百ものセンサーを使って、工場設備の歯車のきしみの兆候や、農場内のコオロギの鳴き声など、音声以外の音の検知にも利用できるというのだ。

ワーデンはグーグルで「テンサーフロー(TensorFlow)」というクラウドAIツールの、モバイルおよび組み込み用アプリケーションを開発するチームを率いている。音声認識に対する自身の取り組みの難しさを認識している。たとえば、アマゾンのAIアシスタントであるアレクサ(Alexa)を作動させているAIの処理を切り詰めて、数百メガヘルツのクロック・スピードのシンプルな電池式のチップで動作できるようにするのは非現実的だ。アレクサが多くの異なる音声を翻訳しなければならないことも1つの理由だが、大部分の音声認識用AIが、巨大なニューラルネットワークを使用していることがその原因である。アレクサが、音声認識の処理をクラウドに送っているのもそのためである。

そこでワーデンは、音声認識の対象を制限した。「オン」「オフ」「スタート」「ストップ」などの、ごく一部の重要な指示に絞り込むことを目指したのだ。ワーデンはまた、通常の音声認識アルゴリズムを簡略化した。その代わりに、音声を細分化して短い断片にした音声クリップを使用し、それらの周波数成分を算出した。その周波数プロットを1つずつ時系列に並べ、時間と周波数成分の2次元画像を作成して、特定の言葉を発している独特のサインを検知する視覚認識アルゴリズムを採用している。

ワーデンのチームの最初の試みでは、1秒の音声クリップの分析に800万回の計算を要し、精度は89パーセントであった。これは現行のスマートフォンに搭載可能であり、会話のやり取りも十分可能な速度であるため、クラウドに処理を送るよりも有利である。しかし、この方法は低消費電力のチップでは正常に作動しない。研究チームが試しに、アンドロイド搭載のスマホに「オーケー、グーグル」というフレーズを認識させるグーグルのアルゴリズム・トリック(algorithmic tricks)を使ってみると、システムが1秒の発言の分析に要したのはわずか75万回の計算であり、精度は85パーセントであった。

ワーデンのチームは、他の人々にもこのアルゴリズムを使用してもらうために、テンサーフローのWebサイトにコードを公開した。現在チームは、スマホやラズベリーパイ(Raspberry Pis)で使用されているチップ上でソフトウェアを実行している。ラズベリーパイは、非常に廉価なシングルボード・コンピューターで、今後はアルドゥイーノ(Arduino)のボードに見られるような、より小型のチップ上でこの音声認識ソフトを動作させることを目指している。

以前、英国ケンブリッジ大学でAIの研究に従事していた、音声認識企業スピーチマティックス(Speechmatics)のトニー・ロビンソン最高技術責任者(CTO)はワーデンの試みを支持しており、近い将来、こういったアプローチが音声認識の一般への普及に貢献すると主張している。だが、これらの限定的なAIの構築には問題もあるとロビンソンCTOは見ている。「人々は台本どおりには言葉を話しません」といい、制約の中で音声認識を利用するほど、人間は寛容ではないと説明する。

ロビンソンCTOはむしろ、グーグル・アシスタントやアマゾンのアレクサに見られる言語機能をより高める、いくらか消費電力が多いチップのほうが消費者向けのアプリケーションには向いている可能性をほのめかした。

 

人気の記事ランキング
  1. The human cost of a WeChat ban: severing a hundred million ties 中国と世界をつなぐ 「ウィーチャット禁止」の 深刻すぎる影響
  2. The AI optimization group's challenge: Innovation in infrastructure 屈指のAI最適化集団が挑む
    「インフラ」のイノベーション
  3. It’s too late to stop QAnon with fact checks and account bans SNSで存在感増す陰謀論、 「Qアノン」とは何か?
  4. A college kid’s fake, AI-generated blog fooled tens of thousands. This is how he made it. 大学生がGPT-3で偽記事を作ってニュースサイトで1位になった方法
  5. IBM has built a new drug-making lab entirely in the cloud 化学実験を在宅で、IBMがロボット+AIでクラウド新サービス
ジェイミー コンドリフ [Jamie Condliffe]米国版 ニュース・解説担当副編集長
MIT Technology Reviewのニュース・解説担当副編集長。ロンドンを拠点に、日刊ニュースレター「ザ・ダウンロード」を米国版編集部がある米国ボストンが朝を迎える前に用意するのが仕事です。前職はニューサイエンティスト誌とGizmodoでした。オックスフォード大学で学んだ工学博士です。
10 Breakthrough Technologies 2020

気候変動から量子コンピューティング、人工衛星群まで。
MITテクノロジーレビューが選んだ、世界を変える10大テクノロジー。

記事一覧を見る
人気の記事ランキング
  1. The human cost of a WeChat ban: severing a hundred million ties 中国と世界をつなぐ 「ウィーチャット禁止」の 深刻すぎる影響
  2. The AI optimization group's challenge: Innovation in infrastructure 屈指のAI最適化集団が挑む
    「インフラ」のイノベーション
  3. It’s too late to stop QAnon with fact checks and account bans SNSで存在感増す陰謀論、 「Qアノン」とは何か?
  4. A college kid’s fake, AI-generated blog fooled tens of thousands. This is how he made it. 大学生がGPT-3で偽記事を作ってニュースサイトで1位になった方法
  5. IBM has built a new drug-making lab entirely in the cloud 化学実験を在宅で、IBMがロボット+AIでクラウド新サービス
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る