スマホだけで映像認識、MIT-IBMワトソンAIラボが新手法
MIT-IBMワトソンAIラボの研究チームは、最新のコンピューター・ビジョン・アルゴリズムを低電力デバイスでも実行できるように縮小することに成功した。
画像認識は、深層学習が最も得意とするものだ。コンピューター・ビジョン・アルゴリズムを利用すれば、医用画像の分析や自律自動車の実現、顔認識の強化などが可能になる。だが、映像を認識する訓練に必要なコストはどんどん増え続けている。そのため、人工知能(AI)テクノロジーによる二酸化炭素排出量の増加や、計算資源に乏しい研究機関との格差への懸念が高まっているのだ。
MIT-IBMワトソンAIラボの研究チームは、処理能力が極めて限られた携帯電話などのデバイス上で、映像認識モデルを訓練する新たな手法を開発した。映像認識アルゴリズムは通常、映像を画像フレームに分割してから、各フレームに対して認識アルゴリズムを実行する。それから物体が後続のフレームでどう変化するか確認して、映像の中での物体の動きをつなぎ合わせる。この手法では、アルゴリズムは各フレームで確認したものとその順序を「記憶」する必要がある。非効率な手法だ。
新手法では、各フレームの物体の基本的なスケッチを抽出し、それを互いのフレームの上に重ね合わせる。このアルゴリズムは、いつ何が起きたのかを記憶するのではなく、スケッチ内の空間で物体がどのように移動するのかに注目することで、時間経過の様子を把握する。研究チームが実施した実験では、現在の最新の手法よりも3倍速く映像認識モデルを訓練できることが分かった。新手法はまた、自転車のライト並みのわずかな電力で稼働する小型コンピューターとカメラで、手のジェスチャーをすばやく分類できたという。
この新手法は、コンピューター・ビジョンの既存の商用アプリケーションでの遅延や計算コストを緩和するのに役立つかもしれない。たとえば、入力された視覚情報にすばやく反応できれば、自律自動運転車はいまよりも安全に走行できるだろう。また、以前は不可能だった新しいアプリケーションへの道が開かれるかもしれない。たとえば、携帯電話を患者の診察や医用画像の分析に役立てられるはずだ。
AI研究が応用へと移行していく中で、より小さなモデルが求められている。MIT-IBMワトソンAIラボの今回の研究は、最先端のAIモデルを扱いやすいサイズに縮小させるトレンドの1つだ。