グーグル・ディープマインド、大量データ不要の深層学習システムを開発

人間は一、二度見ればそれが何かを認識できる。しかし、コンピュータービジョンや音声認識のアルゴリズムは、画像や言葉の習熟に何千ものサンプルが必要だ。

グーグル・ディープマインドの研究者がこの手間を回避する方法を発見した。研究者は深層学習アルゴリズムを巧妙に微調整することで、画像内の物体等をひとつのサンプルだけで認識（分類）する「ワンショット学習」を可能にした。研究チームはタグ付き画像や筆跡、言語を収録した大型データベースで、新方式を実証した。

高精度のアルゴリズムの認識力は信頼できるが、アルゴリズムの構築には多くのデータが必要で、時間もお金もかかる。たとえば、無人自動車が、確実に道路上の個々の自動車を「自動車」という概念でひとくくりに認識するためのアルゴリズムには何千もの実例が必要だ。膨大なデータを収集するのは往々にして非現実的だ。たとえば、自宅でロボットが迷子にならないためには、膨大な時間をかけて家の中を廻り、学習する必要がある。

人工知能を開発するアルファベット（グーグル）の英国子会社グーグル・ディープマインドのオリオル・ビニャルズ研究員は、深層学習システム（神経回路網の一種で、脳内のニューロンのように相互接続された構成要素の層のそれぞれの感度を調節することで物体を認識する仕組み）に記憶機能を追加した。一般的に、深層学習システムは人工神経網の接続を微調整するために多くの画像が必要だ。

研究チームはイメージネットと呼ばれるラベル付きの画像データベースを使い、システムの能力を証明した。ソフトウェアは初めに数百種類のイメージを分析する必要があるが、その後は1枚の画像だけ（たとえば犬の写真1枚）で何かを認識（分類）できるようになる。システムは効率よく、何かを識別するための特徴を学習する。新しいアルゴリズムは、たった1枚のサンプルを見ただけで、データ量に頼っていた従来型システムとほぼ同じレベルの認識力を発揮した。

ビニャルズ研究員によると、システムが新しい単語の意味を素早く認識できるのは特に有用だ。システムが検索する言葉の意味を即座に学習できれば、（検索事業を改善できる可能性がああるため）グーグルには特に重要だ。

他の研究者が開発中のワンショット学習システムは、ほとんどの場合、深層学習システムと互換性がない。昨年、ある学術系のプロジェクトでは確率的プログラミングの手法で、同様に効率的な学習を可能にした。（「私たちと同じ速さで学習するアルゴリズム」参照）。

しかし、深層学習システム（特に記憶機能が追加されたシステム）の性能は高まりつつある。最近、グーグル・ディープマインドの他のグループは順応性の高い記憶機能を備えたネットワークを開発した。ネットワークは単純な論理的タスク（たとえば単純なネットワーク図表を分析することで地下鉄路線の効率的な乗り継ぎ方法を学習する）を処理できる（「コンピューターにワーキングメモリーを与えたら？」参照）。

「この手法はとても面白いです。大規模データセットに対して、ワンショット学習を導入できる新手法です」というのは韓国太田市の韓国科学技術院（KAIST）で脳と機械の知能を研究するチームを率いるサン・ワン・リー研究員だ。「これは人工知能（AI）コミュニティーへの技術貢献です。コンピュータービジョン研究者が待ち望んでいたものです」とリーはいう。

人間の学習とは依然として異なるとして、実用性に懐疑的な人もいる。ハーバード大学脳科学学部のサム・ガーシュマン准教授は、その理由のひとつをこう説明する。まず、人間は画像を構成する「部分」を理解した上で学習する。学習プロセスでは、たとえば、「セグウェイは自転車やオートバイと見た目は違うかもしれないが、どれも同じ部品で組み立てられている」といった現実世界の知識あるいは一般常識的が必要になる。

ガーシュマン准教授とリー研究員によると、機械が人間の学習レベルに追いつくのにはまだ時間がかかる。「人間のワンショット学習の秘密の解明はまだ先のことです。しかし、今回の成果は将来の研究に必ず役にたつ課題を提示しています」とワン・リーはいう。

Machines Can Now Recognize Something After Seeing It Once グーグル・ディープマインド、大量データ不要の深層学習システムを開発