
画像認識の「採光問題」を解決する新手法、ディープマインドとMITが開発
コンピューター・ビジョンは、2009年に研究者向けに公開された人工知能(AI)学習用のイメージネットによって大幅に進歩した。イメージネットは、ラベル付けされた大量の画像のオープン・ソースのデータ・セットだ。しかし、明暗が微妙だったり、光のあたり加減が悪かったりする画像は、いまだにアルゴリズムを混乱させる場合がある。研究者は、光と物体の相互作用についての自作ルールで対処したり、できる限り多くの採光状況を網羅したデータ・セットを使用したりしてきた。しかし、現実として物体と光の組み合わせはほぼ無限に存在するため、どちらの方法も有効ではない。
マサチューセッツ工科大学(MIT)とディープマインド(DeepMind)の研究者による新しい論文では、手作業でルールをコーディングしたり、大規模なデータ・セットでAIを学習させたりすることなく、さまざまな採光状況にある画像を識別できる手法について詳述している。「レンダリング組込みネットワーク(RIN:Rendered Intrinsics Network)」と呼ばれる手法は、画像を自動的に、反射率、形状、照明の層に分ける。そして、それらの層を再結合して、元の画像を再構成する。
研究チームは、立方体、球、円錐、円柱、円周を回転して得られる回転面を表す円環面の5つの形についてのデータセットを作成し、それぞれ10方向、500色でレンダリング。これらを訓練に使用した。その後、画像を3つの層に分解し、コンピューターが画像の中の物体を識別したり、形状を推測したりできることを実証した。例えば実験で使ったモデルは、基本的な形状で訓練した後、ラベル付けされた大量の画像データ・セットを見せなくとも、古典的な画像のテストモデル、スタンフォード・バニー、ユタ・ティーポット、ブレンダーのスザンヌといった複雑な形を見分けられるようになった。
RINは、無限に存在する画像の採光状況という問題を克服する新しい方法を提供するだけではない。ラベル付けされていないデータでAIが学習できるという1つの例でもあるのだ。ほとんどのAIは学習のためにラベル付けされたデータがまだ必要であり、データを準備するために人間が何時間も同じような作業をしなければならない。ラベル付けされていないデータで学習する方法の発見は、AIにおける次の開拓分野の1つである。