Machines Are Developing Language Skills Inside Virtual Worlds

機械に言葉を教えたいならゲームの世界に放り込めばいい

機械に言語の使い方を教えるのは難しい。だからその代わりに機械をゲームの世界で訓練し、自身で学習した方が手取り早いのだ。 by Edd Gent2017.08.25

バーチャルな3Dの世界を探検することで、機械は単純な命令を処理することを学習している。

アマゾンのアレクサ（Alexa）やグーグル・ホームなどの機器は音声制御テクノロジーをメジャーな存在にしたものの、まだまだ単純な命令しか処理できない。実際の会話を処理するのに十分なほど機械を賢くすることは、いまだ困難だ。機械と人間との自然な会話を実現するには、物理的な世界の仕組みに沿って基礎を教え込まなければ難しいかもしれない。

もしこの問題を言葉と物体、行動の関係をハードコーディング（特定の環境を前提として決め打ちでプログラムを書くこと）によって解決しようとすれば、果てしない数のルールが必要となり、機械が新しい状況に適応するのは不可能になるだろう。機械自身に言語を学習させる取り組みでは、通常、人間によるかなりの支援が必要だ。

このほど、人工知能（AI）に焦点を当てるアルファベット（グーグル）の子会社ディープマインド（DeepMind）とカーネギーメロン大学の研究チームが、ファーストパーソン・シューティングゲーム（本人視点のシューティングゲーム）をベースにした3D空間で、機械が自分自身で言語の簡単な原理を理解する方法を開発した。

「3D空間で言語を理解できるようにすることは、間違いなく、現実世界で同じことをするための重要な一歩です」とカーネギーメロン大学の修士学生、デヴェンドラ・チャプロットは話す。チャプロットは計算機用言語協会（ACL）の年次総会で論文を発表する予定だ。究極の目標は、現実生活に非常に近いシミュレーションを作り、その中でAIが訓練したことを現実世界に持ち込めるようにすることだという。

ディープマインドとカーネギーメロン大学のアプローチは、深層強化学習を使用している。深層強化学習は、アタリ（Atari）のゲームをプレーするディープマインドのAIで広まった、機械学習の手法の1つだ。ニューラル・ネットワークはバーチャル環境から生のピクセルデータが与えられ、コンピューターゲームにおける得点のような報酬を試行錯誤を通して学習する（「2017年版ブレークスルー・テクノロジー10：強化学習」参照）。

通常、目標はゲーム内で高い得点を達成することなどだが、ディープマインドとカーネギーメロン大学のAIプログラムには「緑の柱まで進め」といった命令が与えられ、報酬を獲得するためには正しい物体まで移動する必要があった。

何百万もの訓練シナリオを加速したスピードで実行することにより、どちらのAIプログラムも言葉を特定の物体や性質と結びつけることを学習し、これによって命令に従った。AIは類似の物体を区別するために「もっと大きな」や「もっと小さな」のような相対的な言い回しさえも学習した。

最も重要なのは、どちらのプログラムも、初めて遭遇した状況に対してそれまでに学習したことを「一般化する」ことに成功したことだ。訓練シナリオに柱と赤い物体が含まれていれば、たとえ訓練でその物体を見たことがなくても「赤い柱に進め」という命令を実行できた。

これにより、ルールに基づく過去のシステムよりもはるかに柔軟になったとチャプロットは話す。カーネギーメロン大学のチームは、AIの注意を最も関連性が強い情報に集中させる方法で、視覚的、また言葉でのインプットを組み合わせた。一方で、ディープマインドはシステムに、たとえば動くにつれてどのように視野が変わるかを推測するなど、追加での学習目的を与え、全体的な性能を劇的に高めた。これら2つのアプローチは同じ問題に異なる角度から挑んでいるため、これらを組み合わせることでさらに高い性能を達成する可能性がある、とチャプロットは話す。

ディープマインドの研究者はコメントの求めに応じなかった。

「彼らの論文はまた予備的なものにすぎませんが、開発しているプログラムを見るのを非常に楽しみにしています」と、機械学習のさまざまな手法を検証した書籍『マスター・アルゴリズム』の著者であるワシントン大学のペドロ・ドミンゴス教授は話す。

この研究は、言語とロボット制御のような難しい問題が絡み合うAIの傾向に沿ったものだ。これに反して、この研究成果は問題を簡単にするとドミンゴスはいう。言語の理解は人間と同じ言語が参照する物理的な世界にアクセスできればより簡単であり、また物理的な世界に関する学習はガイダンスがあればより簡単だからだ。

何百万もの訓練を実行する必要があるということは、深層強化学習だけでは現実世界を解き明かすことはできないとドミンゴスは考えている。たびたびAIのベンチマークとされているディープマインドのアルファ碁（AlphaGo）は実際に、多数のAIアプローチを組み合わせることの重要性を証明している。

強化学習を専門とするブラウン大学のマイケル・リットマン教授は、結果は「印象的」であり、視覚的なインプットは過去の研究で使用されたものよりもはるかに難解だったと話す。シミュレーターを使って言語の基礎を教え込む過去の試みは、簡易な2D環境に限られてきたとリットマンは付け加えた。

しかしリットマン教授は、このアプローチの現実世界でのスケーラビリティに関するドミンゴスの懸念に同意しており、また命令はシミュレーターによって決められた目標に基づいて、公式的な方法で生成されている点を指摘している。これは、指令が人間が機械に現実の生活上で与えるであろう不正確かつ文脈に基づく指令を代表するものではあまりないことを意味している。

「これらのネットワークが言葉による命令に知性的に応えている例を見て、実際よりもより深く言語や位置感覚を理解していると人々が誤解するのではないかと心配しています」。

人気の記事ランキング

タグ	カーネギーメロン大学（CMU）ディープマインドバーチャル世界自然言語処理言語

エド・ジェント [Edd Gent]米国版寄稿者: インドのバンガロールを拠点とするフリーランスの科学技術ライター。主な関心分野は工学、計算機科学、生物学。特にこれら3つの分野が交差するテーマを取材している。