AI Agents Learn to Work Together by Wrangling Virtual Swine

人工知能から拡張知能へ——AIは「協調」できるのか

人間は協調して作業することができる。だが、AIにチームプレイは可能なのか？マイクロソフトの研究者は、あるコンテストを開催した。 by Will Knight2017.06.26

豚を捕獲するには、仲間の助けがあった方がずっと簡単だろう。たとえその作業がコンピュータ上のバーチャルなものであっても、疑いの余地はないはずだ。これを確かめるためにマイクロソフトの研究者は、複数の人工知能（AI）エージェントを連携させて複雑な問題を解かせるコンテストを開催した。一緒に豚を捕獲する仲間とどう連携するのが最善かは、このコンテストが扱っている問題の一つだ。

AIエージェントの連携による問題解決は、これまで比較的、注目されることが少なかった分野だ。AI研究者が開発するソフトウェアはたいていの場合、チェスや囲碁などといった人間が行う特定のタスクを実行し、人間のプレーヤーに勝てるかどうかを基準にして能力を測定される。しかし現実には、人間の知能の大部分を占めるのは、コミュニケーションや社会的知能、心の理論なのである。別の知的エージェントの意図を予測したり理解したりする能力と言ってもいい。

今回のプロジェクトは、人間とAIシステムがお互いの能力を合わせた以上の成果を出すにはどのように協力すればよいのかのヒントも与えてくれるだろう。非営利組織のアレン人工知能研究所（Allen Institute for Artificial Intelligence、AI2）で最高経営責任者（CEO）を務めるオレン・エチオーニ博士は、「このコンテストはAIを単なる人工知能ではなく、拡張知能（augmented intelligence）として見直そうとする大きな流れの一部なのです」という。

AIエージェントは、マルモ（Malmo）計画の一環として共同作業に取り組んだ。マルモ計画は、マインクラフト（Minecraft）と呼ばれる拡張可能なコンピューターゲーム環境の内部に、さまざまなAI手法を取り込み、テストできるようにしたプロジェクトである。マイクロソフトの研究者が開発を主導している。AIエージェントが有効なやり方で協力し合ったり、人間の作業を手伝えるようになったりするにはまだまだ多くの改善が必要だろうが、いくつかの初期のアイデアをテストできる。

AIエージェントは、1人で行動するか、あるいは他のAIエージェントと協力してわんぱくなバーチャル上の豚を管理して捕獲する。豚の捕獲に成功するごとにポイントがもらえる仕組みである。

今回のマルモ共同AIチャレンジ（Malmo Collaborative AI Challenge）で優勝したのは、深層学習と呼ばれる最先端の機械学習のアプローチを使って、エージェント同士を協力させる訓練したチームだった。訓練には、膨大な量のデータをエージェントに与える作業も含まれている。しかし参加者の中には、それほど最先端ではない古めのアプローチを使って、知識や理解力をエージェントに直接実装する者もいた。

優勝した英国のオックスフォード大学のチームが採用したのは、強化学習のアプローチだ。強化学習は、動物が経験を通して学ぶやり方にヒントを得た機械学習の手法である（参照「2017年版ブレークスルーテクノロジー10：強化学習」）。優勝チームのエージェントは、豚を捕獲する共同作業に成功するたびに、行動を強化していった。

マルモ計画を率いるマイクロソフトのカティア・ホフマン（Katja Hofmann）研究員は、多くのチームがさまざまなアプローチを組み合わせていたと指摘する。「明らかにうまくいったものの中に単一のアプローチを使っているものはありませんでした」と語り、複数のアプローチを組み合わせることで「研究の展望は非常に明るい方向に向かっていきそうです」と付け加える。

豚の捕獲チャレンジはスタグハントゲームとして知られる思考実験からヒントを得たものだ。スタグハントゲームは、協力戦略と交渉戦略に関係する数学の一分野であるゲーム理論の研究材料である。ゲームに参加する2人のハンターは、それぞれ単独で野ウサギを捕獲して利益を得るのか、チームを組んで利益のより大きな鹿を捕獲するのかを選ばなければならない。

コンテストの優勝チームは、ゲーム内で獲得するポイントと研究の新規性によって決められ、優勝特典として、研究助成金20,000ドルとマイクロソフトの研究所のAIサマースクール参加権を受け取れる。

一方、ワシントン大学で機械学習とデータマイニングを研究するペドロ・ドミンゴス教授は、シミュレートされた環境でAIのソフトウェアを訓練することには問題点があると指摘する。ソフトウェアが、特定の環境に過剰に最適化されてしまう場合があるというのだ。より洗練されたシミュレーション環境の登場によってこの状況は変わりつつあるが、それでも、現実世界における訓練ほど有用ではないという。

ドミンゴス教授はさらに、人間同士の共同作業は非常に複雑かつ繊細なので、マイクロソフトのプロジェクトで純粋に有効なアプローチを生み出せるとは考えにくいと付け加える。しかし、こうした懐疑心を抱えているものの、ドミンゴス教授は今回のプロジェクトに期待を寄せている。

ドミンゴス教授は、「AI同士が協力する分野はまだ始まったばかりで、マインクラフトの環境には多くの可能性があります」と語る。「これまでに使われてきた環境よりは豊かなものですから、試してみる価値は十分にあるでしょう」。

人気の記事ランキング

タグ	マイクロソフトマインクラフト強化学習深層学習
クレジット	Images courtesy of Project Malmo

ウィルナイト [Will Knight]米国版 AI担当上級編集者: MITテクノロジーレビューのAI担当上級編集者です。知性を宿す機械やロボット、自動化について扱うことが多いですが、コンピューティングのほぼすべての側面に関心があります。南ロンドン育ちで、当時最強のシンクレアZX Spectrumで初めてのプログラムコード（無限ループにハマった）を書きました。MITテクノロジーレビュー以前は、ニューサイエンティスト誌のオンライン版編集者でした。もし質問などがあれば、メールを送ってください。