2017年版ブレークスルー・テクノロジー10：強化学習

シンプルなコンピューター－・シミュレーションで、自動運転車の一群が4車線のバーチャルハイウェイを狂ったように走っている。半数は右側車線から移動しようとし、残りの半数は左から合流しようとしている。まるでロボット自動車を混乱させる難しい課題のようだが、車は正確に制御されている。

このドライビング・シミュレーションを見たのは、去年12月、バルセロナで開催された2016年最大の人工知能カンファレンスだ。最も驚くべきことは、ソフトウェアが制御する車の挙動は、従来の意味ではまったくプログラミングされていないことだ。練習により、滑らかに安全に合流する方法を学習していた。訓練中、この制御ソフトウェアは、繰り返し運転、試行ごとに微妙に運転操作を修正した。訓練の初期からほとんどの期間、非常にゆっくりとした速度で合流していたため、車は干渉し合っていた。しかし、滑らかに合流できるたびに、システムは成功につながるような運転操作をするように学習していった。

「強化学習」は、主にアルファベット（グーグル）の子会社ディープマインドが開発したAlphaGoが不可能なほど複雑なボードゲーム囲碁をマスターするのに使った手法である。AlphaGoは世界最強クラスの囲碁棋士に勝利し、その対局は昨年最も大きな話題になった。現在、強化学習はゲーム以上に多くの分野で優れた知性をもたらす寸前の段階にある。自動運転車の向上以外でも、強化学習によってロボットが初めて見る物体を壊さずに掴んだり、データセンターの機器に最適な構成を理解したりできるようになっている。

強化学習は、実物をモデルにし非常に単純な原則を模倣する。心理学者のエドワード・ソーンダイクが100年以上前に発表した論文では、ネコを箱の中に入れ、レバーを押した時だけ箱から出られるようにした。非常に多くの時間歩き回り鳴き声を上げていると、ネコは偶然レバーを踏むことになる。行動と好ましい結果を関連付ける学習をすると、最終的に箱から出るスピードが速くなるのだ。

強化学習

ブレークスルー　コンピューターが人間のように学習する人工知能（AI）への手法には、明確な指示がない。
なぜ重要か　自動運転車や他の自動化形態の進歩は、機械が経験によって技術を磨けなければ格段に遅くなる。
キー・プレーヤー　ディープマインド、モービルアイ、オープンAI 、グーグル、ウーバー
実現時期　1～2年後

非常に初期の人工知能研究者には、この過程を機械で有効に再現できるかもしれないと考える者もいた。1951年、マサチューセッツ工科大学（MIT）の教授として後にAIの創始者となるハーバード大学の学生マービン・ミンスキーは、迷路を通り抜けることを学習したラットの真似をする、シンプルな形式の強化学習を使った機械を作った。数多くの真空管、モーター、クラッチで構成されるミンスキーの（SNARC：Stochastic Neural Analogy Reinforcement Computer）は、40の神経とシナプスの動きをシミュレートした。シミュレートしたラットがバーチャルの迷路から抜け出した時、シナプス結合の力が強くなり、結合が強くなることで、成功に基づいた行動が強化されるのだ。

その後数十年ほとんど進展がなかった。1992年、IBMの研究者ジェラルド・テサウロは、強化学習の手法でバックギャモンをするプログラムを発表した。プログラムは最も優れた人間のプレイヤーに十分匹敵する能力があり、AIにおける画期的な成果となった。しかし、強化学習はより複雑な問題になかなか進めなかった。ディープマインド（英国）で強化学習の先駆的提唱者となっているデビッド・シルバー研究員は「人々はクールなアイデアだけど実際にはうまくいかないと考えました」という。

しかし、2016年3月、この考え方は劇的に変わった。強化学習を使用し訓練したプログラムAlphaGoが、歴代でも最強の囲碁棋士、韓国の李世乭（リ・セドル）に勝利したからだ。この偉業は驚異的だった。従来のプログラミングで優れた囲碁対局プログラムを作ることは事実上不可能だったからだ。囲碁が極めて複雑なだけでなく、熟練した囲碁棋士でさえもなぜ特定の一手がよいか悪いかよくわからないことがあり、そのため、ゲーム原理をコード化することが困難だったからだ。多くのAI研究者は、コンピューターがトップクラスの棋士と同等の力を持つには10年はかかると考えていた。

位置取り

ケンブリッジ大学在学中に人工知能に魅了された英国人シルバーは、最近強化学習がなぜ難しいのかを解説している。シルバーによれば、強化学習が成功するコツは深層学習（莫大なニューラル・ネットワークにより、データ内のパターンを認識するための手法）と結びつけることにあるという（“10 Breakthrough Technologies 2013: Deep Learning”参照）。

強化学習は、まさにネズミが迷路から抜け出すように、研究者が、コンピューターがどのように値を算出するか理解しているからうまくいくのだ。それぞれの値は巨大なテーブルに格納され、コンピューターは学習によって値をすべて更新する。大規模で複雑なタスクの場合、この処理は計算できないほど膨大になる。しかし近年、規則性なく変動する値、碁盤上の石の位置、コンピューター・ゲーム内の画面に表示されるピクセルのどれでも、深層学習はデータのパターンを認識する極めて効率的な方法だと証明されている。

実際、ディープマインドが名を上げたのはゲームだった。 2013年には、さまざまなアタリのビデオゲームを超人的なレベルでプレイする方法を学べるプログラムの詳細を発表し、2014年にグーグルが5億ドル以上でディープマインドを獲得することにつながった。こうした栄誉や功績は、他の研究者や企業が強化学習に目を向けるきっかけになり、数多くの産業ロボットメーカーが、プログラミング作業なしで新しい作業を実行できるよう、ロボットを試験中だ。アルファベット（グーグル）の子会社とグーグルの研究者は、ディープマインドと協力して、データセンターのエネルギー効率を高めるために深層強化学習を使った。データセンターのすべての要素がエネルギー使用にどう影響するかを人間が理解するのは困難だが、強化学習アルゴリズムは比較データから学び、シミュレーションで実験し、たとえば、冷却システムをいつどのように運用するのか、といったことを提案できるようになった。

しかし、恐らく強化学習によるプログラムが最も人間らしく行動するのは自動運転だろう、現在、無人運転自動車は、他の車のドライバーとの関わりにおいて、たとえばロータリーやフォー・ウェイ・ストップ（信号のない交差点で、4方向の自動車がすべて停止し、最初に停止した車が優先的に発進する米国の交通規則）などの複雑な状況で難しい選択にしょっちゅう直面する。不必要なリスクを抱えたり、過度に躊躇して道路を渋滞させたりしたくない場合は、多くの車がいる中でうまく立ち回るための、より精密な運転技能を身につける必要がある。

高速道路合流ソフトは、モービルアイ（テスラ等、自動車メーカー数十社が採用する車両安全システムを作るイスラエルの自動車部品会社）によってバルセロナの人工知能カンファレンスで実演された（「2016年最もスマートな企業50」）。モービルアイのシャイ・シャレフ＝シュワルツ副社長（技術担当）は、無人自動車が直面することになる問題をいくつか紹介した。たとえばエルサレムの混み合うロータリー。パリの騒がしい交差点。インドの道路の地獄のような光景。「自動運転車が法律を厳密に守るならば、ラッシュアワーで私は1時間待つことになるだろう」とシャレフ＝シュワルツ副社長はいう。

モービルアイは、今年下期にBMWとインテルと共同で車両のソフトウェアを試験する計画だ。また、グーグルとウーバーは、自動運転車の強化学習を試験中だと発表した。

強化学習が専門のスタンフォード大学のエマ・ブラウンスキル助教授は、強化学習が使われる分野が増えているという。ただしブラウンスキル助教授は、自動運転が強化学習に適しているのは「正しい判断をし続ける」からだという。プログラマーが、自動運転の判断を事前に車にエンコードしなければならないとすれば、自動運転の試験の進み具合はこれほど早くはなかっただろう。

克服すべき課題もある。中国企業バイドゥのアンドリュー・ング主任科学者は、強化学習には膨大なデータが必要で、シミュレーションで絶え間なく学習できなければ成功しなかったという。実際、研究者は複数の目的がある複雑な状況で強化学習する方法を模索している最中だ。モービルアイは複雑な状況に対処できるように調整したことで、自動運転車が事故を起こさないように運転技能を磨き、他人を巻き込む事故を起こしにくくなったのだ。

デモを見る限り、少なくとも今のところ、強化学習は成功しているように見える。しかし今年下期、米国の幹線道路で強化学習はこれまでに最も劇的で重要な試験を受けることになるだろう。

10 Breakthrough Technologies 2017: Reinforcement Learning 2017年版 ブレークスルー・テクノロジー10 強化学習

位置取り

10 Breakthrough Technologies 2017: Reinforcement Learning 2017年版
ブレークスルー・テクノロジー10
強化学習