KADOKAWA Technology Review
×
無料の会員登録で、記事閲覧数が増えます
2017年版
ブレークスルー・テクノロジー10
強化学習
10 Breakthrough Technologies 2017: Reinforcement Learning

強化学習

プログラムで判断させるにはあまりに複雑な用途でも、強化学習なら機械が試行錯誤することで、上手なやり方を自分で獲得できる。囲碁で威力を証明したテクノロジーは、あらゆる場面で適切に判断する自律運転車の実現に欠かせない。 実現時期: 1~2年後 by Will Knight2017.02.23

シンプルなコンピューター-・シミュレーションで、自動運転車の一群が4車線のバーチャルハイウェイを狂ったように走っている。半数は右側車線から移動しようとし、残りの半数は左から合流しようとしている。まるでロボット自動車を混乱させる難しい課題のようだが、車は正確に制御されている。

このドライビング・シミュレーションを見たのは、去年12月、バルセロナで開催された2016年最大の人工知能カンファレンスだ。最も驚くべきことは、ソフトウェアが制御する車の挙動は、従来の意味ではまったくプログラミングされていないことだ。練習により、滑らかに安全に合流する方法を学習していた。訓練中、この制御ソフトウェアは、繰り返し運転、試行ごとに微妙に運転操作を修正した。訓練の初期からほとんどの期間、非常にゆっくりとした速度で合流していたため、車は干渉し合っていた。しかし、滑らかに合流できるたびに、システムは成功につながるような運転操作をするように学習していった。

「強化学習」は、主にアルファベット(グーグル)の子会社ディープマインドが開発したAlphaGoが不可能なほど複雑なボードゲーム囲碁をマスターするのに使った手法である。AlphaGoは世界最強クラスの囲碁棋士に勝利し、その対局は昨年最も大きな話題になった。現在、強化学習はゲーム以上に多くの分野で優れた知性をもたらす寸前の段階にある。自動運転車の向上以外でも、強化学習によってロボットが初めて見る物体を壊さずに掴んだり、データセンターの機器に最適な構成を理解したりできるようになっている。

強化学習は、実物をモデルにし非常に単純な原則を模倣する。心理学者のエドワード・ソーンダイクが100年以上前に発表した論文では、ネコを箱の中に入れ、レバーを押した時だけ箱から出られるようにした。非常に多くの時間歩き回り鳴き声を上げていると、ネコは偶然レバーを踏むことになる。行動と好ましい結果を関連付ける学習をすると、最終的に箱から出るスピードが速くなるのだ。

非常に初期の人工知能研究者には、この過程を機械で有効に再現できるかもしれないと考える者もいた。1951年、マサチューセッツ工科大学(MIT)の教授として後にAIの創始者となるハーバード大学の学生マービン・ミンスキーは、迷路を通り抜けることを学習したラットの真似をする、シンプルな形式の強化学習を使った機械を作った。数多くの真空管、モーター、クラッチで構成されるミンスキーの(SNARC:Stochastic Neural Analogy Reinforcement Computer)は、40の神経とシナプスの動きをシミュレートした。シミュレートしたラットがバーチャルの迷路から抜け出した時、シナプス結合の力が強くなり、結合が強くなることで、成功に基づいた行動が強化されるのだ。

その後数十年ほとんど進展がなかった。19 …

こちらは会員限定の記事です。
無料登録すると1カ月10本までご利用いただけます。
こちらは有料会員限定の記事です。
有料会員になると制限なしにご利用いただけます。
ザ・デイリー重要なテクノロジーとイノベーションのニュースを平日毎日お届けします。
公式アカウント