AIの失敗に学ぶ、新方式のロボット訓練フリーソフトが公開

There’s a new way to have robots learn from their mistakes AIの失敗に学ぶ、新方式のロボット訓練フリーソフトが公開

1つの作業におけるすべての誤った行動を、別の作業の一部で使えるかどうかを考えることで、人工知能(AI)に後知恵を与えることができる。 by Jackie Snow2018.03.01

1つの作業におけるすべての誤った行動を、別の作業の一部で使えるかどうかを考えることで、人工知能(AI)に後知恵を与えることができる。

人間は失敗をすると、いくつかのことを学ぶことができる。たとえば、さっきの作業でやってみたアプローチがうまくいかなかったが、その方法は他の作業で役立つかもしれない、といったことなどだ。しかし、ロボットが単独でタスクを習得しようとするときは通常、正しく実行した仕事の各段階に対して報酬を得ることによってのみ学習する。

IEEEスペクトラム(IEEE Spectrum)の伝えるところによると、非営利の研究機関であるオープンAI(OpenAI)がリリースしたフリーソフトウェア「ハインドサイト・エクスペリエンス・リプレイ(Hindsight Experience Replay=HER)」は、AIの「失敗」から成功を引き出すことができるという。 これは、1つの作業をするためのすべての試みが、他の作業にどのように適用できるかを調べることによって実現する。HERにはバーチャルな環境も含まれており、AIが物を拾ったり、ペンを持ったりする練習ができる。

HERがロボットを訓練する方法は、より現実的だ。作業の1つの段階がうまくできただけではロボットに報酬を与えず、すべてが適切に実行された場合にのみ報酬を与えるのだ。ロボットが実際の生活で学習するやり方に近いが、通常は訓練が遅くなってしまう。 それでもなお、失敗した試みはすべて別の仕事にも使うことができるため、オープンAIのシステムではたいした問題ではない。