行動の「取り消し」で深層強化学習を効率化、グーグルらが発表

深層強化学習は、子どもが何かの技能を学ぶのと非常に似ている。習うより慣れろだ。しかし、ロボットのような自律エージェントの場合、ある試みの後に次の試みを実施する前に、エージェントを取り巻く環境を元の状態に戻さなければならない。それは例えば、人間が走り回って物体を置き直すといった時間のかかる面倒な作業になることもある。

グーグル・ブレイン、ケンブリッジ大学、マックス・プランク知能システム研究所、カリフォルニア大学バークレー校の研究者は、次の試みを実施するために環境を元に戻すことや、元の状態に戻せないような行動はとらないことを、エージェントに教える方法について、アーカイブ（arXiv）に公開した新しい論文で詳細に記述している。

研究者たちは、一緒に機能する「進む」と「元に戻す」方策をエージェントに与えた。「進む」方策は技能を学習するのと一緒にタスクとして課されるのに対し、「元に戻す」方策はエージェントに「痕跡を残さない」方法を学ばせる。事実上、行動を巻き戻すのだ。元の状態に戻せないであろうとロボットが考える行動は、可能な限り早く打ち切られる。

研究たちは、元の状態に戻せるものは安全と分類するように、エージェントに「直感」を与えることを探究したという。試行錯誤を通して、このエージェントは可逆的であるさらに多くの行動を発見し、安全に探検できるようになる。

深層強化学習はしばしばシミュレーション環境で実行される。崖の上を運転する自律自動車のように、現実世界における間違いが取り返しがつかない結果を生む場合は特にそうだ。たとえより安全な状況でも、いちいち手作業で元に戻していたのでは、データを効率よく収集できない。そのため、今回の同チームの研究はバーチャルな環境に限られていた。しかし最終的には、現実世界でテストをしなければならない。この研究により、テストをより高速かつ安全に実施できるようになるかもしれない。

ジャック・クラークが自身の「インポートAI」ニューズレターの中で指摘するように、今回の論文はフェイスブックAI研究所が10月に発表した別の論文（PDF）で概説されている研究の繰り返しだ。こちらの論文の中では、単一のエージェントがアリスとボブと名付けられた二つのモードを持っており、一方はもう一方が完了しようと試みたタスクを元に戻そうとする。このような種類の研究は、AIが前もって計画できるようにすることで、未来における悲惨な間違いから自身や私たちを守るのに役立つのだ。

Robots Get an ‘Undo’ Button that Could Help Them Learn Faster 行動の「取り消し」で深層強化学習を効率化、グーグルらが発表