Google DeepMind is using Gemini to train agents inside Goat Simulator 3

人間の指示でAIが複数ゲームをプレイ、賢くなったグーグル「SIMA 2」

グーグル・ディープマインドは、複数のバーチャル世界内で複雑なタスクを実行し、問題を自力で解決できるAIエージェント「SIMA（シーマ）2」を発表した。将来は実世界のロボットを動かすことを目指している。 by Will Douglas Heaven2025.11.17

この記事の3つのポイント

グーグルが複数のバーチャル世界で課題解決可能なゲームプレイ用エージェント「SIMA2」を発表
人間の指示に従い、オープンエンドなタスクを実行する汎用的アプローチを採用
複雑なタスクや長期記憶に課題が残るものの、将来的な実世界ロボット応用が期待される

summarized by Claude 3

グーグル・ディープマインド（Google DeepMind）は、広範な3Dバーチャル世界をナビゲートし、課題を解決できる新しいビデオゲームプレイ用エージェント「SIMA （シーマ）2」を構築した。同社は、より汎用的なエージェントと、より優れた実世界のロボットに向けた大きな一歩だと主張している。

グーグル・ディープマインドは2024年、「SIMA（scalable instructable multiworld agentの略）」のデモを初めて披露した。今回のSIMA 2は、同社の主力大規模言語モデル（LLM）である「Gemini（ジェミニ）」上に構築されたことで、エージェント能力が大幅に向上している。

同社の研究チームによると、SIMA 2はバーチャル世界内でより複雑なタスクを実行し、特定の課題を自力で解決する方法を見つけ出し、ユーザーとのチャットもできるという。より困難なタスクに複数回取り組み、試行錯誤を通じて学習することで自己改善も可能だとしている

「ゲームは長い間、エージェント研究の推進力となってきました」。グーグル・ディープマインドの研究科学者であるジョー・マリーノ博士は記者会見で述べた。マリーノ博士は、ランタンに火を灯すといったゲーム内の一見すると単純な行動でさえ、複数のステップを含むことがあると指摘する。「前に進むには、本当に複雑なタスクの集合を解決しなければならないのです」。

グーグル・ディープマインドの最終的な目標は、Webブラウザーよりもはるかに複雑な環境の中で指示に従い、オープンエンドなタスクを実行できる次世代エージェントを開発することである。同社は長期的には、そのようなエージェントを使って実世界のロボットを動かしたいと考えだ。マリーノ博士は、環境のナビゲーション、ツールの使用、問題解決における人間との協力といったSIMA 2が学習したスキルは、将来のロボット・コンパニオンにとって不可欠な構成要素だと主張した。

ゲームプレイ・エージェントの過去の研究例には、2016年に囲碁の名人を破った「AlphaZero（アルファゼロ）」や、2019年にビデオゲーム「StarCraft（スタークラフト） 2」でランキング上位の人間のプレイヤーの99.8%を破った「AlphaStar（アルファスター）」などがある。SIMAはそれらとは異なる。事前に設定された目標なしにオープンエンドなゲームをプレイするようにエージェントを訓練する、という発想に基づいている。代わりに、SIMAは人間から与えられた指示を実行することを学習する。

人間はテキストチャット、音声での会話、またはゲーム画面への描画を通じてSIMA 2を操作する。エージェントはビデオゲームのピクセル情報をフレームごとに取り込み、タスクを実行するために必要な行動を判断する。

先代のSIMAと同様に、SIMA 2は「No Man’s Sky（ノーマンズスカイ）」や「Goat Simulator（ゴートシミュレーター） 3」を含む8つの商用ビデオゲームと、同社が作成した3つのバーチャル世界で人間がプレイする映像で訓練された。AIエージェントはキーボードとマウスの入力を行動に対応させることを学習した。

研究チームによると、Geminiに接続されたSIMA 2は、指示に従うこと（進行中に質問をし、最新情報を提供する）と、より複雑なタスクを実行する方法を自力で見つけ出すことにおいて、はるかに優れているという。

グーグル・ディープマインドは、SIMA 2がこれまでに見たことのない環境内で、エージェントのテストを実施した。一連の実験では、研究チームは同社のワールドモデルの最新版である「Genie 3（ジーニー3）」に環境をゼロから生成するよう求め、SIMA 2をその中に投入した。すると、エージェントはそのバーチャル世界をナビゲートし、指示を実行できることが確認された。

研究チームはまた、Geminiを使ってSIMA 2に新しいタスクを生成した。エージェントが失敗した場合は、最初にGeminiがヒントを生成し、SIMA 2は再挑戦時にそれを取り入れた。このようにタスクを複数回繰り返すことで、SIMA 2は成功するまで試行錯誤によって改善することが多かったと、マリーノ博士は述べた。

上達への道

SIMA 2はまだ実験段階である。このエージェントは、複数のステップが必要で、完了に多くの時間を要する複雑なタスクに苦戦している。研究チームはまた、SIMA 2の応答性を高めるために長期記憶を削減しており、最新のやり取りしか記憶しない。バーチャル世界とのやり取りにマウスとキーボードを使用することにおいても、人間の操作にはまだ遠く及ばない。

創造性とビデオゲームを専門とするニューヨーク大学のAI研究者、ジュリアン・トゲリウス准教授は、これは興味深い結果だと考えている。複数のゲームをプレイする単一システムを訓練する以前の試みはあまりうまくいかなかったとトゲリウス准教授は言う。それは、画面を見るだけで複数のゲームを制御するようモデルを訓練することが簡単ではないからだ。「視覚入力のみからリアルタイムでプレイするのは『ハードモード』です」。

特にトゲリウス准教授は、グーグル・ディープマインドの以前のシステムである「Gato（ガトー）」を挙げている。これは当時は大いに宣伝されたにもかかわらず、多くのバーチャル環境にまたがってスキルを転移させることができなかった。s.

それでもトゲリウス准教授は、SIMA 2がより優れたロボットにつながるかどうかについては肯定的に考えている。「現実世界はビデオゲームよりも困難でもあり、簡単でもあります」と同准教授は言う。ドアを開くのにAボタンを押すだけではいかないため、より困難であると同時に、現実世界のロボットは、いつでも自分に何ができて何ができないかを正確に知っている。これは、それぞれのバーチャル世界においてルールが異なる可能性があるビデオゲームとは異なる点だ。

より懐疑的な立場の研究者もいる。アルバータ大学のAI研究者であるマシュー・グズディアル准教授は、SIMA 2が多くの異なるビデオゲームをプレイできることにそれほど驚いていない。グズディアル准教授は、ほとんどのゲームにおいて、キーボードとマウスの操作体系が非常に似ていることを指摘する。1つの操作を覚えればすべてを覚えたも同然だ、というわけだ。「奇妙な入力方式を持つゲームを与えたら、SIMA 2はうまく実行できないと思います」と同准教授は言う。

グズディアル准教授はまた、SIMA 2が学習したことのうち、実際にロボットに引き継げるものがどの程度あるかも疑問視している。「人間のプレイヤーにとって解析しやすい視覚要素で設計されているゲームに比べると、現実世界のカメラからの視覚情報を理解することははるかに困難です」。

それでも、マリーノ博士ら研究チームは、Genie 3との作業を継続し、エージェントが一種の無限のバーチャル訓練道場内で改善できるようにしたいと考えている。そこでは、GenieがSIMAが学習する世界を生成し、Geminiのフィードバックに導かれた試行錯誤を通じて学習する。「私たちはまだ、可能性の表面をかすったに過ぎません」とマリーロ博士は記者会見で述べた。

人気の記事ランキング

ウィル・ダグラス・ヘブン [Will Douglas Heaven]米国版 AI担当上級編集者: AI担当上級編集者として、新研究や新トレンド、その背後にいる人々を取材。前職では、テクノロジーと政治に関するBBCのWebサイト「フューチャー・ナウ（Future Now）」の創刊編集長、ニュー・サイエンティスト（New Scientist）誌のテクノロジー統括編集長を務めた。インペリアル・カレッジ・ロンドンでコンピューターサイエンスの博士号を取得しており、ロボット制御についての知識を持つ。

▼Promotion