KADOKAWA Technology Review
×
GOOGLE DEEPMIND
Google DeepMind’s new generative model makes Super Mario-like games from scratch

手描きスケッチからマリオ風ゲームを生成、ディープマインド新モデル

大量のゲーム動画で訓練されたグーグル・ディープマインドのAIモデル「Genie」は、短いテキストやスケッチ、写真からビデオゲームを生成できる。 by Will Douglas Heaven2024.03.01

オープンAI(OpenAI)が2月に発表した生成モデル「Sora(ソラ)」は、人工知能(AI)によるテキスト・動画変換の限界を押し広げ、人々を驚かせた。そして今回、グーグル・ディープマインド(Deepmind)が発表したのは、AIによるテキスト・ビデオゲーム変換だ。

新モデル「Genie(ジーニー)」は、短い説明文や手書きのスケッチ、写真を、スーパーマリオブラザーズのような古典的な2Dプラットフォーマーのスタイルで、プレイ可能なビデオゲームに変換できる。ただし、過剰な期待は禁物だ。最近の一般的なゲームは1秒間に30~60フレームの画像が表示されるが、Genieが生成するゲームは1秒間に1フレームとなっている。

「すばらしい仕事です」。数年前に同様のゲーム・ジェネレーターを開発した経験がある、アルバータ大学のAI研究者のマシュー・グジアル助教授は話す。

Genieは、インターネット上で収集した何百もの2Dプラットフォーム・ゲームの3万時間分の動画で訓練された。グジアル助教授によれば、このアプローチ自体は新しいものではない。グジアル助教授のゲーム・ジェネレーターも動画から学んで抽象的なプラットフォーマーを作成した。エヌビディア(Nvidia)は映像データを使って「GameGAN」というモデルを訓練し、パックマン風のゲームを作り出すことに成功している。

ただ、これらはすべて、入力アクション、ゲーム・コントローラーのボタン押下、それに映像を使ってモデルを訓練している。例えば、マリオがジャンプしている映像フレームは「ジャンプ」アクションと紐づけられている。しかし、映像に入力アクションのタグ付けをするのは大変な作業だ。このため利用できる訓練データは限られている。

対照的に、Genieはビデオ映像だけで訓練された。Genieは8つの可能なアクションのうち、どのアクションがビデオ内のゲームキャラクターの位置を変化させるかを学習した。これにより、数え切れないほどの既存のネット動画が、潜在的な訓練データとなったのだ。

example of game generated from a crayon sketch
Genieは手描きのスケッチから簡単なゲームを生成できる

Genieは、プレイヤーのアクションに応じて、ゲームの新しいフレームをその場で生成する。ジャンプキーを押すと、Genieは現在の画像をアップデートし、ゲーム・キャラクターがジャンプしていることを示す。左キーを押すと、画像は変化してキャラクターが左に移動したことを示す。ゲームはアクションごとに進行し、プレイヤーがプレイするたびに新しいフレームがゼロから生成される。

Genieの将来のバージョンは、より高速に動作する可能性がある。「毎秒30フレームに到達することを妨げる基本的な制限はありません」。この研究チームを率いるグーグル・ディープマインドの上級研究科学者、ティム・ロックテッシェルは言う。「Genieは、現代の大規模言語モデル(LLM)と同じテクノロジーを多く使用しており、推論速度の向上が著しく進んでいます」。

Genieは2Dゲーム・プラットフォーマーによく見られるビジュアルの特異な動きを学んだ。この種のゲームの多くは、前景が背景よりも速く横に動く視差(パララックス)を利用している。Genieはしばしばこの効果を生成するゲームに加える。

Genieはディープマインドの社内研究プロジェクトであり、リリースされる予定はない。ただ、グジアル助教授によると、ディープマインドのチームは、Genieがいつかゲーム制作ツールになる可能性があると語っているという。こうしたことはまた、グジアル助教授も取り組んでいることである。「彼らが何を作るのか、非常に興味があります」。

バーチャルの遊び場

グーグル・ディープマインドの研究者たちが興味を持っているのは、ゲームの生成だけではない。Genieの担当チームは、オープンエンド学習に取り組んでいる。ここではAIコントロールのボットをバーチャル環境に落とし込み、試行錯誤しながらさまざまなタスクの解決方法を学習させる。強化学習として知られる手法だ。

2021年、ディープマインドの別のチームは、「XLand」と呼ばれるバーチャルの遊び場を開発し、そこでボットは障害物を移動させるなどの単純なタスクを解決するために協力する方法を学んだ。XLandのようなバーチャル環境は、将来のボットを実世界のシナリオと対戦させる前に、さまざまな課題に対応させるための訓練を受けさせる上で欠かせないものだ。ビデオゲームの例は、Genieがボットが遊ぶためのバーチャル・サンドボックスを作り出すせることを証明している。

同じような世界構築ツールを開発した人たちもいる。例えば、グーグル・ブレイン(Google Brain)のデイビッド・ハーと、スイスのAI研究所であるIDSIAのユルゲン・シュミッドフーバーは2018年、世界モデルと呼ばれるゲームベースのバーチャル環境でボットを訓練するツールを開発した。しかし、これもまたGenieとは異なり、学習データには入力アクションが含まれる必要があった。

ディープマインドの研究チームは、Genieの能力がロボット工学にも役立つことを実証した。Genieに実際のロボットアームがさまざまな家庭用品を操作しているビデオを見せることで、このモデルはそのアームがどのような動作ができるのか、そしてどのようにコントローラーすればいいのかを学んだ。将来のロボットは、ビデオ・チュートリアルを見ることで新しいタスクを学習できるようになるだろう。

「どのような使用事例が可能になるかを予測するのは難しいです」とロックテッシェルは語る。「Genieのようなプロジェクトが、最終的には人々に創造性を表現するための新しいツールを提供することを期待しています」。

人気の記事ランキング
  1. Why it’s so hard for China’s chip industry to become self-sufficient 中国テック事情:チップ国産化推進で、打倒「味の素」の動き
  2. How thermal batteries are heating up energy storage レンガにエネルギーを蓄える「熱電池」に熱視線が注がれる理由
  3. Three reasons robots are about to become more way useful  生成AI革命の次は「ロボット革命」 夢が近づく3つの理由
  4. Researchers taught robots to run. Now they’re teaching them to walk 走るから歩くへ、強化学習AIで地道に進化する人型ロボット
ウィル・ダグラス・ヘブン [Will Douglas Heaven]米国版 AI担当上級編集者
AI担当上級編集者として、新研究や新トレンド、その背後にいる人々を取材しています。前職では、テクノロジーと政治に関するBBCのWebサイト「フューチャー・ナウ(Future Now)」の創刊編集長、ニュー・サイエンティスト(New Scientist)誌のテクノロジー統括編集長を務めていました。インペリアル・カレッジ・ロンドンでコンピュータサイエンスの博士号を取得しており、ロボット制御についての知識があります。
10 Breakthrough Technologies 2024

MITテクノロジーレビューは毎年、世界に真のインパクトを与える有望なテクノロジーを探している。本誌がいま最も重要だと考える進歩を紹介しよう。

記事一覧を見る
人気の記事ランキング
  1. Why it’s so hard for China’s chip industry to become self-sufficient 中国テック事情:チップ国産化推進で、打倒「味の素」の動き
  2. How thermal batteries are heating up energy storage レンガにエネルギーを蓄える「熱電池」に熱視線が注がれる理由
  3. Three reasons robots are about to become more way useful  生成AI革命の次は「ロボット革命」 夢が近づく3つの理由
  4. Researchers taught robots to run. Now they’re teaching them to walk 走るから歩くへ、強化学習AIで地道に進化する人型ロボット
気候テック企業15 2023

MITテクノロジーレビューの「気候テック企業15」は、温室効果ガスの排出量を大幅に削減する、あるいは地球温暖化の脅威に対処できる可能性が高い有望な「気候テック企業」の年次リストである。

記事一覧を見る
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る