KADOKAWA Technology Review
×
GOOGLE DEEPMIND
Google DeepMind’s new generative model makes Super Mario-like games from scratch

手描きスケッチからマリオ風ゲームを生成、ディープマインド新モデル

大量のゲーム動画で訓練されたグーグル・ディープマインドのAIモデル「Genie」は、短いテキストやスケッチ、写真からビデオゲームを生成できる。 by Will Douglas Heaven2024.03.01

オープンAI(OpenAI)が2月に発表した生成モデル「Sora(ソラ)」は、人工知能(AI)によるテキスト・動画変換の限界を押し広げ、人々を驚かせた。そして今回、グーグル・ディープマインド(Deepmind)が発表したのは、AIによるテキスト・ビデオゲーム変換だ。

新モデル「Genie(ジーニー)」は、短い説明文や手書きのスケッチ、写真を、スーパーマリオブラザーズのような古典的な2Dプラットフォーマーのスタイルで、プレイ可能なビデオゲームに変換できる。ただし、過剰な期待は禁物だ。最近の一般的なゲームは1秒間に30~60フレームの画像が表示されるが、Genieが生成するゲームは1秒間に1フレームとなっている。

「すばらしい仕事です」。数年前に同様のゲーム・ジェネレーターを開発した経験がある、アルバータ大学のAI研究者のマシュー・グジアル助教授は話す。

Genieは、インターネット上で収集した何百もの2Dプラットフォーム・ゲームの3万時間分の動画で訓練された。グジアル助教授によれば、このアプローチ自体は新しいものではない。グジアル助教授のゲーム・ジェネレーターも動画から学んで抽象的なプラットフォーマーを作成した。エヌビディア(Nvidia)は映像データを使って「GameGAN」というモデルを訓練し、パックマン風のゲームを作り出すことに成功している。

ただ、これらはすべて、入力アクション、ゲーム・コントローラーのボタン押下、それに映像を使ってモデルを訓練している。例えば、マリオがジャンプしている映像フレームは「ジャンプ」アクションと紐づけられている。しかし、映像に入力アクションのタグ付けをするのは大変な作業だ。このため利用できる訓練データは限られている。

対照的に、Genieはビデオ映像だけで訓練された。Genieは8つの可能なアクションのうち、どのアクションがビデオ内のゲームキャラクターの位置を変化させるかを学習した。これにより、数え切れないほどの既存のネット動画が、潜在的な訓練データとなったのだ。

example of game generated from a crayon sketch
Genieは手描きのスケッチから簡単なゲームを生成できる

Genieは、プレイヤーのアクションに応じて、ゲームの新しいフレームをその場で生成する。ジャンプキーを押すと、Genieは現在の画像をアップデートし、ゲーム・キャラクターがジャンプしていることを示す。左キーを押すと、画像は変化してキャラクターが左に移動したことを示す。ゲームはアクションごとに進行し、プレイヤーがプレイするたびに新しいフレームがゼロから生成される。

Genieの将来のバージョンは、より高速に動作する可能性がある。「毎秒30フレームに到達することを妨げる基本的な制限はありません」。この研究チームを率いるグーグル・ディープマインドの上級研究科学者、ティム・ロックテッシェルは言う。「Genieは、現代の大規模言語モデル(LLM)と同じテクノロジーを多く使用しており、推論速度の向上が著しく進んでいます」。

Genieは2Dゲーム・プラットフォーマーによく見られるビジュアルの特異な動きを学んだ。この種のゲームの多くは、前景が背景よりも速く横に動く視差(パララックス)を利用している。Genieはしばしばこの効果を生成するゲームに加える。

Genieはディープマインドの社内研究プロジェクトであり、リリースされる予定はない。ただ、グジアル助教授によると、ディープマインドのチームは、Genieがいつかゲーム制作ツールになる可能性があると語っているという。こうしたことはまた、グジアル助教授も取り組んでいることである。「彼らが何を作るのか、非常に興味があります」。

バーチャルの遊び場

グーグル・ディープマインドの研究者たちが興味を持っているのは、ゲームの生成だけではない。Genieの担当チームは、オープンエンド学習に取り組んでいる。ここではAIコントロールのボットをバーチャル環境に落とし込み、試行錯誤しながらさまざまなタスクの解決方法を学習させる。強化学習として知られる手法だ。

2021年、ディープマインドの別のチームは、「XLand」と呼ばれるバーチャルの遊び場を開発し、そこでボットは障害物を移動させるなどの単純なタスクを解決するために協力する方法を学んだ。XLandのようなバーチャル環境は、将来のボットを実世界のシナリオと対戦させる前に、さまざまな課題に対応させるための訓練を受けさせる上で欠かせないものだ。ビデオゲームの例は、Genieがボットが遊ぶためのバーチャル・サンドボックスを作り出すせることを証明している。

同じような世界構築ツールを開発した人たちもいる。例えば、グーグル・ブレイン(Google Brain)のデイビッド・ハーと、スイスのAI研究所であるIDSIAのユルゲン・シュミッドフーバーは2018年、世界モデルと呼ばれるゲームベースのバーチャル環境でボットを訓練するツールを開発した。しかし、これもまたGenieとは異なり、学習データには入力アクションが含まれる必要があった。

ディープマインドの研究チームは、Genieの能力がロボット工学にも役立つことを実証した。Genieに実際のロボットアームがさまざまな家庭用品を操作しているビデオを見せることで、このモデルはそのアームがどのような動作ができるのか、そしてどのようにコントローラーすればいいのかを学んだ。将来のロボットは、ビデオ・チュートリアルを見ることで新しいタスクを学習できるようになるだろう。

「どのような使用事例が可能になるかを予測するのは難しいです」とロックテッシェルは語る。「Genieのようなプロジェクトが、最終的には人々に創造性を表現するための新しいツールを提供することを期待しています」。

人気の記事ランキング
  1. Inside the tedious effort to tally AI’s energy appetite 動画生成は別次元、思ったより深刻だったAIの電力問題
  2. Promotion Call for entries for Innovators Under 35 Japan 2025 「Innovators Under 35 Japan」2025年度候補者募集のお知らせ
  3. IBM aims to build the world’s first large-scale, error-corrected quantum computer by 2028 IBM、世界初の大規模誤り訂正量子コンピューター 28年実現へ
  4. What is vibe coding, exactly? バイブコーディングとは何か? AIに「委ねる」プログラミング新手法
ウィル・ダグラス・ヘブン [Will Douglas Heaven]米国版 AI担当上級編集者
AI担当上級編集者として、新研究や新トレンド、その背後にいる人々を取材しています。前職では、テクノロジーと政治に関するBBCのWebサイト「フューチャー・ナウ(Future Now)」の創刊編集長、ニュー・サイエンティスト(New Scientist)誌のテクノロジー統括編集長を務めていました。インペリアル・カレッジ・ロンドンでコンピュータサイエンスの博士号を取得しており、ロボット制御についての知識があります。
日本発「世界を変える」U35イノベーター

MITテクノロジーレビューが20年以上にわたって開催しているグローバル・アワード「Innovators Under 35 」。世界的な課題解決に取り組み、向こう数十年間の未来を形作る若きイノベーターの発掘を目的とするアワードの日本版の最新情報を発信する。

特集ページへ
MITTRが選んだ 世界を変える10大技術 2025年版

本当に長期的に重要となるものは何か?これは、毎年このリストを作成する際に私たちが取り組む問いである。未来を完全に見通すことはできないが、これらの技術が今後何十年にもわたって世界に大きな影響を与えると私たちは予測している。

特集ページへ
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る