生成AI「Sora」で作られた驚きの動画、制作者に聞く舞台裏

How three filmmakers created Sora’s latest jaw-dropping videos 生成AI「Sora」で作られた驚きの動画、制作者に聞く舞台裏

オープンAI(OpenAI)は、同社が2月中旬に公開した新たな動画生成モデル「Sora(ソラ)」を用いて映像クリエイターが制作した映像をいくつか公開した。3人のクリエイターに、映像制作の狙いや制作手法について聞いた。 by Will Douglas Heaven2024.03.29

先月登場したオープンAI(OpenAI)の動画生成モデル「Sora(ソラ)」。まだ一般公開はされていないが、オープンAIは一部の映像クリエイターに試用を認めている。オープンAIが今週公開したその結果は、驚くべきものだった。これらの短い映像作品は、ほんの6週間前にオープンAIが、新たな生成モデルの情報を小出しにするのに用いた選りすぐりのサンプル映像と比べても、大きな飛躍を示すものだ。

ここでは、3人の映像作家がどのような方法でこれらの映像を作ったのか紹介しよう。

『エアヘッド』(制作:シャイ・キッズ)

 

シャイ・キッズ(Shy Kids)は、トロントを拠点とするポップバンド兼映像製作集団で、自らのスタイルを「パンクロック・ピクサー」と称している。シャイ・キッズは以前にも映像生成テクノロジーを試したことがある。昨年、自分たちの楽曲のミュージックビデオ製作に、「ステーブル・ワープフュージョン(Stable Warpfusion)」というオープンソースのツールを使ったのだ。クールな仕上がりだが、解像度が低く、乱れもある。 シャイ・キッズが今回、Soraを用いて作った『エアヘッド(Air Head)』という映像作品は、本物に見えるかもしれない。もし顔が風船の男が登場しなければ。

ほとんどの動画生成ツールに共通するひとつの問題点として、フレームをまたいで一貫性を維持するのが難しいということがある。オープンAIからSoraの試用を依頼されたシャイ・キッズは、どこまでできるかを試したいと考えた。「一貫性のあるキャラクターを作れるのかという点が、楽しく興味深い実験になると思いました」と、シャイ・キッズのメンバーであるウォルター・ウッドマンは言う。「おおむね成功だったと思います」。

生成モデルは、手や顔といった身体構造上の細部についても苦戦することがある。しかし、シャイ・キッズの映像では、乗客でいっぱいの列車の車両のシーンがあり、乗客たちの顔は完璧に近い。ウッドマンは「Soraの性能は驚異的です」と言う。「列車の乗客の顔は全てSoraによるものです」。

では、顔と手に関する生成AIの問題は、ついに解決されたのだろうか。そういうわけではない。エア・ヘッドの全てに、Soraの生成した動画がそのまま用いられているわけではない。シャイ・キッズは、Soraを使って作ったさまざまなクリップを編集でつなぎ合わせた後、より良い映像作品にするために多くの加工をした。たとえば、視覚効果ツールを用いてメインキャラクターの風船顔が映る一部のショットを修正した。

ウッドマンは、音楽(シャイ・キッズが作曲・演奏)とナレーション(同じくシャイ・キッズが原稿作成・読み上げ)が、映像のクオリティをさらに高めているとも考えている。こういった人間的要素をSoraの生成物に融合させることで、生き生きとした映像作品になっていると、ウッドマンは語る。「テクノロジーには人が欠かせません。強力なツールですが、それを操るのは人なのです」。

『アブストラクト』(制作:ポール・トリロ)

独立系映像作家のポール・トリロは、映画の視覚面についてSoraの可能性を拡げたいと考えた。トリロの映像は、レトロな映像をミラーボールに変身する人物やブレイクダンスを踊るゴミ男のショットと組み合わせたものだ。ここで見られる映像は全てSoraが生成したそのままであり、加工はしていないという。「色補正も追加の視覚効果もなしです」。最初のジャンプカット編集も、Soraを用いて生成されたものだ。

トリロは、オープンAIが先月公開したデモは、あまりにもビデオゲームの映像のように見えると感じたので、「他にどんな美的表現ができるのか見たいと思いました」と言う。その結果が、ヴィンテージの16ミリ・フィルムで撮影したような映像だ。「相当な試行錯誤が必要でしたが、映像をより有機的、もしくは映画的な雰囲気にするのに役立つ一連のプロンプトを見つけました」。

『ビヨンド・アワー・リアリティ(Beyond our reality)』(制作:ドン・アレン・スティーブンソン)

映像作家で視覚効果アーティストのドン・アレン・スティーブンソン三世(Don Allen Stevenson III)は、2年程前にオープンAIに招かれて、画像生成モデル「DALL-E 2(ダリー2)」のテストに参加したアーティストの1人である。スティーブンソンの映像作品は、キリンフラミンゴからネコウナギまでいろいろな想像上の動物を紹介する、ナショナル ジオグラフィック風の自然ドキュメンタリーだ。

スティーブンソンによれば、テキストから映像を生成するのは、テキストから画像を生成するのと多くの点で似通っている。「テキストプロンプトを入力し、それから何度もプロンプトを微調整して、生成されたものを見るという具合です」と言う。しかし、さらなる難題がある。さまざまなプロンプトを試している時、Soraは解像度の低い映像を生成する。好みのものに行き当たれば、その後、解像度を上げることができる。しかし、低解像度から高解像度に変えるのは生成モデルであり、低解像度バージョンで気に入った部分が失われてしまう可能性がある。時にはカメラアングルが変わってしまったり、ショットに映る被写体が移動してしまったりするとスティーブンソンは言う。

あらゆる生成モデルと同様に、Soraにもいまだに幻覚(ハルシネーション)が見られる。静止画ではハルシネーションにより奇妙な視覚的欠陥が生まれるが、映像においてはこういった欠陥が時をまたいで現れてフレーム間で奇妙な非連続的動きが生まれてしまう。

スティーブンソンは、Sora特有の言語の使い方も理解しなくてはならなかった。Soraはプロンプトを本当に文字通りに受け取るのだという。スティーブンソンはある実験において、ヘリコプターにズームインするショットを作ろうとした。Soraは、ヘリコプターとカメラのズームレンズを組み合わせたクリップを生成した。

しかし、多くの創造的なプロンプトを使えば、Soraをコントロールするのは以前のモデルに比べて簡単だと、スティーブンソンは言う。

それでも、驚きはSoraを使うのを楽しくする要素のひとつだと、スティーブンソンは考えている。「私はコントロールがあまり効かないのが好きで、それがもたらす混沌が好きなのです」と言う。編集および視覚効果についてコントロールできる映像製作ツールは他に数多くある。スティーブンソンにとってSoraのような生成モデルの大事な点は、第一に、取り組むべき奇妙で意外な素材を提示してくれることだ。

動物たちのクリップは全てSoraによって生成された。スティーブンソンは気に入る映像が生成されるまで、多様なプロンプトを試した。「私は指示を出しましたが、指示というよりも控えめな誘導です」と言う。指示を出した後、いろいろと試して、何度もやり直した。

たとえば、スティーブンソンはキツネカラスを4本脚を持つものとして思い描いた。しかし、Soraが2本脚にしたところ、もっと良かった(完璧ではない。鋭い観察眼を持つ人なら、映像内のある時点でキツネカラスが2本脚から4本脚に変わり、また戻るのに気付くだろう)。Soraは、採用するには不気味過ぎるとスティーブンソンが判断したものもいくつか生み出した。

スティーブンソンは、本当に気に入った動物の映像が集まると、編集でつなげてひとつにし、キャプションとナレーションを入れて仕上げた。スティーブンソンは、既存のツールによって空想の動物たちを作ることもできただろう。しかし、数時間もしくは数日間かかっただろうと、スティーブンソンは言う。Soraを使えば、製作プロセスははるかに迅速だ。

「かっこよく見えそうなものを創造しようとして、たくさんの異なるキャラクターを試しました」と言う。「でたらめな生き物のビデオクリップがかなり多く手元にあります」。うまく行き始めたのは、Soraのキリンフラミンゴを見た時だった。「私は、この生き物にはどんな物語があるか、何を食べるのか、どこに棲むのかと考え始めました」。スティーブンソンは、空想の動物たちをより深く追う一連の派生映像作品を公開しようと計画している。

スティーブンソンはまた、自身が生み出した空想の動物たちが、より重要な役割を果たすことを期待している。「SNSのフィードを埋め尽くす新たなタイプのコンテンツが多く登場するでしょう」と語る。「人々に本物を見分けてもらうのが難しくなります。私の意見では、明らかに空想のストーリーを語るのがひとつのやり方です」。

スティーブンソンは、自分の映像作品で初めて、多くの人々が生成モデルにより生み出された映像を目にするかもしれないと指摘し、第一印象で「これは本物ではない」と明確に伝わってほしいと考えている。