動画でも生成革命、オープンAIが新モデル「Sora」を発表

OpenAI teases an amazing new generative video model called Sora 動画でも生成革命、オープンAIが新モデル「Sora」を発表

オープンAIは新たなテキスト-動画生成モデル「Sora」を発表した。公開された映像は驚異的だが、一般公開の予定はまだない。 by Will Douglas Heaven2024.02.16

オープンAI(OpenAI)は、新たな動画生成モデル「ソラ(Sora、日本語の「空」に由来)」を開発した。短いテキストの説明から、1分以内の詳細な高解像度フィルムクリップを作成できる驚くべきモデルだ。

オープンAIが発表前にMITテクノロジーレビューに提供した4点のサンプル動画は、同社がテキストからの動画生成技術(本誌が2024年の注目トレンドと目していた新しい研究の方向性)の可能性を押し広げたことを示している。

オープンAIの科学者であるティム・ブルックスは、「動画を理解し、我々の世界に存在する非常に複雑な相互作用を全て理解できるモデルを構築することは、あらゆる人工知能(AI)システムの将来に向けた重要なステップだと考えています」と言う。

ただし、免責事項がある。オープンAIは、Soraのプレビューについて、「ニュースが一般公開されるまで外部専門家の意見を求めない」との条件付きで本誌に情報を提供した。オープンAIは技術レポートを公開しておらず、同モデルが実際に機能するかどうか本誌は検証していない。さらに、同社はSoraを直近でリリースする予定もないという。

https://wp.technologyreview.com/wp-content/uploads/2024/02/monster.mp4
プロンプト:アニメーションのワンシーン。溶けた赤いろうそくの横にひざまずく、背の低いふわふわの怪物がクローズアップされている。アートスタイルはリアルな3Dで、照明とテクスチャーが重視されている。この画像からは怪物の驚きと好奇心が伝わってくる。大きな目を見開き、口を開けて炎を見つめているからだ。怪物のポーズと表情から、初めて周囲の世界を探検しているような、無邪気で遊び心にあふれた様子が伝わってくる。暖色系の色づかいとドラマチックな照明が、心地よい画像の雰囲気をさらに高めている。
提供:オープンAI
https://wp.technologyreview.com/wp-content/uploads/2024/02/origami.mp4
プロンプト:豪華なレンダリング加工が施されたペーパークラフトの世界が広がっているサンゴ礁。色とりどりの魚や海の生き物がたくさんいる
提供:オープンAI

テキストの断片から動画を生成できる初の生成モデルは、2022年後半に登場している。しかし、メタ、グーグル、そしてランウェイ(Runway)というスタートアップ企業による初期サンプルには多くの欠点があり、画像も粗かった。それ以降、技術は急速に進歩した。昨年リリースされたランウェイの「ジェン2(Gen-2)」モデルは、大手スタジオのアニメーションに匹敵するクオリティのショートクリップを作成できるようになった。ただし、サンプルのほとんどはまだ数秒という短さだ。

オープンAIのSoraのサンプル動画は、高解像度で細部まで緻密に描写されている。オープンAIによれば最長1分の動画を生成できるという。東京の街並みを描いた動画からは、Soraが物体を立体的に組み合わせる方法を学習していることが分かる。カメラは急降下し、商店街を通り過ぎるカップルを追いかける。

オープンAIの主張によれば、Soraはオクルージョン(手前の物体が後ろの物体を隠す様子)もうまく表現できるという。ただし既存モデルの問題点として、対象物が視界から消えたときに追跡できない可能性がある。たとえばトラックが道路標識の前を通り過ぎた場合、その標識はもう現れないかもしれない。

また、ペーパークラフトの水中シーンの動画では、動画間にカットのようなものが挿入されており、動画全体を通してこのスタイルが維持されていた。

動画は完璧ではない。東京の動画では、左側の車が隣を歩いている人よりも小さく見える。車は木の枝の間も出入りしている。「長期的一貫性という観点からは、確かに修正すべき問題があります」とブルックスは言う。「たとえば、ある人物が長い間視界から消えてしまうと、もう戻ってきません。彼らがそこにいるはずだったことをモデルが忘れてしまうのです」。

「技術的な予告動画」

今回紹介されたサンプル動画は、確かに驚くべきものだったが、これらは間違いなくSoraの最高の状態を示すために厳選されたものである。より詳細な情報がなければ、これらの動画がSoraの典型的な出力をどの程度示しているのかは不明だ。

それが判明するには、まだしばらく時間がかかりそうだ。オープンAIによれば、今回のSoraの発表は「技術的な予告動画」であり、現時点でSoraの一般公開予定はないという。その代わり、オープンAIは、サードパーティーの安全性テスターにSoraを初公開する予定だ。

オープンAIが特に懸念しているのは、写実的なフェイク動画悪用される可能性だ。オープンAIの科学者であり、同社のテキスト-画像生成モデル「ダリー(DALL-E)」を開発したアディティヤ・ラメッシュは、「Soraを一般公開する前の現段階でデプロイメントに注意を払い、あらゆる基盤に問題がないことを確認しています」と言う。

しかし、オープンAIは将来の製品化を視野に入れている。同社は安全性テスター関係者だけでなく、厳選した動画制作者や芸術家のグループにもSoraを公開している。同モデルがクリエイティブのプロにとって限りなく有用なツールとなるよう、フィードバックを得るためだ。「もうひとつの目的は、皆さんにこのようなモデルの今後の展望を示し、どんな機能が利用できるようになるかを予告することです」と、ラメッシュは言う。

Soraの構築にあたり、チームはオープンAIの主力テキスト-画像生成モデル「DALL-E3」を支えている技術をSoraに採用した。大半のテキスト-画像生成モデルと同様、DALL-E 3も拡散モデルを使用している。拡散モデルは、ピクセルのファズ(ランダムなデータ)を画像に変換するよう訓練されている。

Soraはこの手法を、画像ではなく動画に適用している。しかし、研究チームは別の技術も付け加えた。DALL-Eや多くの他の動画生成モデルとは異なり、Soraは拡散モデルに「トランスフォーマー」と呼ばれるニューラルネットワーク技術を組み合わせている。

トランスフォーマーは、単語などの長いデータ列の処理を得意とする。そのため、オープンAIの「GPT-4」やグーグル・ディープマインドの「ジェミナイ(Gemini)」といった大規模言語モデル内部でカギとなる技術として使用されている。しかし、動画は単語で構成されているわけではない。動画を単語のように扱うため、研究チームは動画を「チャンク(塊)」に分割する方法を見つけなければならなかった。そこで彼らが思い付いたのが、動画を「空間」と「時間」の両方においてサイコロ状に分割するという手法だ。「全ての動画フレームを積み重ね、そこから小さな立方体を切り出すといった手法です」とブルックスは言う。

Soraに搭載されたトランスフォーマーは、大規模言語モデルに搭載されたトランスフォーマーがテキストブロック内の単語を処理するのと同じような方法で、動画データ内の「チャンク」を処理できる。研究チームによれば、この方法により、他のテキスト動画変換モデルよりも多くの種類の動画を用いてSoraを訓練できた。訓練内容には、解像度、時間、アスペクト比、向きの違いも含まれる。「このような訓練は、Soraにとても役立ちます」と、ブルックスは言う。「他の既存の訓練では使われていない方法です」。

https://wp.technologyreview.com/wp-content/uploads/2024/02/mammoth.mp4
プロンプト:数頭の巨大なケナガマンモスが雪原を踏みしめながら近づいてくる。羊毛のように長いマンモスの毛は、歩くたびに風に軽くたなびいている。雪に覆われた木々、遠くに見える雪を頂いた荘厳な山脈、うっすらと雲がかかった昼下がりの光が映し出される。遠く高い位置にある太陽が暖かく辺りを照らし、カメラは低いアングルから、美しい画像と被写界深度により、この大きくて毛むくじゃらな哺乳類の姿を見事に捉えている。
提供:オープンAI
https://wp.technologyreview.com/wp-content/uploads/2024/02/tokyo_dc26ad.mp4
プロンプト:雪に覆われた美しい東京の街がにぎわっている。カメラはにぎわう街の通りを移動しながら美しい雪景色を楽しんだり、近くの売店で買い物をする数人の人々を追ったりしている。華やかな桜の花びらが、雪の結晶とともに風に舞っている。
提供:オープンAI

オープンAIは、動画生成モデルに伴うリスクを十分に認識している。すでにディープフェイク画像の大規模な悪用が発生している。写実的な動画は、このようなリスクを別次元にまで引き上げる。

開発チームは、昨年DALL-E 3に実施した安全性テストを活用する予定だ。Soraには送信されるすべてのプロンプトで実行されるフィルターがすでに搭載されており、暴力的、性的、憎悪的な画像や、既知の人物の画像要求をブロックする。さらに、生成された動画のフレームを調べ、オープンAIの安全ポリシーに違反する素材をブロックする別のフィルターも用意されている。

オープンAIによれば、DALL-E 3用に開発されたフェイク画像検出器をSoraでも使用できるように調整しているという。さらに、業界標準のC2PAタグ(画像がどのように生成されたかを示すメタデータ)をSoraの出力の全てに埋め込む予定だという。しかし、このような措置は確実性からは程遠い。フェイク画像の検出精度にはムラがあるからだ。また、メタデータ(C2PAタグ)は簡単に削除できる。大半のソーシャルメディアはデフォルトでアップロード画像からメタデータを削除している。

「Soraをリリースする意味を見出す前に、より多くのフィードバックを得て、動画への対処が必要なリスクの種類をもっと学ばなければなりません」と、ラメッシュは言う。

ブルックスもこれに同意する。「我々が今この研究について話す理由の一つは、安全なデプロイ方法を見つける作業を開始するために必要な情報を得たいからです」。