「Sora」登場で激震、
動画生成AIは映像制作の
未来をどう変えるか
オープンAIの動画生成AIモデル「Sora(ソラ)」は、AIによる動画制作のレベルを新次元に引き上げた。動画生成AIの今後の展開を理解するうえで知っておくべき4つのことを、AIの生成した映像と共に紹介しよう。 by Will Douglas Heaven2024.04.01
新しい動画生成AIモデル「Sora(ソラ)」を2024年2月に発表したオープンAI(OpenAI)は、数人の映画制作者に試用を依頼した成果を3月末に公開した。生成AI動画の未来が急速に到来していることに疑いの余地を残さない、実写さながらの短編映画7本だ。
テキストから動画を生成する最初期のAIモデルは、メタ、グーグル、映像テックスタートアップのランウェイ(Runway)などから2022年後半に発表された。すばらしい技術ではあったが、その出来栄えは粗く、不具合があり、動画の長さはわずか数秒という代物だった。
それから早くも18カ月が経過した。Soraの高解像度で写真のように現実的な傑作は、息を呑むほどにすばらしく、ハリウッドの死を予感する人さえもいる。ランウェイの最新モデルは、超一流のアニ・メスタジオが制作した作品に匹敵する短編クリップを作ることができる。人気のテキスト-画像生成モデルを開発するミッドジャーニー(Midjourney)とスタビリティAI(Stability AI)は、現在動画にも取り組んでいる。
多くの企業がこうしたブレークスルーを背景に、ビジネスを立ち上げようと競い合っている。その多くは、それがどういったビジネスになるのかを模索しながら事を進めている。「これらツールをいじっていると、『なんてこった、本当にすごい』と歓声を上げてしまうことがよくあります」。短編アニメ映像の編集用にポイント・アンド・クリックプラットフォームを提供するビヨンド(Vyond)のゲイリー・リプコウィッツ最高経営責任者(CEO)は言う。「でも、これを仕事でどうやって使うのでしょうか?」
その質問に対する答えが何であれ、動画生成AIモデルはおそらくビジネスを広範囲にわたって一変させ、アニメーターから広告主に至るまで、多くのプロの役割を変えることになるだろう。一方で 悪用の懸念も高まっている。フェイク動画を生成する能力が広く普及したことで、プロパガンダや同意を得ていないポルノが、これまで以上にインターネットに氾濫することになるだろう。そうなるのはわかりきっている。そして問題は、良い解決策が誰にもないことだ。
この記事では、良いこと・悪いことを含め、考えるべき4つのことを紹介しよう。併せて、映画制作会社がこの技術を駆使して作った、選りすぐりの動画も集めた。また、ロサンゼルスを拠点とする制作プロダクションのマイルズ(Myles)からは、実験的な短編映画『ソンム・レクイエム(Somme Requiem)』を本誌に独占提供いただいた。人工知能(AI)を活用した映画制作の方向性をこの記事で掴んでいただきたい。
1. Soraは始まりにすぎない
オープンAIのSoraは現在、動画生成の競争において抜きんでている。しかし、他社も追いつこうと懸命に努力している。より多くの企業が自社のテクノロジーを磨き、Soraのライバル製品を展開し始めるようになり、市場は今後数カ月間で極めて混みあった状態になるであろう。
英国に本拠を置くスタートアップ企業のハイパー(Haiper)は、3月にその沈黙を破った。同社は、元グーグル・ディープマインド(Google Deepmind)とティックトック(Tik Tok)の研究者たちが2021年に、2D画像を3Dバーチャル環境に変換できる「ニューラル放射輝度フィールド(NeRF)」と呼ばれるテクノロジーに取り組みたいと考えて創業した会社である。彼らは、スナップショットをユーザーが入り込めるシーンに変換するツールが、ビデオゲームの開発に役立つだろうと考えていた。
しかし半年前、ハイパーはバーチャル環境から映像クリップへと軸足を移し、同社のイーシュ・ミャオCEOがゲームよりもさらに大きな市場になると考えている映像分野向けに自社のテクノロジーを適応させた。「私たちは動画生成が最高の結果をもたらす領域であることに気づきました」とミャオCEOは話す。「そこには非常に高い需要があるでしょう」。
https://www.youtube.com/watch?v=G4wJ4WeJrz4
オープンAIのSoraと同様、ハイパーの動画生成AI技術では、拡散モデルを採用してビジュアルを管理し、トランスフォーマー(transformer、GPT-4などの大規模言語モデルのコンポーネントで、次に続くことの予測に優れている)を使ってフレーム間の一貫性を管理する。「映像はデータのシーケンスであり、トランスフォーマーはシーケンスの学習に最適なモデルです」とミャオCEOは言う。
一貫性は動画生成AIにとって大きな課題であり、既存のツールが一度にわずか数秒の映像しか生成できない主な理由となっている。動画生成用のトランスフォーマーを使用すると、映像クリップの品質と長さを向上させることができる。欠点は、でっち上げや幻覚(ハルシネーション)を生成することだ。テキストにおいては、それが必ずしもはっきりしないが、映像ではたとえば、複数の頭を持つ人間といった結果になる。トランスフォーマーを正常に保ち続けるには、膨大な訓練用データと大量の計算資源が必要となる。
マイクロソフトの元研究者らが創業したイレヴレント・ラボ(Ireverent Labs)が、異なるアプローチを採用しているのはそのためだ。ハイパーと同様に、イレヴレント・ラボは動画生成へと完全に転換を図る前は、ゲーム向けの環境生成から出発した。だが同社は、オープンAIを真似して後追いするつもりはない。「いずれ、コンピューティングの戦い、つまりGPU(画像処理装置)の総力戦になるからです」と、イレヴレントの共同創業者で最高技術責任者(CTO)を務めるデビッド・ラスキーノは話す。「そのシナリオにおける勝者はただ一人です。革ジャンを着ている人(編注:半導体大手エヌビディアのジェンスン・フアンCEO)だけです」。
イレヴレントでは、トランスフォーマーを使う代わりに、ボールの跳ね方や床での水の飛び散り方などの常識的な物理学に基づいて、次のフレームがどうなるかを予測するモデルと、拡散モデルを組み合わせている。ラスキーノCTOは、このアプローチによって、訓練コストとハルシネーションの数の両方を減らせると話す。それでもこのモデルでは不具合が発生するが、それらは物理的な歪み(たとえば、跳ね返るボールが滑らかな曲線をたどらないなど)であり、既知の数学的修正を動画生成後に加えることで対応できるという。
どちらのアプローチが存続するかはまだわからない。ミャオCEOは、現在のテクノロジーをGPT-2の頃の大規模言語モデルと対比する。5年前、オープンAIの画期的な初期モデルは、どんなことができるかを示して人々を驚かせた。しかし、この技術がゲームチェンジャーとなるまでにはさらに数年を要した。
動画についても同様だ。「私たちは皆、山の麓にいるのです」とミャオCEOは述べる。
2. 動画生成AIを使って、人は何をするのか?
動画はインターネットの媒体である。ユーチューブ(YouTube)、ティックトック、ニュース映画、広告など、すでに動画があるところならどこでも、合成映像が出現することが予想される。
マーケティング業界は、生成AI技術を最も熱心に採用している業界のひとつだ。アドビが米国で実施した …
- 人気の記事ランキング
-
- The coolest thing about smart glasses is not the AR. It’s the AI. ようやく物になったスマートグラス、真価はARではなくAIにある
- A tiny new open-source AI model performs as well as powerful big ones 720億パラメーターでも「GPT-4o超え」、Ai2のオープンモデル
- Geoffrey Hinton, AI pioneer and figurehead of doomerism, wins Nobel Prize in Physics ジェフリー・ヒントン、 ノーベル物理学賞を受賞
- Two Nobel Prize winners want to cancel their own CRISPR patents in Europe クリスパー特許紛争で新展開 ノーベル賞受賞者が 欧州特許の一部取り下げへ