AIは動画をどうやって
作れるようになったのか?
ブレークスルーを解説
オープンAIのSora、グーグルのVeo 3など、動画生成AI技術が飛躍的進歩を遂げている。わずか数年前まで不可能だったリアルな映像生成を可能にしたのは「潜在拡散トランスフォーマー」という技術だ。動画生成の仕組みを噛み砕いて解説する。 by Will Douglas Heaven2025.09.17
- この記事の3つのポイント
-
- オープンAIのSora、グーグルのVeo 3などの動画生成AIが一般公開され、実写と見分けがつかない動画生成が可能となった
- 潜在拡散トランスフォーマー技術により、圧縮データ上でノイズ除去と時系列一貫性を両立し高品質映像を実現している
- AIスロップの氾濫と膨大なエネルギー消費が課題だが、拡散モデルのテキスト生成応用で効率化の可能性も示されている
2025年、人工知能(AI)を利用した動画生成技術は驚異的な進化を遂げている。過去9カ月間で、オープンAIが「Sora(ソラ)」を公開し、グーグル・ディープマインド(Google DeepMind)が「Veo(ベオ) 3」、映像系スタートアップのランウェイ(Runway)が「Gen-4」をリリースした。これらの動画生成AIはいずれも、実写映像やCGアニメーションとほとんど見分けがつかない映像クリップを生成できる。また今年、ネットフリックスはドラマ『エテルナウタ』において生成AIによるVFX(視覚効果)を初めて導入。大衆向けテレビ番組の実用例としては初となった。
デモ映像で披露される映像クリップは、各社が最良の結果を見せるために厳選したものに違いない。しかし現在では、ChatGPT(チャットGPT)やGemini(ジェミニ)の有料ユーザーであればSoraやVeo 3が利用可能となり、これまでにないほど多くのユーザーが動画生成AI技術にアクセスできるようになった。そのため、経験の浅い映像制作者でも、印象的な作品を簡単に作り出せるようになっている。
その一方で、AIによって大量生産された低品質なコンテンツ、いわゆる「AIスロップ」と競合せざるを得ず、ソーシャルメディアのフィードはフェイクニュース映像であふれている。また、動画生成はテキスト生成や画像生成に比べてはるかに多くのエネルギーを消費するという課題もある。
いまやAIで生成された映像があふれている。そこで、この技術の仕組みについて少し掘り下げてみよう。
映像はどのように生成されるのか?
仮にあなたが一般ユーザーだとしよう。プロの映像制作者がワークフローに動画生成モデルを組み込むための高度なツールはすでに存在しているが、大多数の人々はアプリやWebサイトを通じて動画生成AI技術を利用することになる。たとえば「オーケー、グーグル。スパゲッティを食べているユニコーンの動画を作って。今度は、その角がロケットみたいに飛んでいくようにして」といった具合だ。返ってくる結果には当たり外れがあり、満足のいくものを得るには通常複数回、場合によっては10回ほど再生成を求める必要がある。
https://www.youtube.com/watch?v=br9b3-cxTPQ
では、そのやり取りの裏では何が起きているのだろうか? なぜ当たり外れがあるのか? そして、なぜ膨大なエネルギーを必要とするのか? 最新の動画生成モデルは、「潜在拡散トランスフォーマー(latent diffusion transformers)」と呼ばれる技術で構成されている。この一見すると難解な名称の各要素について、「拡散」から順に紐解いていこう。
拡散モデルとは?
ある画像にランダムなピクセルを加えるとしよう。その画像にさらにランダムなピクセルを追加し、これを何度も繰り返す。最終的には、元の画像は古いテレビの砂嵐のような、無秩序なピクセルの塊へと変化してしまう。
拡散モデルは、このプロセスを逆向きに進めるよう訓練されたニューラル・ネットワークである。すなわち、無秩序な砂嵐のような画像を、意味のある画像へと復元するように設計されている。訓練時には、さまざまな段階のノイズが加えられた数百万枚の画像を参照しながら、ノイズが加わるごとの変化を学び、その逆操作、すなわちノイズを除去する方法も学習する。
その結果として、拡散モデルに画像生成を依頼すると、ランダムなノイズ画像から出発し、訓練データに含まれていた画像に類似したものへと段階的に変換していく。
https://www.youtube.com/watch?v=Gk4-bm7XI …
- 人気の記事ランキング
-
- Inside the controversial tree farms powering Apple’s carbon neutral goal 1日100万本の植林が生む 広大な「緑の砂漠」 ブラジル・セラードの光と影
- Inside the controversial tree farms powering Apple’s carbon neutral goal 1日100万本の植林が生む 広大な「緑の砂漠」 ブラジル・セラードの光と影
- Synthesia’s AI clones are more expressive than ever. Soon they’ll be able to talk back. 「不気味の谷」越え近づく? 進化した最新AIクローン技術
- Three big things we still don’t know about AI’s energy burden ようやく出てきた生成AIの電力消費、残された3つの疑問