KADOKAWA Technology Review
×
【夏割】年間購読料が今なら20%オフ!お得なキャンペーン実施中
AIは動画をどうやって
作れるようになったのか?
ブレークスルーを解説
Stephanie Arnett/MIT Technology Review | Adobe Stock
人工知能(AI) Insider Online限定
How do AI models generate videos?

AIは動画をどうやって
作れるようになったのか?
ブレークスルーを解説

オープンAIのSora、グーグルのVeo 3など、動画生成AI技術が飛躍的進歩を遂げている。わずか数年前まで不可能だったリアルな映像生成を可能にしたのは「潜在拡散トランスフォーマー」という技術だ。動画生成の仕組みを噛み砕いて解説する。 by Will Douglas Heaven2025.09.17

この記事の3つのポイント
  1. オープンAIのSora、グーグルのVeo 3などの動画生成AIが一般公開され、実写と見分けがつかない動画生成が可能となった
  2. 潜在拡散トランスフォーマー技術により、圧縮データ上でノイズ除去と時系列一貫性を両立し高品質映像を実現している
  3. AIスロップの氾濫と膨大なエネルギー消費が課題だが、拡散モデルのテキスト生成応用で効率化の可能性も示されている
summarized by Claude 3

2025年、人工知能(AI)を利用した動画生成技術は驚異的な進化を遂げている。過去9カ月間で、オープンAIが「Sora(ソラ)」を公開し、グーグル・ディープマインド(Google DeepMind)が「Veo(ベオ) 3」、映像系スタートアップのランウェイ(Runway)が「Gen-4」をリリースした。これらの動画生成AIはいずれも、実写映像やCGアニメーションとほとんど見分けがつかない映像クリップを生成できる。また今年、ネットフリックスはドラマ『エテルナウタ』において生成AIによるVFX(視覚効果)を初めて導入。大衆向けテレビ番組の実用例としては初となった。

デモ映像で披露される映像クリップは、各社が最良の結果を見せるために厳選したものに違いない。しかし現在では、ChatGPT(チャットGPT)やGemini(ジェミニ)の有料ユーザーであればSoraやVeo 3が利用可能となり、これまでにないほど多くのユーザーが動画生成AI技術にアクセスできるようになった。そのため、経験の浅い映像制作者でも、印象的な作品を簡単に作り出せるようになっている。

その一方で、AIによって大量生産された低品質なコンテンツ、いわゆる「AIスロップ」と競合せざるを得ず、ソーシャルメディアのフィードはフェイクニュース映像であふれている。また、動画生成はテキスト生成や画像生成に比べてはるかに多くのエネルギーを消費するという課題もある。

いまやAIで生成された映像があふれている。そこで、この技術の仕組みについて少し掘り下げてみよう。

映像はどのように生成されるのか?

仮にあなたが一般ユーザーだとしよう。プロの映像制作者がワークフローに動画生成モデルを組み込むための高度なツールはすでに存在しているが、大多数の人々はアプリやWebサイトを通じて動画生成AI技術を利用することになる。たとえば「オーケー、グーグル。スパゲッティを食べているユニコーンの動画を作って。今度は、その角がロケットみたいに飛んでいくようにして」といった具合だ。返ってくる結果には当たり外れがあり、満足のいくものを得るには通常複数回、場合によっては10回ほど再生成を求める必要がある。

https://www.youtube.com/watch?v=br9b3-cxTPQ

では、そのやり取りの裏では何が起きているのだろうか? なぜ当たり外れがあるのか? そして、なぜ膨大なエネルギーを必要とするのか? 最新の動画生成モデルは、「潜在拡散トランスフォーマー(latent diffusion transformers)」と呼ばれる技術で構成されている。この一見すると難解な名称の各要素について、「拡散」から順に紐解いていこう。

拡散モデルとは?

ある画像にランダムなピクセルを加えるとしよう。その画像にさらにランダムなピクセルを追加し、これを何度も繰り返す。最終的には、元の画像は古いテレビの砂嵐のような、無秩序なピクセルの塊へと変化してしまう。

拡散モデルは、このプロセスを逆向きに進めるよう訓練されたニューラル・ネットワークである。すなわち、無秩序な砂嵐のような画像を、意味のある画像へと復元するように設計されている。訓練時には、さまざまな段階のノイズが加えられた数百万枚の画像を参照しながら、ノイズが加わるごとの変化を学び、その逆操作、すなわちノイズを除去する方法も学習する。

その結果として、拡散モデルに画像生成を依頼すると、ランダムなノイズ画像から出発し、訓練データに含まれていた画像に類似したものへと段階的に変換していく。

https://www.youtube.com/watch?v=Gk4-bm7XI …

こちらは有料会員限定の記事です。
有料会員になると制限なしにご利用いただけます。
有料会員にはメリットがいっぱい!
  1. 毎月120本以上更新されるオリジナル記事で、人工知能から遺伝子療法まで、先端テクノロジーの最新動向がわかる。
  2. オリジナル記事をテーマ別に再構成したPDFファイル「eムック」を毎月配信。
    重要テーマが押さえられる。
  3. 各分野のキーパーソンを招いたトークイベント、関連セミナーに優待価格でご招待。
【夏割】実施中!年間購読料20%オフ!
人気の記事ランキング
  1. Synthesia’s AI clones are more expressive than ever. Soon they’ll be able to talk back. 「不気味の谷」越え近づく? 進化した最新AIクローン技術
  2. Three big things we still don’t know about AI’s energy burden ようやく出てきた生成AIの電力消費、残された3つの疑問
日本発「世界を変える」U35イノベーター

MITテクノロジーレビューが20年以上にわたって開催しているグローバル・アワード「Innovators Under 35 」。世界的な課題解決に取り組み、向こう数十年間の未来を形作る若きイノベーターの発掘を目的とするアワードの日本版の最新情報を発信する。

特集ページへ
MITTRが選んだ 世界を変える10大技術 2025年版

本当に長期的に重要となるものは何か?これは、毎年このリストを作成する際に私たちが取り組む問いである。未来を完全に見通すことはできないが、これらの技術が今後何十年にもわたって世界に大きな影響を与えると私たちは予測している。

特集ページへ
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る