KADOKAWA Technology Review
×
【春割】実施中!年間購読料20%オフ!
AIは動画をどうやって
作れるようになったのか?
ブレークスルーを解説
Stephanie Arnett/MIT Technology Review | Adobe Stock
人工知能(AI) Insider Online限定
How do AI models generate videos?

AIは動画をどうやって
作れるようになったのか?
ブレークスルーを解説

オープンAIのSora、グーグルのVeo 3など、動画生成AI技術が飛躍的進歩を遂げている。わずか数年前まで不可能だったリアルな映像生成を可能にしたのは「潜在拡散トランスフォーマー」という技術だ。動画生成の仕組みを噛み砕いて解説する。 by Will Douglas Heaven2025.09.17

この記事の3つのポイント
  1. オープンAIのSora、グーグルのVeo 3などの動画生成AIが一般公開され、実写と見分けがつかない動画生成が可能となった
  2. 潜在拡散トランスフォーマー技術により、圧縮データ上でノイズ除去と時系列一貫性を両立し高品質映像を実現している
  3. AIスロップの氾濫と膨大なエネルギー消費が課題だが、拡散モデルのテキスト生成応用で効率化の可能性も示されている
summarized by Claude 3

2025年、人工知能(AI)を利用した動画生成技術は驚異的な進化を遂げている。過去9カ月間で、オープンAIが「Sora(ソラ)」を公開し、グーグル・ディープマインド(Google DeepMind)が「Veo(ベオ) 3」、映像系スタートアップのランウェイ(Runway)が「Gen-4」をリリースした。これらの動画生成AIはいずれも、実写映像やCGアニメーションとほとんど見分けがつかない映像クリップを生成できる。また今年、ネットフリックスはドラマ『エテルナウタ』において生成AIによるVFX(視覚効果)を初めて導入。大衆向けテレビ番組の実用例としては初となった。

デモ映像で披露される映像クリップは、各社が最良の結果を見せるために厳選したものに違いない。しかし現在では、ChatGPT(チャットGPT)やGemini(ジェミニ)の有料ユーザーであればSoraやVeo 3が利用可能となり、これまでにないほど多くのユーザーが動画生成AI技術にアクセスできるようになった。そのため、経験の浅い映像制作者でも、印象的な作品を簡単に作り出せるようになっている。

その一方で、AIによって大量生産された低品質なコンテンツ、いわゆる「AIスロップ」と競合せざるを得ず、ソーシャルメディアのフィードはフェイクニュース映像であふれている。また、動画生成はテキスト生成や画像生成に比べてはるかに多くのエネルギーを消費するという課題もある。

いまやAIで生成された映像があふれている。そこで、この技術の仕組みについて少し掘り下げてみよう。

映像はどのように生成されるのか?

仮にあなたが一般ユーザーだとしよう。プロの映像制作者がワークフローに動画生成モデルを組み込むための高度なツールはすでに存在しているが、大多数の人々はアプリやWebサイトを通じて動画生成AI技術を利用することになる。たとえば「オーケー、グーグル。スパゲッティを食べているユニコーンの動画を作って。今度は、その角がロケットみたいに飛んでいくようにして」といった具合だ。返ってくる結果には当たり外れがあり、満足のいくものを得るには通常複数回、場合によっては10回ほど再生成を求める必要がある。

https://www.youtube.com/watch?v=br9b3-cxTPQ

では、そのやり取りの裏では何が起きているのだろうか? なぜ当たり外れがあるのか? そして、なぜ膨大なエネルギーを必要とするのか? 最新の動画生成モデルは、「潜在拡散トランスフォーマー(latent diffusion transformers)」と呼ばれる技術で構成されている。この一見すると難解な名称の各要素について、「拡散」から順に紐解いていこう。

拡散モデルとは?

ある画像にランダムなピクセルを加えるとしよう。その画像にさらにランダムなピクセルを追加し、これを何度も繰り返す。最終的には、元の画像は古いテレビの砂嵐のような、無秩序なピクセルの塊へと変化してしまう。

拡散モデルは、このプロセスを逆向きに進めるよう訓練されたニューラル・ネットワークである。すなわち、無秩序な砂嵐のような画像を、意味のある画像へと復元するように設計されている。訓練時には、さまざまな段階のノイズが加えられた数百万枚の画像を参照しながら、ノイズが加わるごとの変化を学び、その逆操作、すなわちノイズを除去する方法も学習する。

その結果として、拡散モデルに画像生成を依頼すると、ランダムなノイズ画像から出発し、訓練データに含まれていた画像に類似したものへと段階的に変換していく。

https://www.youtube.com/watch?v=Gk4-bm7XI …

こちらは有料会員限定の記事です。
有料会員になると制限なしにご利用いただけます。
有料会員にはメリットがいっぱい!
  1. 毎月120本以上更新されるオリジナル記事で、人工知能から遺伝子療法まで、先端テクノロジーの最新動向がわかる。
  2. オリジナル記事をテーマ別に再構成したPDFファイル「eムック」を毎月配信。
    重要テーマが押さえられる。
  3. 各分野のキーパーソンを招いたトークイベント、関連セミナーに優待価格でご招待。
【春割】実施中!年間購読料20%オフ!
人気の記事ランキング
  1. Will fusion power get cheap? Don’t count on it. 核融合は本当に安くなるのか? 楽観論に「待った」をかける新研究
  2. Digging for clues about the North Pole’s past 12万年前は無氷だった?海底22メートルの泥で掘り起こす北極点の謎
  3. Is carbon removal in trouble? 炭素除去業界に激震、最大顧客のマイクロソフトが購入を一時停止
MITテクノロジーレビューが選んだ、 世界を変える10大技術

MITテクノロジーレビューの記者と編集者は、未来を形作るエマージング・テクノロジーについて常に議論している。年に一度、私たちは現状を確認し、その見通しを読者に共有する。以下に挙げるのは、良くも悪くも今後数年間で進歩を促し、あるいは大きな変化を引き起こすと本誌が考えるテクノロジーである。

特集ページへ
AI革命の真実 誇大宣伝の先にあるもの

AIは人間の知能を再現する。AIは病気を根絶する。AIは人類史上、最大にして最も重要な発明だ——。こうした言葉を、あなたも何度となく耳にしてきたはずだ。しかし、その多くは、おそらく真実ではない。現在地を見極め、AIが本当に可能にするものは何かを問い、次に進むべき道を探る。

特集ページへ
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る