KADOKAWA Technology Review
×
今度は「テキストから動画」、メタが生成AIを発表
Meta AI
Meta has developed an AI that generates video based on text prompts

今度は「テキストから動画」、メタが生成AIを発表

メタ(旧フェイスブック)は「テキストから短編動画を生成する」AIシステムを発表した。生成型AIの画期的な進歩だが、将来的にフェイク動画の生成につながる可能性があるなど、倫理的な問題を提起している。 by Melissa Heikkilä2022.10.04

メタ(Meta)は9月29日、ユーザー入力したテキストを基にして短編動画を生成する人工知能(AI)システム、「メイク・ア・ビデオ(Make-A-Video)」を発表した。

例えば、「犬が赤いマントをつけたスーパーヒーローの服装で空を飛んでいる」というテキストを入力すると、非常に正確ながらも、頭がクラクラするような古いホームビデオ風の5秒間の動画を生成する。

動画の出来はまだかなり粗いが、このシステムは生成型AIの次なる展開をいち早く垣間見せるものだ。今年大興奮を巻き起こしている「テキストから画像を生成するAIシステム」にとっても、明白な次なるステップだといえる。

メタが発表したメイク・ア・ビデオは、まだ一般には公開されていないが、同社の発表により他のAI研究機関も独自バージョンの発表を急ぐことになるだろう。それはまた、倫理的な大問題も提起する。

8月には、オープンAI(OpenAI)が、テキストから画像生成を生成する最新のAIシステム「DALL-E(ダリー)」を一般公開し、AIスタートアップ企業のスタビリティAI(Stability.AI)も、オープンソースの同様のシステム「ステーブンル・ディフージョン(Stable Diffusion)」を発表した。

しかし、テキストから動画を生成するAIは、画像生成AIシステムよりさらに課題が大きい。まず、こうしたモデルは膨大な演算能力を必要とする。テキストから画像を生成する大型AIモデルを訓練するのには数百万枚の画像を使用するため、大きな演算能力を必要とする。動画の場合、短編動画を1本まとめるのにもそうした画像を数百枚要するので、負荷はさらに膨大となる。このような演算能力は高価であるため、当面の間、こうしたシステムを構築できるのは超大手のテック企業だけということになる。テキストと高品質な動画とを組み合わせた大規模なデータセットもないため、モデルの訓練が難しいという問題もある。

これを解決するためにメタは、画像や動画のオープンソースのデータセットを3つ組み合わせてモデルを訓練した。静止画にラベルを付けた標準的な「テキスト-画像」のデータセットは、AIが物体の名称や外観を学習するのに役立った。動画のデータベースは、それらの物体がこの世界でどのような動きをするかを学ぶのに使われた。この2つのアプローチを組み合わせることで、メイク・ア・ビデオはテキストからそれなりの長さの動画を生成することができるようになった。詳細は9月29日発表の非査読論文に説明されている。

アレン人工知能研究所(Allen Institute for Artificial Intelligence)のコンピュータービジョン研究科学者であるタンメイ・グプタ博士は、メタの成果は有望だと言う。メタが公開した今回の動画は、このモデルはカメラの回転に伴い3次元の形状を捉えることができ、奥行きの概念や照明の理解もあることを示している。いくつかのディテールや動きは適切であり、説得力もあるとグプタ博士は言う。

「大雨の中を歩く若いカップル」

しかし、「これらのシステムが動画編集やプロのコンテンツ制作に使用されるのであれば特に、この分野の研究者たちの改善すべき余地はまだまだ多くあります」とグプタ博士は付け加える。特に、物体同士の複雑な相互作用をモデル化するのはまだ難しい。

「画家の絵筆がキャンバスを塗っている」という動画では、絵筆はキャンバス上を動いてはいるが、その動きはリアルではない。「このようなモデルが、例えば『男性が書棚から本を取り、眼鏡をかけ、コーヒーを飲みながら座ってそれを読む』というような一連の相互作用をうまく生成できるようになるのを是非見てみたいものです」とグプタ博士は言う。

「画家の絵筆がキャンパスを塗っている」

メタ側としては、このテクノロジーが「クリエイターやアーティストに新たな機会を切り開く」可能性を主張している。だが、こうしたテクノロジーが発展するにつれ、デマやディープフェイクを作ってばら撒くための強力なツールとして使われ兼ねないとの懸念もある。ネット上で本物と偽物のコンテンツを見分けることが、今よりさらに難しくなるかもしれないのだ。

メタのモデルは、テクノロジーや創造性という面だけでなく、「生成された動画によって生じる可能性のある静止画とは別の独自の有害性という意味においても」、生成型AIのもたらす影響力を高めてしまっている、と述べるのは、合成メディアの専門家であるヘンリー・アジデルだ。

「少なくとも現在は、人々が信じてしまうような事実とは異なるコンテンツを作ろうとすると、ある程度の努力が必要になります。しかし将来的には、キーを数回操作するだけで人を惑わすコンテンツを作れるようになるかも知れないのです」とグプタ博士は言う。

今回のメイク・ア・ビデオを構築した研究者たちは、不快な画像や言葉をフィルタリングした。だが、何百万ものテキストや画像で構成されるデータセットから、偏った有害なコンテンツを完全に削除するのはほぼ不可能だ。

メタの広報担当者は、このモデルはまだ一般公開しておらず、「この研究の一環としてメタは、システムをさらに洗練して潜在的リスクを緩和する方法を模索し続けていきます」と述べている。

人気の記事ランキング
  1. Inside the tedious effort to tally AI’s energy appetite 動画生成は別次元、思ったより深刻だったAIの電力問題
  2. Promotion Call for entries for Innovators Under 35 Japan 2025 「Innovators Under 35 Japan」2025年度候補者募集のお知らせ
  3. IBM aims to build the world’s first large-scale, error-corrected quantum computer by 2028 IBM、世界初の大規模誤り訂正量子コンピューター 28年実現へ
  4. What is vibe coding, exactly? バイブコーディングとは何か? AIに「委ねる」プログラミング新手法
メリッサ・ヘイッキラ [Melissa Heikkilä]米国版 AI担当上級記者
MITテクノロジーレビューの上級記者として、人工知能とそれがどのように社会を変えていくかを取材している。MITテクノロジーレビュー入社以前は『ポリティコ(POLITICO)』でAI政策や政治関連の記事を執筆していた。英エコノミスト誌での勤務、ニュースキャスターとしての経験も持つ。2020年にフォーブス誌の「30 Under 30」(欧州メディア部門)に選出された。
日本発「世界を変える」U35イノベーター

MITテクノロジーレビューが20年以上にわたって開催しているグローバル・アワード「Innovators Under 35 」。世界的な課題解決に取り組み、向こう数十年間の未来を形作る若きイノベーターの発掘を目的とするアワードの日本版の最新情報を発信する。

特集ページへ
MITTRが選んだ 世界を変える10大技術 2025年版

本当に長期的に重要となるものは何か?これは、毎年このリストを作成する際に私たちが取り組む問いである。未来を完全に見通すことはできないが、これらの技術が今後何十年にもわたって世界に大きな影響を与えると私たちは予測している。

特集ページへ
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る