今度は「テキストから動画」、メタが生成AIを発表

メタ（Meta）は9月29日、ユーザー入力したテキストを基にして短編動画を生成する人工知能（AI）システム、「メイク・ア・ビデオ（Make-A-Video）」を発表した。

例えば、「犬が赤いマントをつけたスーパーヒーローの服装で空を飛んでいる」というテキストを入力すると、非常に正確ながらも、頭がクラクラするような古いホームビデオ風の5秒間の動画を生成する。

動画の出来はまだかなり粗いが、このシステムは生成型AIの次なる展開をいち早く垣間見せるものだ。今年大興奮を巻き起こしている「テキストから画像を生成するAIシステム」にとっても、明白な次なるステップだといえる。

メタが発表したメイク・ア・ビデオは、まだ一般には公開されていないが、同社の発表により他のAI研究機関も独自バージョンの発表を急ぐことになるだろう。それはまた、倫理的な大問題も提起する。

8月には、オープンAI（OpenAI）が、テキストから画像生成を生成する最新のAIシステム「DALL-E（ダリー）」を一般公開し、AIスタートアップ企業のスタビリティAI（Stability.AI）も、オープンソースの同様のシステム「ステーブンル・ディフージョン（Stable Diffusion）」を発表した。

しかし、テキストから動画を生成するAIは、画像生成AIシステムよりさらに課題が大きい。まず、こうしたモデルは膨大な演算能力を必要とする。テキストから画像を生成する大型AIモデルを訓練するのには数百万枚の画像を使用するため、大きな演算能力を必要とする。動画の場合、短編動画を1本まとめるのにもそうした画像を数百枚要するので、負荷はさらに膨大となる。このような演算能力は高価であるため、当面の間、こうしたシステムを構築できるのは超大手のテック企業だけということになる。テキストと高品質な動画とを組み合わせた大規模なデータセットもないため、モデルの訓練が難しいという問題もある。

これを解決するためにメタは、画像や動画のオープンソースのデータセットを3つ組み合わせてモデルを訓練した。静止画にラベルを付けた標準的な「テキスト-画像」のデータセットは、AIが物体の名称や外観を学習するのに役立った。動画のデータベースは、それらの物体がこの世界でどのような動きをするかを学ぶのに使われた。この2つのアプローチを組み合わせることで、メイク・ア・ビデオはテキストからそれなりの長さの動画を生成することができるようになった。詳細は9月29日発表の非査読論文に説明されている。

アレン人工知能研究所（Allen Institute for Artificial Intelligence）のコンピュータービジョン研究科学者であるタンメイ・グプタ博士は、メタの成果は有望だと言う。メタが公開した今回の動画は、このモデルはカメラの回転に伴い3次元の形状を捉えることができ、奥行きの概念や照明の理解もあることを示している。いくつかのディテールや動きは適切であり、説得力もあるとグプタ博士は言う。

https://wp.technologyreview.com/wp-content/uploads/2022/09/A_young_couple_walking_in_a_heavy_rain-1.mp4

「大雨の中を歩く若いカップル」

しかし、「これらのシステムが動画編集やプロのコンテンツ制作に使用されるのであれば特に、この分野の研究者たちの改善すべき余地はまだまだ多くあります」とグプタ博士は付け加える。特に、物体同士の複雑な相互作用をモデル化するのはまだ難しい。

「画家の絵筆がキャンバスを塗っている」という動画では、絵筆はキャンバス上を動いてはいるが、その動きはリアルではない。「このようなモデルが、例えば『男性が書棚から本を取り、眼鏡をかけ、コーヒーを飲みながら座ってそれを読む』というような一連の相互作用をうまく生成できるようになるのを是非見てみたいものです」とグプタ博士は言う。

https://wp.technologyreview.com/wp-content/uploads/2022/09/An_artists_brush_painting_on_a_canvas_close_up_highly_detailed.mp4

「画家の絵筆がキャンパスを塗っている」

メタ側としては、このテクノロジーが「クリエイターやアーティストに新たな機会を切り開く」可能性を主張している。だが、こうしたテクノロジーが発展するにつれ、デマやディープフェイクを作ってばら撒くための強力なツールとして使われ兼ねないとの懸念もある。ネット上で本物と偽物のコンテンツを見分けることが、今よりさらに難しくなるかもしれないのだ。

メタのモデルは、テクノロジーや創造性という面だけでなく、「生成された動画によって生じる可能性のある静止画とは別の独自の有害性という意味においても」、生成型AIのもたらす影響力を高めてしまっている、と述べるのは、合成メディアの専門家であるヘンリー・アジデルだ。

「少なくとも現在は、人々が信じてしまうような事実とは異なるコンテンツを作ろうとすると、ある程度の努力が必要になります。しかし将来的には、キーを数回操作するだけで人を惑わすコンテンツを作れるようになるかも知れないのです」とグプタ博士は言う。

今回のメイク・ア・ビデオを構築した研究者たちは、不快な画像や言葉をフィルタリングした。だが、何百万ものテキストや画像で構成されるデータセットから、偏った有害なコンテンツを完全に削除するのはほぼ不可能だ。

メタの広報担当者は、このモデルはまだ一般公開しておらず、「この研究の一環としてメタは、システムをさらに洗練して潜在的リスクを緩和する方法を模索し続けていきます」と述べている。

Meta has developed an AI that generates video based on text prompts 今度は「テキストから動画」、メタが生成AIを発表