映像もAIが作る時代？文章から自動生成するニューラル・ネット

ある場面について記述した短い説明書きさえあれば、あとはソフトウェアが映像を制作してくれる。

サイエンス誌に掲載された報告によれば、新しい人工知能（AI）システムは2つのニューラル・ネットワークを使う。1つは映像を作成するためのもので、もう1つは作った映像が改良すれば使えそうかどうかを評価するためのものだ。 MITテクノロジーレビューはこの種のAIを、2018年版のブレークスルー・テクノロジー10のうちの1つに選んでいる。

AIシステムは最初に「芝生の上でゴルフをする」といった説明で映像を作成するように訓練される。そうすることで、短い文章で説明された似たような場面の映像を制作できるようになる。加えて、「雪の上を航海する」といったデータで訓練することで、異なるコンセプトを組み合わせた映像を作れるようになる。

この技術が重要なのは、文章から映像を自動生成することが、非常に有用になる場合があるからだ。たとえば自律自動車用の人工的に合成した訓練用データを大量に作るのに使えるだろう。それは同時に、この技術によってフェイクコンテンツが作り出されるという懸念にも繋がるのだが。

とはいえ、今回のシステムが制作する映像はたった32フレームの長さで、サイズにして64×64ピクセルである。映像はまだ完全に納得のいくものではないし、仮により長い映像を作れたとしても正確さは皆無だろう。実際に使える文章・映像コンバーターを作るには、まだまだ改良が必要なのだ。

A new AI creates original video clips from text cues 映像もAIが作る時代？ 文章から自動生成するニューラル・ネット