知性を宿す機械

AI that makes images: 10 Breakthrough Technologies 2023 画像生成AI

テキストから画像を生成するAIモデルは、創造の意味を私たちに問いかけている。「生成AI」が私たちをどこに連れて行くのか、2023年も注視する必要があるだろう。

by Will Douglas Heaven 2023.03.06

Erik Carter via Dall-e 2

キープレイヤー: オープンAI、スタビリティAI、ミッドジャーニー、グーグル
実現時期: 実現済み

オープンAI（OpenAI）が2021年に発表した「テキストから画像」を生成するモデル、「ダリー（DALL-E）」は、奇妙で素晴らしいマッシュアップの世界をもたらした。このプログラムは、何であれ、短い説明を入力するだけで、求める写真を数秒で作り出してくれるのだ。オープンAIは2022年4月に発表された「ダリー2（DALL-E 2）」で、さらに大きな飛躍を遂げた。グーグルもまた、「イメージェン（Imagen）」という独自の画像生成人工知能（AI）を発表した。

だが最大の変革をもたらしたのは、英国のスタートアップ企業であるスタビリティAI（Stability AI）が2022年8月に無料でリリースしたオープンソース型のテキスト・画像生成モデル、「ステーブル・ディフュージョン（Stable Diffusion）」だ。ステーブル・ディフュージョンは、これまでで最も美しい画像を生成できるだけでなく、（高性能な）家庭用パソコンでも使える設計になっている。

スタビリティAIは、テキスト・画像生成モデルを誰でも利用できるようにすることで、すでに創造性とイノベーションの火がついていたところに燃料を注ぎ込んだ。わずか数カ月で何百万という人々が何千万という画像を作り出した。しかし、問題もある。アーティストたちは10年に一度の激動の真っ只中に飲み込まれている。そして、言語モデルと同様に、テキスト・画像生成モデルもまた、インターネットからかき集めた訓練用データの中に隠れたバイアスを含む有害な関連付けを増幅させてしまう恐れがある。

テキストから画像を生成するテクノロジーは現在、フォトショップ（Photoshop）のような市販のソフトウェアに組み込まれつつある。視覚効果アーティストやビデオゲーム制作会社は、このテクノロジーを使って開発パイプラインを迅速化する方法を模索している。そして、「テキストから画像」テクノロジーはすでに、「テキストから動画」へと進化している。グーグルやメタなどがここ数カ月の間にデモとして発表した動画クリップの長さはほんの数秒だが、それも変わっていくだろう。いつの日か、コンピューターに台本を入力するだけで映画が作れるようになるかもしれない。

2022年、AI分野でこれほど人々に注目されたものは他にないだろう。いい意味でも悪い意味でもだ。こうしたツールが今後クリエイティブ業界、そしてAI分野全体に対し、どのような影響を永続的に与えていくのか、見守ることになる。

生成AI（ジェネレーティブAI）の台頭が私たちをどこへ連れて行くのかは誰にもわからない。詳しくはこちら。

10 Breakthrough Technologies 2023