KADOKAWA Technology Review
×
「馬に乗った宇宙飛行士」——文章から画像を描くAIが驚きの進歩
DALL-E
知性を宿す機械 Insider Online限定
This horse-riding astronaut is a milestone in AI’s ability to make sense of the world

「馬に乗った宇宙飛行士」——文章から画像を描くAIが驚きの進歩

オープンAIは、与えられた文章から画像を生成するAIシステムの最新版を発表した。「馬に乗った宇宙飛行士」などの文章を入力すると、言葉にできるものなら何でも写真に近い形で生成できるという、驚くべきものだ。 by Will Douglas Heaven2022.04.12

サンフランシスコを拠点とする研究機関「オープンAI(OpenAI)」が画像を生成するニューラル・ネットワーク「DALL-E(ダリー)」を2021年初頭に公開したとき、異なる概念を新しい方法で組み合わせる人間のような能力には目を見張るものがあった。DALL-Eが要求に応じて生成する一連の画像はシュールでマンガのようだったが、人工知能(AI)が世界の調和に関する重要な教訓を学んだことを示すものでもあった。DALL-Eが生成したアボカドのひじ掛け椅子の画像は、アボカドと椅子の両方の特徴を備えていた。また、DALL-Eが生成した犬の散歩をするチュチュを着た大根の画像では、大根がチュチュを腰に巻き、手に犬のリードを持っていた。

オープンAIは2022年4月、DALL-Eの後継版となる「DALL-E 2」を発表した。改良された画像を生成するDALL-E 2は、以前よりも使いやすくなっている。そしてDALL-Eとは異なり、(いずれ)一般に公開される予定だ。DALL-E 2が現在のAIの定義を拡張することにより、我々はAIの概念を検証し、AIとは一体何なのかを決定するように強いられるようになるかもしれない。

「DALL-EからDALL-E 2への飛躍は、GPT-2からGPT-3への飛躍を思わせるものです」とシアトルのアレン人工知能研究所(Ai2:Allen Institute for Artificial Intelligence)のオレン・エツィオーニ最高経営責任者(CEO)は述べる。GPT-2とGPT-3はいずれも、オープンAIが開発した大規模言語モデルである。

DALL-Eのような画像生成モデルは、わずか数年で大きな進歩を遂げた。アレン人工知能研究所は2020年、「3人がソファでビデオゲームをする」といったキャプションから画像を生成できるニューラル・ネットワークを披露した。生成された画像は、歪んでぼやけていたものの、ギリギリ認識できるものだった。2021年には、中国のハイテク企業バイドゥ(百度)が、初代DALL-Eの画質を向上させた画像生成モデル「アーニービルグ(ERNIE-ViLG)」を発表した。

DALL-E 2は、そのアプローチをさらに推し進めたものだ。DALL-E 2が生成する画像には目を見張るものがある。例えば、「科学者のテディベア」「馬に乗った宇宙飛行士」「フェルメール風のラッコ」などの画像を生成するよう文章を入力すると、言葉にできるものなら何でも、写真に近い形で生成できる。オープンAIが公開している画像(下記参照)や、オープンAIが4月のデモで紹介した画像は、事前に慎重に選ばれたものだったのだろうが、それでも質の高さは驚くべきものだ。

オープンAIの共同創業者で主任科学者であるイリヤ・サツケバーは、「このニューラル・ネットワークはある意味、卓越した美のサービスであると考えることができます。ときどき、はっとするような画像が生成されるのです」と語る。

DALL-E 2の性能向上は、完全に再設計されたことによるものだ。オリジナル・バージョンのDALL-Eは、多少なりともGPT-3の延長線上にあった。GPT-3は、多くの点で、文章の自動補完機能を猛烈にパワーアップさせたようなものだ。つまり、複数の単語や文章を入力すると、次の数百の単語を勝手に予測してくれるのだ。DALL-Eは、言葉をピクセルに置き換えた違いはあるものの、基本的には同様な仕組みをとっていた。DALL-Eは、入力された文章を受け取ると、次に来る可能性が最も高いピクセル列を予測して画像を生成することによって、文章を「完成」させた。

一方のDALL-E 2は、GPT-3ベースではない。内部では、DALL-E 2は2つのステージで動作す …

こちらは有料会員限定の記事です。
有料会員になると制限なしにご利用いただけます。
有料会員にはメリットがいっぱい!
  1. 毎月120本以上更新されるオリジナル記事で、人工知能から遺伝子療法まで、先端テクノロジーの最新動向がわかる。
  2. オリジナル記事をテーマ別に再構成したPDFファイル「eムック」を毎月配信。
    重要テーマが押さえられる。
  3. 各分野のキーパーソンを招いたトークイベント、関連セミナーに優待価格でご招待。
日本発「世界を変える」35歳未満のイノベーター

MITテクノロジーレビューが20年以上にわたって開催しているグローバル・アワード「Innovators Under 35 」。世界的な課題解決に取り組み、向こう数十年間の未来を形作る若きイノベーターの発掘を目的とするアワードの日本版の最新情報を発信する。

記事一覧を見る
MITテクノロジーレビュー[日本版] Vol.6
MITテクノロジーレビュー[日本版] Vol.6世界を変えるイノベーター50人

mRNAがん治療の事業化を目指す起業家、日本発の量子コンピューター技術を提唱する研究者、グーグルが採用した人工音声を開発した技術者、中国の次世代人工太陽の理論モデルを確立した科学者——。
MITテクノロジーレビューが選んだ、世界のイノベーター35人と日本発のイノベーター15人を一挙紹介。

詳細を見る
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る