KADOKAWA Technology Review
×
Innovators Under 35 Japan 2026 候補者募集開始!
「馬に乗った宇宙飛行士」——文章から画像を描くAIが驚きの進歩
DALL-E
人工知能(AI) Insider Online限定
This horse-riding astronaut is a milestone in AI’s ability to make sense of the world

「馬に乗った宇宙飛行士」——文章から画像を描くAIが驚きの進歩

オープンAIは、与えられた文章から画像を生成するAIシステムの最新版を発表した。「馬に乗った宇宙飛行士」などの文章を入力すると、言葉にできるものなら何でも写真に近い形で生成できるという、驚くべきものだ。 by Will Douglas Heaven2022.04.12

サンフランシスコを拠点とする研究機関「オープンAI(OpenAI)」が画像を生成するニューラル・ネットワーク「DALL-E(ダリー)」を2021年初頭に公開したとき、異なる概念を新しい方法で組み合わせる人間のような能力には目を見張るものがあった。DALL-Eが要求に応じて生成する一連の画像はシュールでマンガのようだったが、人工知能(AI)が世界の調和に関する重要な教訓を学んだことを示すものでもあった。DALL-Eが生成したアボカドのひじ掛け椅子の画像は、アボカドと椅子の両方の特徴を備えていた。また、DALL-Eが生成した犬の散歩をするチュチュを着た大根の画像では、大根がチュチュを腰に巻き、手に犬のリードを持っていた。

オープンAIは2022年4月、DALL-Eの後継版となる「DALL-E 2」を発表した。改良された画像を生成するDALL-E 2は、以前よりも使いやすくなっている。そしてDALL-Eとは異なり、(いずれ)一般に公開される予定だ。DALL-E 2が現在のAIの定義を拡張することにより、我々はAIの概念を検証し、AIとは一体何なのかを決定するように強いられるようになるかもしれない。

「DALL-EからDALL-E 2への飛躍は、GPT-2からGPT-3への飛躍を思わせるものです」とシアトルのアレン人工知能研究所(Ai2:Allen Institute for Artificial Intelligence)のオレン・エツィオーニ最高経営責任者(CEO)は述べる。GPT-2とGPT-3はいずれも、オープンAIが開発した大規模言語モデルである。

DALL-Eのような画像生成モデルは、わずか数年で大きな進歩を遂げた。アレン人工知能研究所は2020年、「3人がソファでビデオゲームをする」といったキャプションから画像を生成できるニューラル・ネットワークを披露した。生成された画像は、歪んでぼやけていたものの、ギリギリ認識できるものだった。2021年には、中国のハイテク企業バイドゥ(百度)が、初代DALL-Eの画質を向上させた画像生成モデル「アーニービルグ(ERNIE-ViLG)」を発表した。

DALL-E 2は、そのアプローチをさらに推し進めたものだ。DALL-E 2が生成する画像には目を見張るものがある。例えば、「科学者のテディベア」「馬に乗った宇宙飛行士」「フェルメール風のラッコ」などの画像を生成するよう文章を入力すると、言葉にできるものなら何でも、写真に近い形で生成できる。オープンAIが公開している画像(下記参照)や、オープンAIが4月のデモで紹介した画像は、事前に慎重に選ばれたものだったのだろうが、それでも質の高さは驚くべきものだ。

オープンAIの共同創業者で主任科学者であるイリヤ・サツケバーは、「このニューラル・ネットワークはある意味、卓越した美のサービスであると考えることができます。ときどき、はっとするような画像が生成されるのです」と語る。

DALL-E 2の性能向上は、完全に再設計されたことによるものだ。オリジナル・バージョンのDALL-Eは、多少なりともGPT-3の延長線上にあった。GPT-3は、多くの点で、文章の自動補完機能を猛烈にパワーアップさせたようなものだ。つまり、複数の単語や文章を入力すると、次の数百の単語を勝手に予測してくれるのだ。DALL-Eは、言葉をピクセルに置き換えた違いはあるものの、基本的には同様な仕組みをとっていた。DALL-Eは、入力された文章を受け取ると、次に来る可能性が最も高いピクセル列を予測して画像を生成することによって、文章を「完成」させた。

一方のDALL-E 2は、GPT-3ベースではない。内部では、DALL-E 2は2つのステージで動作す …

こちらは有料会員限定の記事です。
有料会員になると制限なしにご利用いただけます。
有料会員にはメリットがいっぱい!
  1. 毎月120本以上更新されるオリジナル記事で、人工知能から遺伝子療法まで、先端テクノロジーの最新動向がわかる。
  2. オリジナル記事をテーマ別に再構成したPDFファイル「eムック」を毎月配信。
    重要テーマが押さえられる。
  3. 各分野のキーパーソンを招いたトークイベント、関連セミナーに優待価格でご招待。
人気の記事ランキング
  1. It’s time to address the looming crisis in entry-level work. 「コーディングを学べ」もう通用せず、AIが若者の雇用を奪い始めた
  2. Promotion Call for entries for Innovators Under 35 Japan 2026 「Innovators Under 35 Japan」2026年度候補者募集のお知らせ
  3. Anthropic’s Code with Claude showed off coding’s future—whether you like it or not 「Claudeに任せてしまおう」 たった1年で激変したソフトウェア開発
▼Promotion
社会実装都市「ひろしま」の魅力に迫る ローカル ✕ イノベーション
MITテクノロジーレビューが選んだ、AIの10大潮流 [2026年版]

AIをめぐる喧騒の中で、本当に目を向けるべきものは何か。この問いに対する答えとして、MITテクノロジーレビューはAIの重要なアイデア、潮流、新たな進展を整理したリストを発表する。

特集ページへ
MITテクノロジーレビューが選んだ、 世界を変える10大技術

MITテクノロジーレビューの記者と編集者は、未来を形作るエマージング・テクノロジーについて常に議論している。年に一度、私たちは現状を確認し、その見通しを読者に共有する。以下に挙げるのは、良くも悪くも今後数年間で進歩を促し、あるいは大きな変化を引き起こすと本誌が考えるテクノロジーである。

特集ページへ
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る