KADOKAWA Technology Review
×
「Innovators Under 35 Japan」2024年度候補者募集中!
「馬に乗った宇宙飛行士」——文章から画像を描くAIが驚きの進歩
DALL-E
人工知能(AI) Insider Online限定
This horse-riding astronaut is a milestone in AI’s ability to make sense of the world

「馬に乗った宇宙飛行士」——文章から画像を描くAIが驚きの進歩

オープンAIは、与えられた文章から画像を生成するAIシステムの最新版を発表した。「馬に乗った宇宙飛行士」などの文章を入力すると、言葉にできるものなら何でも写真に近い形で生成できるという、驚くべきものだ。 by Will Douglas Heaven2022.04.12

サンフランシスコを拠点とする研究機関「オープンAI(OpenAI)」が画像を生成するニューラル・ネットワーク「DALL-E(ダリー)」を2021年初頭に公開したとき、異なる概念を新しい方法で組み合わせる人間のような能力には目を見張るものがあった。DALL-Eが要求に応じて生成する一連の画像はシュールでマンガのようだったが、人工知能(AI)が世界の調和に関する重要な教訓を学んだことを示すものでもあった。DALL-Eが生成したアボカドのひじ掛け椅子の画像は、アボカドと椅子の両方の特徴を備えていた。また、DALL-Eが生成した犬の散歩をするチュチュを着た大根の画像では、大根がチュチュを腰に巻き、手に犬のリードを持っていた。

オープンAIは2022年4月、DALL-Eの後継版となる「DALL-E 2」を発表した。改良された画像を生成するDALL-E 2は、以前よりも使いやすくなっている。そしてDALL-Eとは異なり、(いずれ)一般に公開される予定だ。DALL-E 2が現在のAIの定義を拡張することにより、我々はAIの概念を検証し、AIとは一体何なのかを決定するように強いられるようになるかもしれない。

「DALL-EからDALL-E 2への飛躍は、GPT-2からGPT-3への飛躍を思わせるものです」とシアトルのアレン人工知能研究所(Ai2:Allen Institute for Artificial Intelligence)のオレン・エツィオーニ最高経営責任者(CEO)は述べる。GPT-2とGPT-3はいずれも、オープンAIが開発した大規模言語モデルである。

DALL-Eのような画像生成モデルは、わずか数年で大きな進歩を遂げた。アレン人工知能研究所は2020年、「3人がソファでビデオゲームをする」といったキャプションから画像を生成できるニューラル・ネットワークを披露した。生成された画像は、歪んでぼやけていたものの、ギリギリ認識できるものだった。2021年には、中国のハイテク企業バイドゥ(百度)が、初代DALL-Eの画質を向上させた画像生成モデル「アーニービルグ(ERNIE-ViLG)」を発表した。

DALL-E 2は、そのアプローチをさらに推し進めたものだ。DALL-E 2が生成する画像には目を見張るものがある。例えば、「科学者のテディベア」「馬に乗った宇宙飛行士」「フェルメール風のラッコ」などの画像を生成するよう文章を入力すると、言葉にできるものなら何でも、写真に近い形で生成できる。オープンAIが公開している画像(下記参照)や、オープンAIが4月のデモで紹介した画像は、事前に慎重に選ばれたものだったのだろうが、それでも質の高さは驚くべきものだ。

オープンAIの共同創業者で主任科学者であるイリヤ・サツケバーは、「このニューラル・ネットワークはある意味、卓越した美のサービスであると考えることができます。ときどき、はっとするような画像が生成されるのです」と語る。

DALL-E 2の性能向上は、完全に再設計されたことによるものだ。オリジナル・バージョンのDALL-Eは、多少なりともGPT-3の延長線上にあった。GPT-3は、多くの点で、文章の自動補完機能を猛烈にパワーアップさせたようなものだ。つまり、複数の単語や文章を入力すると、次の数百の単語を勝手に予測してくれるのだ。DALL-Eは、言葉をピクセルに置き換えた違いはあるものの、基本的には同様な仕組みをとっていた。DALL-Eは、入力された文章を受け取ると、次に来る可能性が最も高いピクセル列を予測して画像を生成することによって、文章を「完成」させた。

一方のDALL-E 2は、GPT-3ベースではない。内部では、DALL-E 2は2つのステージで動作す …

こちらは有料会員限定の記事です。
有料会員になると制限なしにご利用いただけます。
有料会員にはメリットがいっぱい!
  1. 毎月120本以上更新されるオリジナル記事で、人工知能から遺伝子療法まで、先端テクノロジーの最新動向がわかる。
  2. オリジナル記事をテーマ別に再構成したPDFファイル「eムック」を毎月配信。
    重要テーマが押さえられる。
  3. 各分野のキーパーソンを招いたトークイベント、関連セミナーに優待価格でご招待。
人気の記事ランキング
  1. AI can make you more creative—but it has limits 生成AIは人間の創造性を高めるか? 新研究で限界が明らかに
  2. Promotion Call for entries for Innovators Under 35 Japan 2024 「Innovators Under 35 Japan」2024年度候補者募集のお知らせ
  3. Interview with Prof. Masayuki Ohzeki: The Future of Quantum Computer Commercialization and the Qualities of Innovators 量子技術を最速で社会へ、大関真之教授が考えるイノベーターの条件
  4. How to fix a Windows PC affected by the global outage 世界規模のウィンドウズPCトラブル、IT部門「最悪の週末」に
  5. Robot-packed meals are coming to the frozen-food aisle 「手作業が早い」食品工場でもロボット化、盛り付け完璧に
日本発「世界を変える」U35イノベーター

MITテクノロジーレビューが20年以上にわたって開催しているグローバル・アワード「Innovators Under 35 」。2024年も候補者の募集を開始しました。 世界的な課題解決に取り組み、向こう数十年間の未来を形作る若きイノベーターの発掘を目的とするアワードの日本版の最新情報を随時発信中。

特集ページへ
MITTRが選んだ 世界を変える10大技術 2024年版

「ブレークスルー・テクノロジー10」は、人工知能、生物工学、気候変動、コンピューティングなどの分野における重要な技術的進歩を評価するMITテクノロジーレビューの年次企画だ。2024年に注目すべき10のテクノロジーを紹介しよう。

特集ページへ
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る