KADOKAWA Technology Review
×
AIがキャプションから生成した「不気味な画像」は重要な進歩の証
Allen Institute for AI
人工知能(AI) Insider Online限定
These weird, unsettling photos show that AI is getting smarter

AIがキャプションから生成した「不気味な画像」は重要な進歩の証

アレン人工知能研究所は、テキストと画像を用いてAIモデルを訓練することで、キャプションから画像を生成するシステムを開発した。 by Karen Hao2020.09.30

世界中に存在するさまざまな人工知能(AI)モデルの中でも、大衆の想像を最も掻き立てているのがオープンAI(OpenAI)の「GPT-3」だ。GPT-3はわずかな指示から詩や短編小説、曲などを作ることができ、人間が作ったものだと人々に信じさせることに成功している。しかしこの能力は真の知性と見紛うようなものというよりは、どちらかと言えば表面的なトリックだ。

それでも研究者らは、GPT-3の開発に用いられた手法に、より高度な人工知能(AI)を実現するための秘密が隠されているのではないかと考えている。GPT-3は膨大な量のテキストデータを用いて訓練されている。もし同じ手法を用いて、テキストと画像の両方で訓練したらどうなるのだろうか?

アレン人工知能研究所(Allen Institute for Artificial Intelligence)の新たな研究は、このアイデアを次のレベルへと推し進めた。同研究所の研究者らは、キャプション(写真などに添えられた説明文)を与えられると、それに該当する画像を生成する新たな「テキスト画像モデル」、あるいは「視覚言語モデル」とも呼ばれるものを開発した。生成された画像は不安を掻き立てられるおぞましい代物で、「敵対的生成ネットワーク(GAN)」が作り出す本物と見紛うようなディープフェイクとは全く異なるものだ。だが、この研究は、より一般化可能な知性、そしてより賢いロボットの実現に向けて、期待の持てる新たな方向性を示している可能性がある。

空白を埋める

GPT-3は、「トランスフォーマーズ」と呼ばれるモデルグループの一部で、グーグルの「バート(BERT)」の成功によって知名度が高まった。BERT以前の言語モデルはひどい代物だった。オートコンプリート機能のようなアプリケーションで使い物になる程度の予測力は備えていたが、文法や一般常識に沿った長文を生成するだけの能力はなかった。

BERTは「マスキング」と呼ばれる新しい手法を導入することでこれを変えた。マスキングは、文章内のさまざまな単語を隠して、言語モデルにその空白を埋めさせる手法である。たとえば以下のような文章だ。

このモデルに対して訓練を繰り返し実施すると(多くの場合数百万回)、単語がどのように組 …

こちらは有料会員限定の記事です。
有料会員になると制限なしにご利用いただけます。
有料会員にはメリットがいっぱい!
  1. 毎月120本以上更新されるオリジナル記事で、人工知能から遺伝子療法まで、先端テクノロジーの最新動向がわかる。
  2. オリジナル記事をテーマ別に再構成したPDFファイル「eムック」を毎月配信。
    重要テーマが押さえられる。
  3. 各分野のキーパーソンを招いたトークイベント、関連セミナーに優待価格でご招待。
10 Breakthrough Technologies 2024

MITテクノロジーレビューは毎年、世界に真のインパクトを与える有望なテクノロジーを探している。本誌がいま最も重要だと考える進歩を紹介しよう。

記事一覧を見る
気候テック企業15 2023

MITテクノロジーレビューの「気候テック企業15」は、温室効果ガスの排出量を大幅に削減する、あるいは地球温暖化の脅威に対処できる可能性が高い有望な「気候テック企業」の年次リストである。

記事一覧を見る
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る