KADOKAWA Technology Review
×
【10月31日まで】日本初開催 「Innovators Under 35」候補者募集中
AIがキャプションから生成した「不気味な画像」は重要な進歩の証
Allen Institute for AI
知性を宿す機械 Insider Online限定
These weird, unsettling photos show that AI is getting smarter

AIがキャプションから生成した「不気味な画像」は重要な進歩の証

アレン人工知能研究所は、テキストと画像を用いてAIモデルを訓練することで、キャプションから画像を生成するシステムを開発した。 by Karen Hao2020.09.30

世界中に存在するさまざまな人工知能(AI)モデルの中でも、大衆の想像を最も掻き立てているのがオープンAI(OpenAI)の「GPT-3」だ。GPT-3はわずかな指示から詩や短編小説、曲などを作ることができ、人間が作ったものだと人々に信じさせることに成功している。しかしこの能力は真の知性と見紛うようなものというよりは、どちらかと言えば表面的なトリックだ。

それでも研究者らは、GPT-3の開発に用いられた手法に、より高度な人工知能(AI)を実現するための秘密が隠されているのではないかと考えている。GPT-3は膨大な量のテキストデータを用いて訓練されている。もし同じ手法を用いて、テキストと画像の両方で訓練したらどうなるのだろうか?

アレン人工知能研究所(Allen Institute for Artificial Intelligence)の新たな研究は、このアイデアを次のレベルへと推し進めた。同研究所の研究者らは、キャプション(写真などに添えられた説明文)を与えられると、それに該当する画像を生成する新たな「テキスト画像モデル」、あるいは「視覚言語モデル」とも呼ばれるものを開発した。生成された画像は不安を掻き立てられるおぞましい代物で、「敵対的生成ネットワーク(GAN)」が作り出す本物と見紛うようなディープフェイクとは全く異なるものだ。だが、この研究は、より一般化可能な知性、そしてより賢いロボットの実現に向けて、期待の持てる新たな方向性を示している可能性がある。

空白を埋める

GPT-3は、「トランスフォーマーズ」と呼ばれるモデルグループの一部で、グーグルの「バート(BERT)」の成功によって知名度が高まった。BERT以前の言語モデルはひどい代物だった。オートコンプリート機能のようなアプリケーションで使い物になる程度の予測力は備えていたが、文法や一般常識に沿った長文を生成するだけの能力はなかった。

BERTは「マスキング」と呼ばれる新しい手法を導入することでこれを変えた。マスキングは、文章内のさまざまな単語を隠して、言語モデルにその空白を埋めさせる手法である。たとえば以下のような文章だ。

このモデルに対して訓練を繰り返し実施すると(多くの場合数百万回)、単語がどのように組 …

こちらは有料会員限定の記事です。
有料会員になると制限なしにご利用いただけます。
有料会員にはメリットがいっぱい!
  1. 毎月120本以上更新されるオリジナル記事で、人工知能から遺伝子療法まで、先端テクノロジーの最新動向がわかる。
  2. オリジナル記事をテーマ別に再構成したPDFファイル「eムック」を毎月配信。
    重要テーマが押さえられる。
  3. 各分野のキーパーソンを招いたトークイベント、関連セミナーに優待価格でご招待。
Innovators Under 35 Japan 2020

MITテクノロジーレビューが主催するグローバル・アワード「Innovators Under 35」が2020年、日本に上陸する。特定の分野や業界だけでなく、世界全体にとって重要かつ独創的なイノベーターを発信していく取り組みを紹介しよう。

記事一覧を見る
MITテクノロジーレビュー[日本版] Vol.1/Autumn 2020
MITテクノロジーレビュー[日本版] Vol.1/Autumn 2020AI Issue

技術動向から社会実装の先進事例、倫理・ガバナンスまで、
AI戦略の2020年代のあたらしい指針。

詳細を見る
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る