KADOKAWA Technology Review
×
AIがキャプションから生成した「不気味な画像」は重要な進歩の証
Allen Institute for AI
知性を宿す機械 Insider Online限定
These weird, unsettling photos show that AI is getting smarter

AIがキャプションから生成した「不気味な画像」は重要な進歩の証

アレン人工知能研究所は、テキストと画像を用いてAIモデルを訓練することで、キャプションから画像を生成するシステムを開発した。 by Karen Hao2020.09.30

世界中に存在するさまざまな人工知能(AI)モデルの中でも、大衆の想像を最も掻き立てているのがオープンAI(OpenAI)の「GPT-3」だ。GPT-3はわずかな指示から詩や短編小説、曲などを作ることができ、人間が作ったものだと人々に信じさせることに成功している。しかしこの能力は真の知性と見紛うようなものというよりは、どちらかと言えば表面的なトリックだ。

それでも研究者らは、GPT-3の開発に用いられた手法に、より高度な人工知能(AI)を実現するための秘密が隠されているのではないかと考えている。GPT-3は膨大な量のテキストデータを用いて訓練されている。もし同じ手法を用いて、テキストと画像の両方で訓練したらどうなるのだろうか?

アレン人工知能研究所(Allen Institute for Artificial Intelligence)の新たな研究は、このアイデアを次のレベルへと推し進めた。同研究所の研究者らは、キャプション(写真などに添えられた説明文)を与えられると、それに該当する画像を生成する新たな「テキスト画像モデル」、あるいは「視覚言語モデル」とも呼ばれるものを開発した。生成された画像は不安を掻き立てられるおぞましい代物で、「敵対的生成ネットワーク(GAN)」が作り出す本物と見紛うようなディープフェイクとは全く異なるものだ。だが、この研究は、より一般化可能な知性、そしてより賢いロボットの実現に向けて、期待の持てる新たな方向性を示している可能性がある。

空白を埋める

GPT-3は、「トランスフォーマーズ」と呼ばれるモデルグループの一部で、グーグルの「バート(BERT)」の成功によって知名度が高まった。BERT以前の言語モデルはひどい代物だった。オートコンプリート機能のようなアプリケーションで使い物になる程度の予測力は備えていたが、文法や一般常識に沿った長文を生成するだけの能力はなかった。

BERTは「マスキング」と呼ばれる新しい手法を導入することでこれを変えた。マスキングは、文章内のさまざまな単語を隠して、言語モデルにその空白を埋めさせる手法である。たとえば以下のような文章だ。

このモデルに対して訓練を繰り返し実施すると(多くの場合数百万回)、単語がどのように組 …

こちらは有料会員限定の記事です。
有料会員になると制限なしにご利用いただけます。
有料会員にはメリットがいっぱい!
  1. 毎月120本以上更新されるオリジナル記事で、人工知能から遺伝子療法まで、先端テクノロジーの最新動向がわかる。
  2. オリジナル記事をテーマ別に再構成したPDFファイル「eムック」を毎月配信。
    重要テーマが押さえられる。
  3. 各分野のキーパーソンを招いたトークイベント、関連セミナーに優待価格でご招待。
日本発「世界を変える」35歳未満のイノベーター

MITテクノロジーレビューが20年以上にわたって開催しているグローバル・アワード「Innovators Under 35 」。世界的な課題解決に取り組み、向こう数十年間の未来を形作る若きイノベーターの発掘を目的とするアワードの日本版の最新情報を発信する。

記事一覧を見る
MITテクノロジーレビュー[日本版] Vol.8
MITテクノロジーレビュー[日本版] Vol.8脱炭素イノベーション

2050年のカーボンニュートラル(炭素中立)の実現に向けて、世界各国で研究開発が加速する脱炭素技術、社会実装が進む気候変動の緩和・適応策などGX(グリーン・トランスフォーメーション)の最新動向を丸ごと1冊取り上げる。

詳細を見る
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る