KADOKAWA Technology Review
×
DALL·E、CLIP——AIが描いた「アボカド椅子」が示す未来
Open AI
人工知能(AI) 無料会員限定
This avocado armchair could be the future of AI

DALL·E、CLIP——AIが描いた「アボカド椅子」が示す未来

オープンAI(OpenAI)は、説明文を入力すると、それにあてはある画像を大量に生成するAIモデルを発表した。自然言語処理と画像認識を組み合わせることで、AIをより賢くするアプローチが採用されている。 by Will Douglas Heaven2021.01.23

オープンAIはGPT-3で、大量のテキストを与えるだけで、単一の深層学習モデルがさまざまな方法で言語を使えるように訓練できることを示した。さらに、テキストをピクセル・データに置き変えることで、同様のアプローチで人工知能(AI)を訓練し、未完成の画像を完成させられることも示した。GPT-3は人間の言葉の使い方を模倣し、イメージGPT-3(Image GPT-3)は人間が見ているものを予測する。

オープンAIはこれらのアイデアを融合し、DALL·E(ダリー)、CLIP(クリップ:対照的言語-画像事前訓練)と呼ばれる2つの新しいモデルを構築した。これらのモデルは言語と画像を組み合わせ、AIが言葉そのものと、言葉が表すものの両方を理解しやすくするものだ。

オープンAIのイリヤ・サツケバー主任科学者は、「私たちは視覚的な世界に生きています」と述べる。「将来的には、テキストと画像の両方を理解するAIモデルが現れます。いずれAIは単語や文章の意味を認識し、より正確に言語を理解できるようになるでしょう」。

GPT-3の出力はどこか現実離れしたものになることがある。まるで何を言っているのか、よく分かっていないかのようなものが出力されてしまうのだ。実際、GPT-3は分かってはいない。オープンAIなどの研究者らは、テキストと画像の結び付きを強化する手法をとることで、人間にとっては当たり前の事柄や考え方を言語モデルにより正確に理解させようとしている。

DALL-EとCLIPは、それぞれこの問題を異なる切り口で捉えている。 CLIPは一見すると、よくある画像認識システムだ。ただ、既存の画像認識システムのほとんどは、精選されたラベル付きのデータセットからしか画像を認識できない。CLIPはそうした画像認識システムとは異なり、インターネット上の画像とキャプションを認識できる。CLIPは「猫」や「バナナ」といった1つの単語のラベルではなく、説明文から画像に何が描かれているかを学ぶのだ。

CLIPはある画像に対し、3万2768種類のランダムな説明文のうち、どの説明文が当てはまるのかを予測させる手法で訓練されている。この課題を解くため、CLIPは多くのものとその名前、そのものを表現する言葉を紐づけることを学ぶ。これによって、画像の中に訓練データにないものがあったとしても認識できるようになる。多くの画像認識システムは、特定のものを認識するよう設計されている。例えば監視カメラの映像の中の顔や、衛星画像の中の建物などだ。GPT-3と同様、CLIPは追加訓練なしにさまざまなタスクに応用できるよう、汎化が可能だ。さらに、他の最新の画像認識モデルよりも、敵対的サンプルに惑わされる可能性が低い。敵対的サ …

こちらは会員限定の記事です。
メールアドレスの登録で続きを読めます。
有料会員にはメリットがいっぱい!
  1. 毎月120本以上更新されるオリジナル記事で、人工知能から遺伝子療法まで、先端テクノロジーの最新動向がわかる。
  2. オリジナル記事をテーマ別に再構成したPDFファイル「eムック」を毎月配信。
    重要テーマが押さえられる。
  3. 各分野のキーパーソンを招いたトークイベント、関連セミナーに優待価格でご招待。
人気の記事ランキング
  1. A long-abandoned US nuclear technology is making a comeback in China 中国でトリウム原子炉が稼働、見直される過去のアイデア
  2. Here’s why we need to start thinking of AI as “normal” AIは「普通」の技術、プリンストン大のつまらない提言の背景
  3. AI companions are the final stage of digital addiction, and lawmakers are taking aim SNS超える中毒性、「AIコンパニオン」に安全対策求める声
MITTRが選んだ 世界を変える10大技術 2025年版

本当に長期的に重要となるものは何か?これは、毎年このリストを作成する際に私たちが取り組む問いである。未来を完全に見通すことはできないが、これらの技術が今後何十年にもわたって世界に大きな影響を与えると私たちは予測している。

特集ページへ
日本発「世界を変える」U35イノベーター

MITテクノロジーレビューが20年以上にわたって開催しているグローバル・アワード「Innovators Under 35 」。世界的な課題解決に取り組み、向こう数十年間の未来を形作る若きイノベーターの発掘を目的とするアワードの日本版の最新情報を発信する。

特集ページへ
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る