KADOKAWA Technology Review
×
DALL·E、CLIP——AIが描いた「アボカド椅子」が示す未来
Open AI
人工知能(AI) 無料会員限定
This avocado armchair could be the future of AI

DALL·E、CLIP——AIが描いた「アボカド椅子」が示す未来

オープンAI(OpenAI)は、説明文を入力すると、それにあてはある画像を大量に生成するAIモデルを発表した。自然言語処理と画像認識を組み合わせることで、AIをより賢くするアプローチが採用されている。 by Will Douglas Heaven2021.01.23

オープンAIはGPT-3で、大量のテキストを与えるだけで、単一の深層学習モデルがさまざまな方法で言語を使えるように訓練できることを示した。さらに、テキストをピクセル・データに置き変えることで、同様のアプローチで人工知能(AI)を訓練し、未完成の画像を完成させられることも示した。GPT-3は人間の言葉の使い方を模倣し、イメージGPT-3(Image GPT-3)は人間が見ているものを予測する。

オープンAIはこれらのアイデアを融合し、DALL·E(ダリー)、CLIP(クリップ:対照的言語-画像事前訓練)と呼ばれる2つの新しいモデルを構築した。これらのモデルは言語と画像を組み合わせ、AIが言葉そのものと、言葉が表すものの両方を理解しやすくするものだ。

オープンAIのイリヤ・サツケバー主任科学者は、「私たちは視覚的な世界に生きています」と述べる。「将来的には、テキストと画像の両方を理解するAIモデルが現れます。いずれAIは単語や文章の意味を認識し、より正確に言語を理解できるようになるでしょう」。

GPT-3の出力はどこか現実離れしたものになることがある。まるで何を言っているのか、よく分かっていないかのようなものが出力されてしまうのだ。実際、GPT-3は分かってはいない。オープンAIなどの研究者らは、テキストと画像の結び付きを強化する手法をとることで、人間にとっては当たり前の事柄や考え方を言語モデルにより正確に理解させようとしている。

DALL-EとCLIPは、それぞれこの問題を異なる切り口で捉えている。 CLIPは一見すると、よくある画像認識システムだ。ただ、既存の画像認識システムのほとんどは、精選されたラベル付きのデータセットからしか画像を認識できない。CLIPはそうした画像認識システムとは異なり、インターネット上の画像とキャプションを認識できる。CLIPは「猫」や「バナナ」といった1つの単語のラベルではなく、説明文から画像に何が描かれているかを学ぶのだ。

CLIPはある画像に対し、3万2768種類のランダムな説明文のうち、どの説明文が当てはまるのかを予測させる手法で訓練されている。この課題を解くため、CLIPは多くのものとその名前、そのものを表現する言葉を紐づけることを学ぶ。これによって、画像の中に訓練データにないものがあったとしても認識できるようになる。多くの画像認識システムは、特定のものを認識するよう設計されている。例えば監視カメラの映像の中の顔や、衛星画像の中の建物などだ。GPT-3と同様、CLIPは追加訓練なしにさまざまなタスクに応用できるよう、汎化が可能だ。さらに、他の最新の画像認識モデルよりも、敵対的サンプルに惑わされる可能性が低い。敵対的サ …

こちらは会員限定の記事です。
メールアドレスの登録で続きを読めます。
有料会員にはメリットがいっぱい!
  1. 毎月120本以上更新されるオリジナル記事で、人工知能から遺伝子療法まで、先端テクノロジーの最新動向がわかる。
  2. オリジナル記事をテーマ別に再構成したPDFファイル「eムック」を毎月配信。
    重要テーマが押さえられる。
  3. 各分野のキーパーソンを招いたトークイベント、関連セミナーに優待価格でご招待。
人気の記事ランキング
  1. A tiny new open-source AI model performs as well as powerful big ones 720億パラメーターでも「GPT-4o超え」、Ai2のオープンモデル
  2. The coolest thing about smart glasses is not the AR. It’s the AI. ようやく物になったスマートグラス、真価はARではなくAIにある
  3. Geoffrey Hinton, AI pioneer and figurehead of doomerism, wins Nobel Prize in Physics ジェフリー・ヒントン、 ノーベル物理学賞を受賞
  4. Geoffrey Hinton tells us why he’s now scared of the tech he helped build ジェフリー・ヒントン独白 「深層学習の父」はなぜ、 AIを恐れているのか?
日本発「世界を変える」U35イノベーター

MITテクノロジーレビューが20年以上にわたって開催しているグローバル・アワード「Innovators Under 35 」。2024年受賞者は11月発表予定です。 世界的な課題解決に取り組み、向こう数十年間の未来を形作る若きイノベーターの発掘を目的とするアワードの日本版の最新情報を随時発信中。

特集ページへ
MITTRが選んだ 世界を変える10大技術 2024年版

「ブレークスルー・テクノロジー10」は、人工知能、生物工学、気候変動、コンピューティングなどの分野における重要な技術的進歩を評価するMITテクノロジーレビューの年次企画だ。2024年に注目すべき10のテクノロジーを紹介しよう。

特集ページへ
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る