KADOKAWA Technology Review
×
Innovators Under 35 Japan 2026 候補者募集開始!
「常識あるAI」へ新手法、
言語+視覚でBERTしのぐ
Ms Tech | Pexels
人工知能(AI) Insider Online限定
This could lead to the next big breakthrough in common sense AI

「常識あるAI」へ新手法、
言語+視覚でBERTしのぐ

テキストだけで訓練された人工知能(AI)には限界がある。ノースカロライナ大学チャペルヒル校の研究チームは、自然言語処理とコンピュータ-・ビジョンを組み合わせる新手法により、常識あるAIを実現しようとしている。 by Karen Hao2020.12.01

MITテクノロジーレビューで何度も紹介してきた「GPT-3」は、本物の人間に極めて近い言葉を作り出す巨大な人工知能(AI)だ。だが、その大部分は蜃気楼のようなものだ。それは、単純なトリックで見分けがつく。GPT-3に羊の色を尋ねると、「白」と同じくらい頻繁に「黒」と答えるのだ。これは、日常語として使われる、厄介者という意味の「ブラック・シープ(black sheep)」という言い回しを反映しているからだ。

10 Breakthrough Technologies
この記事はマガジン「10 Breakthrough Technologies」に収録されています。 マガジンの紹介

それが言語モデルの問題点だ。テキストだけで訓練されているため、常識的判断(common sense)が欠落しているのだ。ノースカロライナ大学チャペルヒル校の研究チームは現在、この問題を解決する新たな技法を開発している。「ヴォケニゼーション(vokenization)」と呼ばれるこの技法は、GPT-3のような言語モデルに「見る」能力を与えるものだ。

言語モデルとコンピュータ-・ビジョンを組み合わせる試み自体は初めてではない。現在急速に成長しているAI研究分野の1つだ。この2種類のAIにはそれぞれの強みがある。GPT-3のような言語モデルは、手作業のラベル付けを必要としない教師なし学習によって訓練されるため、規模を拡大するのが容易だ。これに対して、物体認識システムのような画像モデルは、もっと直接的に現実から学習する。言い換えれば、画像モデルの理解はテキストのような抽象化に頼らない。羊の写真からは、実際に羊が白いことを「見られる」のだ。

言語と視覚の両方からの入力を解析できるAIモデルには、極めて実用的な使い道がある。例えば、人間を補助するロボットを作るには、現実世界をナビゲートするためのコンピュータ-・ビジョンと、その情報を人間に伝えるための言語が必要だ。

ただ、両方のタイプのAIを組み合わせるのは、言うは易く行うは難しだ。既存の言語モデルと既存の物体認識システムをただ合体させればいいわけではない。テキストと画像を含むデータセット(視覚言語データセット)を使って、新たなモデルをゼロから訓練する必要があるからだ。

視覚言語データセットを作成する最も一般的な手法は、説明文付きの画像コレクションを用意することだ。例えば、次のような写真には、「オレンジ色の猫がスーツケースの中に座っていて、荷造りされる準備ができている」という説明文が付くことになる。これは、「猫」のように1つの名詞しかラベル付けしない典型的な画像データセットとは異なる。したがって視覚言語データセットは、単に物体を認識する方法だけではなく、物体が相互にどう関連し、どう作用するかを動詞と前置詞を用いてAIモデルに教えることができる。

このデータセットを作成する処理には延々と時間がかかるのは理解いただけるだろう。だからこそ、存在する視覚言語データセットはどれもあまりにちっぽけなのだ。英語版ウィキペディアのような一般的なテキストのみのデータセット(実際にほぼ全ての英語版ウィキペディアの記載項目が含まれている)は、30億ワード近くの単語を有している。だが、「マイクロソフト ・コモン・オブジェクト・イン・コンテクスト(Microsoft Common Objects in Context:MS COCO)」のような視覚言語データセットはわずか700万ワードだ。AIモデルを訓練して役立つ何かにするには、単純にデータが足りないのだ。

ヴォケニゼーションは、教師なし学習の手法でMS COCOのわずかなデータ量を英語版ウィキペディア並みの規模に拡大することで、この問題を解決しようという試みだ。その結果得られた視覚言語データセットは、今日のAIの言語理解の評 …

こちらは有料会員限定の記事です。
有料会員になると制限なしにご利用いただけます。
有料会員にはメリットがいっぱい!
  1. 毎月120本以上更新されるオリジナル記事で、人工知能から遺伝子療法まで、先端テクノロジーの最新動向がわかる。
  2. オリジナル記事をテーマ別に再構成したPDFファイル「eムック」を毎月配信。
    重要テーマが押さえられる。
  3. 各分野のキーパーソンを招いたトークイベント、関連セミナーに優待価格でご招待。
人気の記事ランキング
  1. It’s time to address the looming crisis in entry-level work. 「コーディングを学べ」もう通用せず、AIが若者の雇用を奪い始めた
  2. Promotion Call for entries for Innovators Under 35 Japan 2026 「Innovators Under 35 Japan」2026年度候補者募集のお知らせ
  3. Anthropic’s Code with Claude showed off coding’s future—whether you like it or not 「Claudeに任せてしまおう」 たった1年で激変したソフトウェア開発
▼Promotion
社会実装都市「ひろしま」の魅力に迫る ローカル ✕ イノベーション
MITテクノロジーレビューが選んだ、AIの10大潮流 [2026年版]

AIをめぐる喧騒の中で、本当に目を向けるべきものは何か。この問いに対する答えとして、MITテクノロジーレビューはAIの重要なアイデア、潮流、新たな進展を整理したリストを発表する。

特集ページへ
MITテクノロジーレビューが選んだ、 世界を変える10大技術

MITテクノロジーレビューの記者と編集者は、未来を形作るエマージング・テクノロジーについて常に議論している。年に一度、私たちは現状を確認し、その見通しを読者に共有する。以下に挙げるのは、良くも悪くも今後数年間で進歩を促し、あるいは大きな変化を引き起こすと本誌が考えるテクノロジーである。

特集ページへ
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る