KADOKAWA Technology Review
×
2021重大技術:「マルチモーダル」でAIはもっと柔軟かつ堅牢になる
Selman Design
人工知能(AI) 無料会員限定
AI armed with multiple senses could gain more flexible intelligence

2021重大技術:「マルチモーダル」でAIはもっと柔軟かつ堅牢になる

人間の知能はさまざまな知覚と言語能力の組み合わせから生まれる。こうしたマルチモーダルな手法を用いれば、新しい状況や問題により容易に対処できる堅牢なAIを作り出せる可能性がある。 by Karen Hao2021.03.08

2012年後半、人工知能(AI)科学者たちはニューラルネットワークに「視覚」を与える方法を発見した。人間の脳をおおまかに模した設計のソフトウェアを利用することで、既存のコンピュータービジョンの性能を劇的に向上できることが示されたのだ。AI分野ではそれ以来、人間の思考力、聴覚、発話、そして文章作成の能力をニューラルネットワークで模倣するための方法が開発されてきた。

10 Breakthrough Technologies
この記事はマガジン「10 Breakthrough Technologies」に収録されています。 マガジンの紹介

特定のタスク処理においてAIは驚くほど人間に近づいている。人間を超えたといってもいいだろう。しかし、依然として、人間の脳がもつ柔軟性を再現できていない。人間はひとつのコンテクスト内で学んだことを別のコンテクスト内でも応用できる。一方、例えばディープマインド(DeepMind)のゲーム用アルゴリズムである「アルファ碁(AlphaGo)」は世界トップの囲碁棋士に勝てるが、その戦略性が発揮されるのは盤上だけに限られる。つまり、深層学習アルゴリズムはパターンの発見において天才的であってもそれを理解することはできず、絶えず変化する世界に応用することもできない。

研究者たちはこの問題の解決方法について多くの仮説を提案してきたが、その中に大きな注目を浴びているものがある。子どもたちは知覚と会話を通して世界について学んでいく。どうやらこの組み合わせが重要なようだ。視覚や聴覚を含めたさまざまな感覚情報と言葉を結びつけていくことで、子どもたちは複雑な現象や相互作用の描写、因果関係と相関関係の区別、そして洗練された世界モデルの構築を少しずつ学んでいく。そうしてできたモデルは未知の環境における行動指針となり、新しい知識や経験をコンテクストと関連付ける助けにもなる。

一方、AIシステムは、一度にそのうちひとつのことをするようにしか作られていない。コンピュータービジョンと音声認識アルゴリズムはそれぞれ映像と音を感知するが、言葉を使ってそれらを記述することは …

こちらは会員限定の記事です。
メールアドレスの登録で続きを読めます。
有料会員にはメリットがいっぱい!
  1. 毎月120本以上更新されるオリジナル記事で、人工知能から遺伝子療法まで、先端テクノロジーの最新動向がわかる。
  2. オリジナル記事をテーマ別に再構成したPDFファイル「eムック」を毎月配信。
    重要テーマが押さえられる。
  3. 各分野のキーパーソンを招いたトークイベント、関連セミナーに優待価格でご招待。
【春割】実施中! ひと月あたり1,000円で読み放題
10 Breakthrough Technologies 2024

MITテクノロジーレビューは毎年、世界に真のインパクトを与える有望なテクノロジーを探している。本誌がいま最も重要だと考える進歩を紹介しよう。

記事一覧を見る
気候テック企業15 2023

MITテクノロジーレビューの「気候テック企業15」は、温室効果ガスの排出量を大幅に削減する、あるいは地球温暖化の脅威に対処できる可能性が高い有望な「気候テック企業」の年次リストである。

記事一覧を見る
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る