大規模言語モデル(LLM)は、部分的には彼らが供給された膨大なテキストデータのおかげで、言葉に対して卓越している。しかし、AIのフロンティアは、テキストを超えて周囲の世界を解釈できるシステムの構築である。見て、聞いて、複雑な状況に応答することだ。それは野心的な飛躍であり、この分野最大の課題の1つだ。このフロンティアをさらに押し進めることに専念している最高の研究者の1人が、ノースウェスタン大学の33歳のマンリン・リーだ。
リーの研究は、AIの重要な課題である言語を現実世界の行動に翻訳することに焦点を当てている。テキストなどの単一タイプの入力を専門とする従来のAIシステムとは異なり、リーは知覚、推論、行動を統合するシステムを作成している。彼女は、AIが画像、音声、映像、テキストなどのマルチメディア情報から何が起こっているかを組み立てることを可能にするフレームワークを作成した。さまざまなデータ形式で「知覚」する能力は、現実世界でより包括的な判断を下すことができるAIを構築するために不可欠なものだ。
AIシステムの環境で何が起こっているかを単に特定するのではなく、彼女の研究はシステムが物事がなぜ起こるのか、どのように関連しているかを「理解」するのに役立つ。ビデオ内のオブジェクトにタグを付けたり、文からキーワードを選択したりするだけでなく、何が起こっているかを追跡し、異なる行動がどのように関連しているかを把握し、なぜ何かが起こったのかを説明できる。この透明性は、AIシステムが私たちの日常生活でより重要な決定を下すようになるにつれて、ますます重要になっている。
彼女の研究はすでに研究室を超えて使用されている。国防高等研究計画局(DARPA) を含む米政府機関が彼女のシステムを採用し、オープンソース・ツールを通じて、高度なAI技術をより広く利用可能にするのに貢献している。また、物理的環境をナビゲートし、動画で何が起こっているかについての複雑な質問に答えるなど、現実世界の設定でAIパフォーマンスを評価するための新しいベンチマークも作成した。
AIがスマート・アシスタントから自律走行自動車まであらゆるものに組み込まれるようになると、リーの研究はこれらのシステムが強力であるだけでなく、信頼性と透明性を備えていることを保証するだろう。
- 人気の記事ランキング
-
- This scientist rewarmed and studied pieces of his friend’s cryopreserved brain 10年冷凍保存の脳は「驚くほど良好」——蘇生は「まったく別の話」
- Future AI chips could be built on glass AIチップの熱問題、解決策は「ガラス」 年内に商業生産へ
- What do new nuclear reactors mean for waste? 新型原子炉が続々登場、核廃棄物管理の「手引き」は書き直せるか
- The Pentagon is planning for AI companies to train on classified data, defense official says 【独自】米国防総省、軍事機密データでAIモデルの訓練を計画