大規模言語モデル(LLM)は、部分的には彼らが供給された膨大なテキストデータのおかげで、言葉に対して卓越している。しかし、AIのフロンティアは、テキストを超えて周囲の世界を解釈できるシステムの構築である。見て、聞いて、複雑な状況に応答することだ。それは野心的な飛躍であり、この分野最大の課題の1つだ。このフロンティアをさらに押し進めることに専念している最高の研究者の1人が、ノースウェスタン大学の33歳のマンリン・リーだ。
リーの研究は、AIの重要な課題である言語を現実世界の行動に翻訳することに焦点を当てている。テキストなどの単一タイプの入力を専門とする従来のAIシステムとは異なり、リーは知覚、推論、行動を統合するシステムを作成している。彼女は、AIが画像、音声、映像、テキストなどのマルチメディア情報から何が起こっているかを組み立てることを可能にするフレームワークを作成した。さまざまなデータ形式で「知覚」する能力は、現実世界でより包括的な判断を下すことができるAIを構築するために不可欠なものだ。
AIシステムの環境で何が起こっているかを単に特定するのではなく、彼女の研究はシステムが物事がなぜ起こるのか、どのように関連しているかを「理解」するのに役立つ。ビデオ内のオブジェクトにタグを付けたり、文からキーワードを選択したりするだけでなく、何が起こっているかを追跡し、異なる行動がどのように関連しているかを把握し、なぜ何かが起こったのかを説明できる。この透明性は、AIシステムが私たちの日常生活でより重要な決定を下すようになるにつれて、ますます重要になっている。
彼女の研究はすでに研究室を超えて使用されている。国防高等研究計画局(DARPA) を含む米政府機関が彼女のシステムを採用し、オープンソース・ツールを通じて、高度なAI技術をより広く利用可能にするのに貢献している。また、物理的環境をナビゲートし、動画で何が起こっているかについての複雑な質問に答えるなど、現実世界の設定でAIパフォーマンスを評価するための新しいベンチマークも作成した。
AIがスマート・アシスタントから自律走行自動車まであらゆるものに組み込まれるようになると、リーの研究はこれらのシステムが強力であるだけでなく、信頼性と透明性を備えていることを保証するだろう。
- 人気の記事ランキング
-
- It’s time to address the looming crisis in entry-level work. 「コーディングを学べ」もう通用せず、AIが若者の雇用を奪い始めた
- Promotion Call for entries for Innovators Under 35 Japan 2026 「Innovators Under 35 Japan」2026年度候補者募集のお知らせ
- Anthropic’s Code with Claude showed off coding’s future—whether you like it or not 「Claudeに任せてしまおう」 たった1年で激変したソフトウェア開発
- A reality check on the AI jobs hysteria 「ホワイトカラー消滅」 まだデータに兆候なし ——ただし若者に警戒信号
- Inside the stealthy startup that pitched brainless human clones 「臓器袋」から全身置換へ ステルス企業R3が隠す 「脳なし」クローン計画
