大規模言語モデル(LLM)は、部分的には彼らが供給された膨大なテキストデータのおかげで、言葉に対して卓越している。しかし、AIのフロンティアは、テキストを超えて周囲の世界を解釈できるシステムの構築である。見て、聞いて、複雑な状況に応答することだ。それは野心的な飛躍であり、この分野最大の課題の1つだ。このフロンティアをさらに押し進めることに専念している最高の研究者の1人が、ノースウェスタン大学の33歳のマンリン・リーだ。
リーの研究は、AIの重要な課題である言語を現実世界の行動に翻訳することに焦点を当てている。テキストなどの単一タイプの入力を専門とする従来のAIシステムとは異なり、リーは知覚、推論、行動を統合するシステムを作成している。彼女は、AIが画像、音声、映像、テキストなどのマルチメディア情報から何が起こっているかを組み立てることを可能にするフレームワークを作成した。さまざまなデータ形式で「知覚」する能力は、現実世界でより包括的な判断を下すことができるAIを構築するために不可欠なものだ。
AIシステムの環境で何が起こっているかを単に特定するのではなく、彼女の研究はシステムが物事がなぜ起こるのか、どのように関連しているかを「理解」するのに役立つ。ビデオ内のオブジェクトにタグを付けたり、文からキーワードを選択したりするだけでなく、何が起こっているかを追跡し、異なる行動がどのように関連しているかを把握し、なぜ何かが起こったのかを説明できる。この透明性は、AIシステムが私たちの日常生活でより重要な決定を下すようになるにつれて、ますます重要になっている。
彼女の研究はすでに研究室を超えて使用されている。国防高等研究計画局(DARPA) を含む米政府機関が彼女のシステムを採用し、オープンソース・ツールを通じて、高度なAI技術をより広く利用可能にするのに貢献している。また、物理的環境をナビゲートし、動画で何が起こっているかについての複雑な質問に答えるなど、現実世界の設定でAIパフォーマンスを評価するための新しいベンチマークも作成した。
AIがスマート・アシスタントから自律走行自動車まであらゆるものに組み込まれるようになると、リーの研究はこれらのシステムが強力であるだけでなく、信頼性と透明性を備えていることを保証するだろう。
- 人気の記事ランキング
-
- Is carbon removal in trouble? 炭素除去業界に激震、最大顧客のマイクロソフトが購入を一時停止
- NASA is building the first nuclear reactor-powered interplanetary spacecraft. How will it work? 初の原子力推進で火星へ、 NASA「強気すぎる」計画 SR-1はどう動くのか?
- Digging for clues about the North Pole’s past 12万年前は無氷だった?海底22メートルの泥で掘り起こす北極点の謎
- Chinese tech workers are starting to train their AI doubles–and pushing back 「先に同僚を蒸留せよ」 中国テック系労働者に広がる AI自動化の強烈な波