大規模言語モデル(LLM)は、部分的には彼らが供給された膨大なテキストデータのおかげで、言葉に対して卓越している。しかし、AIのフロンティアは、テキストを超えて周囲の世界を解釈できるシステムの構築である。見て、聞いて、複雑な状況に応答することだ。それは野心的な飛躍であり、この分野最大の課題の1つだ。このフロンティアをさらに押し進めることに専念している最高の研究者の1人が、ノースウェスタン大学の33歳のマンリン・リーだ。
リーの研究は、AIの重要な課題である言語を現実世界の行動に翻訳することに焦点を当てている。テキストなどの単一タイプの入力を専門とする従来のAIシステムとは異なり、リーは知覚、推論、行動を統合するシステムを作成している。彼女は、AIが画像、音声、映像、テキストなどのマルチメディア情報から何が起こっているかを組み立てることを可能にするフレームワークを作成した。さまざまなデータ形式で「知覚」する能力は、現実世界でより包括的な判断を下すことができるAIを構築するために不可欠なものだ。
AIシステムの環境で何が起こっているかを単に特定するのではなく、彼女の研究はシステムが物事がなぜ起こるのか、どのように関連しているかを「理解」するのに役立つ。ビデオ内のオブジェクトにタグを付けたり、文からキーワードを選択したりするだけでなく、何が起こっているかを追跡し、異なる行動がどのように関連しているかを把握し、なぜ何かが起こったのかを説明できる。この透明性は、AIシステムが私たちの日常生活でより重要な決定を下すようになるにつれて、ますます重要になっている。
彼女の研究はすでに研究室を超えて使用されている。国防高等研究計画局(DARPA) を含む米政府機関が彼女のシステムを採用し、オープンソース・ツールを通じて、高度なAI技術をより広く利用可能にするのに貢献している。また、物理的環境をナビゲートし、動画で何が起こっているかについての複雑な質問に答えるなど、現実世界の設定でAIパフォーマンスを評価するための新しいベンチマークも作成した。
AIがスマート・アシスタントから自律走行自動車まであらゆるものに組み込まれるようになると、リーの研究はこれらのシステムが強力であるだけでなく、信頼性と透明性を備えていることを保証するだろう。
- 人気の記事ランキング
-
- This company claims a battery breakthrough. Now they need to prove it. すべてのパラメーターが矛盾——「出来すぎ」全固体電池は本物か?
- OpenAI’s “compromise” with the Pentagon is what Anthropic feared アンソロピック排除の裏で進んだオープンAIの軍事契約、その代償は
- AI is rewiring how the world’s best Go players think 「アルファ碁」から10年、 AIは囲碁から 創造性を奪ったのか
- How uncrewed narco subs could transform the Colombian drug trade 中には誰もいなかった—— コカイン密輸組織が作った 「自律潜水ドローン」の脅威