フラッシュ2024年4月16日
-
人工知能(AI)
NTT、LLMで視覚情報も含めて文書を理解する技術
by MITテクノロジーレビュー編集部 [MIT Technology Review Japan]NTTは、大規模言語モデル(LLM)によって、視覚情報も含めて文書を理解する「視覚読解技術」を実現。同社が研究開発している大規模言語モデル「ツヅミ(tsuzumi)」のアダプタ技術として採用・導入したことを明らかにした。
我々が扱う文書の多くは、テキスト以外に、アイコンや図表、グラフなどの視覚要素を含んでおり、多様な種類・形式が存在する。NTTと東北大学の共同研究チームは今回、文書を画像として捉えて、文書中の文字とその位置情報、画像の特徴を定量的に表現した画像情報、指示テキストを、同一空間上にマッピングする技術を開発。文書画像のマルチモーダルな特徴を、大規模言語モデルにとって解釈しやすい情報として獲得できるようにした。
続いて、文書画像を知識源として、質問応答や情報抽出、文書分類といった12種類の視覚読解タスクを、ヒトの指示を基に遂行するデータセットを構築。大規模言語モデルが、文書の内容を視覚と言語を融合して理解できるようにした。その結果、未学習のタスクにおいても、目的タスクで学習をした教師あり学習モデルやGPT-4(テキスト入力のみ)、画像を理解できる大規模言語モデルである「LLaVA」に匹敵または凌駕する高性能を達成できたという。
研究内容は、2024年2月20~27日にカナダ・バンクーバーで開催された「第38回人工知能に関するAAAI年次会議(The 38th Annual AAAI Conference on Artificial Intelligence:AAAI2024)において発表された。
(中條)
-
- 人気の記事ランキング
-
- What comes next for AI copyright lawsuits? AI著作権訴訟でメタとアンソロピックが初勝利、今後の展開は?
- Promotion MITTR Emerging Technology Nite #33 バイブコーディングって何だ? 7/30イベント開催のお知らせ
- Promotion Call for entries for Innovators Under 35 Japan 2025 「Innovators Under 35 Japan」2025年度候補者募集のお知らせ
- Why the US and Europe could lose the race for fusion energy 核融合でも中国が優位に、西側に残された3つの勝機
- Namibia wants to build the world’s first hydrogen economy 砂漠の国・ナミビア、 世界初「水素立国」への夢
- Don’t let hype about AI agents get ahead of reality 期待先行のAIエージェント、誇大宣伝で「バブル崩壊」のリスク