フラッシュ2024年4月16日
-
人工知能(AI)
NTT、LLMで視覚情報も含めて文書を理解する技術
by MITテクノロジーレビュー編集部 [MIT Technology Review Japan]NTTは、大規模言語モデル(LLM)によって、視覚情報も含めて文書を理解する「視覚読解技術」を実現。同社が研究開発している大規模言語モデル「ツヅミ(tsuzumi)」のアダプタ技術として採用・導入したことを明らかにした。
我々が扱う文書の多くは、テキスト以外に、アイコンや図表、グラフなどの視覚要素を含んでおり、多様な種類・形式が存在する。NTTと東北大学の共同研究チームは今回、文書を画像として捉えて、文書中の文字とその位置情報、画像の特徴を定量的に表現した画像情報、指示テキストを、同一空間上にマッピングする技術を開発。文書画像のマルチモーダルな特徴を、大規模言語モデルにとって解釈しやすい情報として獲得できるようにした。
続いて、文書画像を知識源として、質問応答や情報抽出、文書分類といった12種類の視覚読解タスクを、ヒトの指示を基に遂行するデータセットを構築。大規模言語モデルが、文書の内容を視覚と言語を融合して理解できるようにした。その結果、未学習のタスクにおいても、目的タスクで学習をした教師あり学習モデルやGPT-4(テキスト入力のみ)、画像を理解できる大規模言語モデルである「LLaVA」に匹敵または凌駕する高性能を達成できたという。
研究内容は、2024年2月20~27日にカナダ・バンクーバーで開催された「第38回人工知能に関するAAAI年次会議(The 38th Annual AAAI Conference on Artificial Intelligence:AAAI2024)において発表された。
(中條)
-
- 人気の記事ランキング
-
- China wants to restore the sea with high-tech marine ranches 海に浮かぶ巨大施設、 中国が進める スマート海洋牧場の野望
- Promotion Innovators Under 35 Japan × CROSS U 無料イベント「U35イノベーターと考える研究者のキャリア戦略」のご案内
- Trajectory of U35 Innovators: Masaki Nakada 仲田真輝:人工生命起業家が「魚の養殖」にピボットした理由
- Anthropic’s chief scientist on 5 ways agents will be even better in 2025 アンソロピック主任科学者が語る「AIエージェント」4つの進化
- What’s next for AI in 2025 2025年のAIはこう動く 本誌が予測する5大トレンド