KADOKAWA Technology Review
×
【4/24開催】生成AIで自動運転はどう変わるか?イベント参加受付中
AI Machine Attempts to Understand Comic Books ... and Fails

マンガが読めるのは人間だけ
人工知能にはまだ早かった

マンガを読んでストーリーを理解するのは、驚くほどに知的な作業なのだ。 by Emerging Technology from the arXiv2016.11.24

人工知能の能力が人間を凌駕した事例は、驚くべき速さで増えている。顔や物体の認識、チェス、囲碁からビデオゲームまで、多くの人間の仕事が、この戦いに破れて脱落した。

こうなると、どんな種類の仕事なら機械が苦手なのか、と聞きたくなるのが自然だ。まだ人間が実権を握っている領域は残っているのだろうか?

11月23日、メリーランド大学カレッジパーク校のモヒト・リヤー研究員のチームのおかげで、ある程度の答えが得られた。研究チームは人工知能がどれだけマンガを理解できるのか調査し、機械と人間では、人間の方がずっとマンガを理解する能力が高いと判明したのだ。ガッツポーズせざるを得ない研究成果だ。

マンガは、高度に様式化された、写真とはまったく別の、手描きの絵によるコマの連続で物語を構成することが多い。また、それぞれのコマには思考やセリフ、ナレーションなど、吹き出し形式のテキストによる注釈がついている。

テキストと絵は強く結び付いてストーリーを作り出す。絵やテキストのどちらかだけではストーリーを追えなくなるほど密接だ。それでも、コマからコマへ移るときは、読み手にはかなりの推測と補完が求められる。ストーリーの細部を、読み手が埋める必要があるのだ。

「マンガを本当に面白くしているのは、クリエイターがページの背後に隠しているもの(枠内の空間では語られない会話、描かれないアクション)です」と研究チームはいう。つまり、マンガとは、読み手の想像力によってストーリーが築かれている、と研究チームは考えている。

個々のコマを見て、それが前のコマとどう繋がっているのかを理解する「閉合(closure)」と呼ばれる複雑な心理学的作用は、今のところ人間独自の能力のはずだ。

研究チームが、機械に閉合能力があるかを調べる試験を考案し、実験したのは、今でも人間独自の能力かを調べるためでもある。

研究チームは、深層学習の訓練用に1930年代から1950年代に発行されたマンガの巨大データベースを作ることから始めた。当時はマンガの黄金時代と呼ばれ、厳しい表現規制が導入された1950年代後半に終わった。当時の出版物の著作権は期限切れで、デジタル・コミックス・ミュージアム(DCM)にユーザーがアップロードしたJPEGファイルが公開されている。

研究チームは、DCMで評価がもっとも高い4000冊のマンガ作品から120万以上のコマを抜き出し、データベース化した。各コマのセリフ等はOCRでテキスト化した。

研究チームは閉合を試験するために、コマの連続を見せ、次にどのコマが来るのかを選択肢から予測する実験を考案した。実験では、次の絵やテキストを予測するか、テキストから登場人物の正しい組み合わせを選ぶこともある。

機械はまず、マンガのストーリーがどのようにコマとして実現されているかを学習した。研究チームが、さまざまな機械学習アルゴリズムにコマとテキストがどう調和しているのかを教えると、機械はコマが互いにどのように続いているのかを学習できた。ただし、学習した人工知能は初めからマンガ専用ではなく、自然画像内の物体を認識するように事前に訓練されている。

研究チームは、訓練後の機械に、機械にとって初見のコマについて、選択肢から次に来る絵やテキストを予測できるかを検証した。

その結果、驚くべき結果が得られた。人間が80%以上の確率で次に来る絵やテキストを正しく予測できるのに対し、機械の精度は人間にはまったく及ばなかった。

どのアーキテクチャでも人間の基準を上回れないのは、マンガを理解することの難しさを物語っている。自然画像で訓練されたモデルを使った画像認識機能は、芸術的スタイルの数多くのバリエーションを読み取れず、テキストのモデルは、視覚的な文脈に高度に依存している、話し言葉による対話の深さと曖昧さを理解しきれない。

マンガに直接描かれていない常識がなければストーリーついていけないこと、マンガのストーリーテリングに使われるロジックを理解するには、文化的知識が必要であることは当然だ。そのため、少なくとも現時点では、マンガを読むことに関しては、まだ人間が上手である。

しかし、人間的な知能に欠かせないはずの社会の知識や、推察する技能を学べば、機械の能力は確実に高まるだろう。

そこからは、興味深い可能性を浮かんでくる。AIは、チェスやジェパディ!、囲碁等で人間を打ち負かしてきた。AIは、次の挑戦で人間よりもよくマンガを理解できるかもしれない。そうなれば、物語を作り出せるかもしれない。グーグル・ディープマインドの将来の対戦相手は、マーベルやDCコミックスのキャラクターかもしれない。それはまさに闘いだし、きっと面白くなるだろう。

 

人気の記事ランキング
  1. The problem with plug-in hybrids? Their drivers. プラグイン・ハイブリッド、想定以上の環境負荷のなぜ
  2. Promotion MITTR Emerging Technology Nite #28 「自動運転2.0  生成AIで実現する次世代自律車両」開催のご案内
  3. How to reopen a nuclear power plant 廃炉から復活へ、米国で異例の原発再稼働に道筋
  4. 10 Breakthrough Technologies 2024 MITTRが選んだ 世界を変える10大技術 2024年版
エマージングテクノロジー フロム アーカイブ [Emerging Technology from the arXiv]米国版 寄稿者
Emerging Technology from the arXivは、最新の研究成果とPhysics arXivプリプリントサーバーに掲載されるテクノロジーを取り上げるコーネル大学図書館のサービスです。Physics arXiv Blogの一部として提供されています。 メールアドレス:KentuckyFC@arxivblog.com RSSフィード:Physics arXiv Blog RSS Feed
10 Breakthrough Technologies 2024

MITテクノロジーレビューは毎年、世界に真のインパクトを与える有望なテクノロジーを探している。本誌がいま最も重要だと考える進歩を紹介しよう。

記事一覧を見る
人気の記事ランキング
  1. The problem with plug-in hybrids? Their drivers. プラグイン・ハイブリッド、想定以上の環境負荷のなぜ
  2. Promotion MITTR Emerging Technology Nite #28 「自動運転2.0  生成AIで実現する次世代自律車両」開催のご案内
  3. How to reopen a nuclear power plant 廃炉から復活へ、米国で異例の原発再稼働に道筋
  4. 10 Breakthrough Technologies 2024 MITTRが選んだ 世界を変える10大技術 2024年版
気候テック企業15 2023

MITテクノロジーレビューの「気候テック企業15」は、温室効果ガスの排出量を大幅に削減する、あるいは地球温暖化の脅威に対処できる可能性が高い有望な「気候テック企業」の年次リストである。

記事一覧を見る
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る