KADOKAWA Technology Review
×
Deep Neural Network Learns to Judge Books by Their Covers

九州大学のニューラル・ネットワーク、本の表紙でジャンルを判断

本の表紙を見てジャンルを識別できるマシン・ビジョン・アルゴリズムは、人工知能が本の表紙をデザインする時代の先駆けになる。 by Emerging Technology from the arXiv2016.11.08

英語の「never judge a book by its cover(表紙で本を判断するな)」は、上辺だけでものごとを判断するな、という戒めの意味で使われる慣用句だ。とはいえ、本の表紙は内容をある程度伝えて読者の興味を惹くためにある。出来のよい表紙は、判断材料になるように作られている。

しかも、人間は表紙を見てきちんと内容を判断できる。表紙を見れば料理の本なのか、伝記なのか、旅行ガイドなのか、難なく見分けられる。

ここで興味深い疑問が浮かぶ。機械も、本を表紙で内容を判断できるだろうか?

11月7日、九州大学の内田誠一教授とブライアン・ケンジ・イワタ研究員の研究で、答えがわかった。研究チームはディープ・ニューラル・ネットワークに本の表紙を見せて、ジャンルを識別させる訓練を施したのだ。

方法としては簡単だ。まずアマゾンから本の表紙を13万7788冊分ダウンロードし、同時に本のジャンルも記録する。ジャンルは全部で20あり、2つ以上のジャンルに当てはまる本は最初に記載されているほうをその本のジャンルにした。

次に研究チームはデータセットの80%分を使い、表紙の画像を見てジャンルを識別できるようにニューラル・ネットワークを訓練した。4層から成るニューラル・ネットワーク(各層は最大512のニューロンで構成されている)を駆使し、表紙のデザインとジャンルの相関を学習するのだ。研究チームはさらにデータセットの10%分でモデルを検証した。残った10%分のデータで、見たことがない表紙からどの程度の精度でジャンルを識別できるかを測定した。

結果は興味深い。アルゴリズムが導き出した正解候補のトップ3に正解が含まれていた確率は40%以上、正解率は20%以上だった。ランダムに選び出す場合と比べて、有意に高い確率だ。研究チームは「本の表紙を使ったジャンルの識別は、非常に難しいが可能だ」という。

また、識別しやすいジャンルがあることもわかった。たとえば旅行やコンピューター、テクノロジー関連の本は正解率が高かった。こうした本の表紙には似たような画像が多用されるのが理由だろう。

また料理の本は、表紙に食べ物の写真が載っていると正解率が高かったが、料理以外の(たとえば料理人)写真が使われていると識別しにくかった。

伝記や回想録も難関で、歴史ジャンルと誤認する場合が多くあった。ただし伝記や回想録の多くはアマゾンで歴史ジャンルにも含まれており、あながち間違いとも言い切れない。

さらに、子ども向けの本をマンガやグラフィック・ノベルと、医学の本を科学と混同する場合もあった。こちらもジャンル同士が似ていることを考えると納得がいく。

ただしこの研究は、本の表紙を見てジャンルを当てる能力について、ニューラル・ネットワークと人間を比較していないのが玉に瑕だ。実施していれば興味深い実験になっただろうし、アマゾンのメカニカル・ターク(日本国内ではベータサービス)のようなオンラインのクラウド・ソーシング・サービスを使えば難しくなかったはずだ。

実際に比較してみないと、機械と人間の優劣はわからない。 とはいえ、人間が本のジャンル識別にどれほど長けていようとも、機械に追い抜かれるのは時間の問題だろう。

いずれにせよ、この研究は装丁家が技能を高める助けになるだろう。しかし、もっとありそうな未来は、機械を訓練して人間の助けなしに表紙のデザインをさせることではないか。その時には、装丁家は歴史の本にある「昔あった職業」の仲間入りすることになるだろう。

参照:arxiv.org/abs/1610.09204: 表紙で本を判断するな

人気の記事ランキング
  1. Inside the tedious effort to tally AI’s energy appetite 動画生成は別次元、思ったより深刻だったAIの電力問題
  2. Promotion Call for entries for Innovators Under 35 Japan 2025 「Innovators Under 35 Japan」2025年度候補者募集のお知らせ
  3. IBM aims to build the world’s first large-scale, error-corrected quantum computer by 2028 IBM、世界初の大規模誤り訂正量子コンピューター 28年実現へ
  4. What is vibe coding, exactly? バイブコーディングとは何か? AIに「委ねる」プログラミング新手法
エマージングテクノロジー フロム アーカイブ [Emerging Technology from the arXiv]米国版 寄稿者
Emerging Technology from the arXivは、最新の研究成果とPhysics arXivプリプリントサーバーに掲載されるテクノロジーを取り上げるコーネル大学図書館のサービスです。Physics arXiv Blogの一部として提供されています。 メールアドレス:KentuckyFC@arxivblog.com RSSフィード:Physics arXiv Blog RSS Feed
日本発「世界を変える」U35イノベーター

MITテクノロジーレビューが20年以上にわたって開催しているグローバル・アワード「Innovators Under 35 」。世界的な課題解決に取り組み、向こう数十年間の未来を形作る若きイノベーターの発掘を目的とするアワードの日本版の最新情報を発信する。

特集ページへ
MITTRが選んだ 世界を変える10大技術 2025年版

本当に長期的に重要となるものは何か?これは、毎年このリストを作成する際に私たちが取り組む問いである。未来を完全に見通すことはできないが、これらの技術が今後何十年にもわたって世界に大きな影響を与えると私たちは予測している。

特集ページへ
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る