KADOKAWA Technology Review
×
Deep Neural Network Learns to Judge Books by Their Covers

九州大学のニューラル・ネットワーク、本の表紙でジャンルを判断

本の表紙を見てジャンルを識別できるマシン・ビジョン・アルゴリズムは、人工知能が本の表紙をデザインする時代の先駆けになる。 by Emerging Technology from the arXiv2016.11.08

英語の「never judge a book by its cover(表紙で本を判断するな)」は、上辺だけでものごとを判断するな、という戒めの意味で使われる慣用句だ。とはいえ、本の表紙は内容をある程度伝えて読者の興味を惹くためにある。出来のよい表紙は、判断材料になるように作られている。

しかも、人間は表紙を見てきちんと内容を判断できる。表紙を見れば料理の本なのか、伝記なのか、旅行ガイドなのか、難なく見分けられる。

ここで興味深い疑問が浮かぶ。機械も、本を表紙で内容を判断できるだろうか?

11月7日、九州大学の内田誠一教授とブライアン・ケンジ・イワタ研究員の研究で、答えがわかった。研究チームはディープ・ニューラル・ネットワークに本の表紙を見せて、ジャンルを識別させる訓練を施したのだ。

方法としては簡単だ。まずアマゾンから本の表紙を13万7788冊分ダウンロードし、同時に本のジャンルも記録する。ジャンルは全部で20あり、2つ以上のジャンルに当てはまる本は最初に記載されているほうをその本のジャンルにした。

次に研究チームはデータセットの80%分を使い、表紙の画像を見てジャンルを識別できるようにニューラル・ネットワークを訓練した。4層から成るニューラル・ネットワーク(各層は最大512のニューロンで構成されている)を駆使し、表紙のデザインとジャンルの相関を学習するのだ。研究チームはさらにデータセットの10%分でモデルを検証した。残った10%分のデータで、見たことがない表紙からどの程度の精度でジャンルを識別できるかを測定した。

結果は興味深い。アルゴリズムが導き出した正解候補のトップ3に正解が含まれていた確率は40%以上、正解率は20%以上だった。ランダムに選び出す場合と比べて、有意に高い確率だ。研究チームは「本の表紙を使ったジャンルの識別は、非常に難しいが可能だ」という。

また、識別しやすいジャンルがあることもわかった。たとえば旅行やコンピューター、テクノロジー関連の本は正解率が高かった。こうした本の表紙には似たような画像が多用されるのが理由だろう。

また料理の本は、表紙に食べ物の写真が載っていると正解率が高かったが、料理以外の(たとえば料理人)写真が使われていると識別しにくかった。

伝記や回想録も難関で、歴史ジャンルと誤認する場合が多くあった。ただし伝記や回想録の多くはアマゾンで歴史ジャンルにも含まれており、あながち間違いとも言い切れない。

さらに、子ども向けの本をマンガやグラフィック・ノベルと、医学の本を科学と混同する場合もあった。こちらもジャンル同士が似ていることを考えると納得がいく。

ただしこの研究は、本の表紙を見てジャンルを当てる能力について、ニューラル・ネットワークと人間を比較していないのが玉に瑕だ。実施していれば興味深い実験になっただろうし、アマゾンのメカニカル・ターク(日本国内ではベータサービス)のようなオンラインのクラウド・ソーシング・サービスを使えば難しくなかったはずだ。

実際に比較してみないと、機械と人間の優劣はわからない。 とはいえ、人間が本のジャンル識別にどれほど長けていようとも、機械に追い抜かれるのは時間の問題だろう。

いずれにせよ、この研究は装丁家が技能を高める助けになるだろう。しかし、もっとありそうな未来は、機械を訓練して人間の助けなしに表紙のデザインをさせることではないか。その時には、装丁家は歴史の本にある「昔あった職業」の仲間入りすることになるだろう。

参照:arxiv.org/abs/1610.09204: 表紙で本を判断するな

人気の記事ランキング
  1. China’s heat wave is creating havoc for electric vehicle drivers 中国猛暑でEVオーナーが悲鳴、電力不足でスタンドに長蛇の列
  2. Brain stimulation can improve the memory of older people 脳への「優しい刺激」で高齢者の記憶力が向上、1カ月持続か
  3. Decarbonization is Japan’s last chance to raise its power 大場紀章「脱炭素化は日本の力を底上げする最後のチャンス」
  4. Kyoto University startup pioneers the era of fusion power generation 京大スタートアップが拓く、核融合発電の時代
  5. How EnChroma’s Glasses Correct Color-Blindness 色覚補正メガネ エンクロマの仕組み
エマージングテクノロジー フロム アーカイブ [Emerging Technology from the arXiv]米国版 寄稿者
Emerging Technology from the arXivは、最新の研究成果とPhysics arXivプリプリントサーバーに掲載されるテクノロジーを取り上げるコーネル大学図書館のサービスです。Physics arXiv Blogの一部として提供されています。 メールアドレス:KentuckyFC@arxivblog.com RSSフィード:Physics arXiv Blog RSS Feed
日本発「世界を変える」35歳未満のイノベーター

MITテクノロジーレビューが20年以上にわたって開催しているグローバル・アワード「Innovators Under 35 」。世界的な課題解決に取り組み、向こう数十年間の未来を形作る若きイノベーターの発掘を目的とするアワードの日本版の最新情報を発信する。

記事一覧を見る
人気の記事ランキング
  1. China’s heat wave is creating havoc for electric vehicle drivers 中国猛暑でEVオーナーが悲鳴、電力不足でスタンドに長蛇の列
  2. Brain stimulation can improve the memory of older people 脳への「優しい刺激」で高齢者の記憶力が向上、1カ月持続か
  3. Decarbonization is Japan’s last chance to raise its power 大場紀章「脱炭素化は日本の力を底上げする最後のチャンス」
  4. Kyoto University startup pioneers the era of fusion power generation 京大スタートアップが拓く、核融合発電の時代
  5. How EnChroma’s Glasses Correct Color-Blindness 色覚補正メガネ エンクロマの仕組み
MITテクノロジーレビュー[日本版] Vol.8
MITテクノロジーレビュー[日本版] Vol.8脱炭素イノベーション

2050年のカーボンニュートラル(炭素中立)の実現に向けて、世界各国で研究開発が加速する脱炭素技術、社会実装が進む気候変動の緩和・適応策などGX(グリーン・トランスフォーメーション)の最新動向を丸ごと1冊取り上げる。

詳細を見る
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る