KADOKAWA Technology Review
×
【1/31まで】年末年始限定!お得に購読できるキャンペーン実施中
Deep Neural Network Learns to Judge Books by Their Covers

九州大学のニューラル・ネットワーク、本の表紙でジャンルを判断

本の表紙を見てジャンルを識別できるマシン・ビジョン・アルゴリズムは、人工知能が本の表紙をデザインする時代の先駆けになる。 by Emerging Technology from the arXiv2016.11.08

英語の「never judge a book by its cover(表紙で本を判断するな)」は、上辺だけでものごとを判断するな、という戒めの意味で使われる慣用句だ。とはいえ、本の表紙は内容をある程度伝えて読者の興味を惹くためにある。出来のよい表紙は、判断材料になるように作られている。

しかも、人間は表紙を見てきちんと内容を判断できる。表紙を見れば料理の本なのか、伝記なのか、旅行ガイドなのか、難なく見分けられる。

ここで興味深い疑問が浮かぶ。機械も、本を表紙で内容を判断できるだろうか?

11月7日、九州大学の内田誠一教授とブライアン・ケンジ・イワタ研究員の研究で、答えがわかった。研究チームはディープ・ニューラル・ネットワークに本の表紙を見せて、ジャンルを識別させる訓練を施したのだ。

方法としては簡単だ。まずアマゾンから本の表紙を13万7788冊分ダウンロードし、同時に本のジャンルも記録する。ジャンルは全部で20あり、2つ以上のジャンルに当てはまる本は最初に記載されているほうをその本のジャンルにした。

次に研究チームはデータセットの80%分を使い、表紙の画像を見てジャンルを識別できるようにニューラル・ネットワークを訓練した。4層から成るニューラル・ネットワーク(各層は最大512のニューロンで構成されている)を駆使し、表紙のデザインとジャンルの相関を学習するのだ。研究チームはさらにデータセットの10%分でモデルを検証した。残った10%分のデータで、見たことがない表紙からどの程度の精度でジャンルを識別できるかを測定した。

結果は興味深い。アルゴリズムが導き出した正解候補のトップ3に正解が含まれていた確率は40%以上、正解率は20%以上だった。ランダムに選び出す場合と比べて、有意に高い確率だ。研究チームは「本の表紙を使ったジャンルの識別は、非常に難しいが可能だ」という。

また、識別しやすいジャンルがあることもわかった。たとえば旅行やコンピューター、テクノロジー関連の本は正解率が高かった。こうした本の表紙には似たような画像が多用されるのが理由だろう。

また料理の本は、表紙に食べ物の写真が載っていると正解率が高かったが、料理以外の(たとえば料理人)写真が使われていると識別しにくかった。

伝記や回想録も難関で、歴史ジャンルと誤認する場合が多くあった。ただし伝記や回想録の多くはアマゾンで歴史ジャンルにも含まれており、あながち間違いとも言い切れない。

さらに、子ども向けの本をマンガやグラフィック・ノベルと、医学の本を科学と混同する場合もあった。こちらもジャンル同士が似ていることを考えると納得がいく。

ただしこの研究は、本の表紙を見てジャンルを当てる能力について、ニューラル・ネットワークと人間を比較していないのが玉に瑕だ。実施していれば興味深い実験になっただろうし、アマゾンのメカニカル・ターク(日本国内ではベータサービス)のようなオンラインのクラウド・ソーシング・サービスを使えば難しくなかったはずだ。

実際に比較してみないと、機械と人間の優劣はわからない。 とはいえ、人間が本のジャンル識別にどれほど長けていようとも、機械に追い抜かれるのは時間の問題だろう。

いずれにせよ、この研究は装丁家が技能を高める助けになるだろう。しかし、もっとありそうな未来は、機械を訓練して人間の助けなしに表紙のデザインをさせることではないか。その時には、装丁家は歴史の本にある「昔あった職業」の仲間入りすることになるだろう。

参照:arxiv.org/abs/1610.09204: 表紙で本を判断するな

人気の記事ランキング
  1. These scientists used CRISPR to put an alligator gene into catfish ワニの遺伝子を組み込んだ「CRISPRナマズ」が米国で誕生
  2. Why EVs won’t replace hybrid cars anytime soon トヨタの賭け、EV一辺倒ではなくハイブリッド車を売り続ける理由
  3. What’s next for batteries リチウムイオン以外の選択肢は台頭するか? 23年の電池業界を占う
  4. How AI-generated text is poisoning the internet AI生成コンテンツに汚染されるインターネット、その対策は?
エマージングテクノロジー フロム アーカイブ [Emerging Technology from the arXiv]米国版 寄稿者
Emerging Technology from the arXivは、最新の研究成果とPhysics arXivプリプリントサーバーに掲載されるテクノロジーを取り上げるコーネル大学図書館のサービスです。Physics arXiv Blogの一部として提供されています。 メールアドレス:KentuckyFC@arxivblog.com RSSフィード:Physics arXiv Blog RSS Feed
2023年のテクノロジー大予測

2023年のテクノロジーはどう動くのか? AIから量子コンピューター、宇宙開発、mRNAワクチンまで、重要トレンドをMITテクノロジーレビューが徹底予測。各分野の専門家や有力プレイヤーへの取材をもとに、技術・資金・政策などの多角的な視点で解説する。

記事一覧を見る
人気の記事ランキング
  1. These scientists used CRISPR to put an alligator gene into catfish ワニの遺伝子を組み込んだ「CRISPRナマズ」が米国で誕生
  2. Why EVs won’t replace hybrid cars anytime soon トヨタの賭け、EV一辺倒ではなくハイブリッド車を売り続ける理由
  3. What’s next for batteries リチウムイオン以外の選択肢は台頭するか? 23年の電池業界を占う
  4. How AI-generated text is poisoning the internet AI生成コンテンツに汚染されるインターネット、その対策は?
MITテクノロジーレビュー[日本版] Vol.9
MITテクノロジーレビュー[日本版] Vol.9量子時代のコンピューティング

グーグルやIBMなどの巨大テック企業からベンチャーまで、世界的な開発競争が加速する「量子コンピューター」を中心に、コンピューティングの動向を取り上げる。

詳細を見る
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る