コンピューティング

How Vector Space Mathematics Helps Machines Spot Sarcasm 皮肉がわかるコンピューター、Word2Vecで実現

言語学への数学的手法適応で、コンピューターで皮肉を検出できるようになるかもしれない。 by Emerging Technology from the arXiv2016.10.14

1970年、社会活動家のイリーナ・ダンはシドニー大学でトイレ個室のドアの内側にこんなスローガンを落書きした。

魚に自転車が要るように、女には男が必要

この言葉は急速に広まり、ついに当時盛り上がりつつあったフェミニズム運動で繰り返し使われる有名な表現になった。

この表現は皮肉だ。人間にとって、この表現は、魚に自転車が不要なように、女性は男性に依存していない、というユーモアだと気付くのは簡単だ。だが、コンピューターはさまざまな先進的機械学習の手法で他のユーモアを検出できるようになったが、皮肉はいまだに網の目をすり抜けてしまう。

このような皮肉以外のユーモアは、たとえば否定的で望ましくない状況に使われている肯定的な動詞を探すことで検出できる。何人かの研究者はこの手法により皮肉を探索した。

だが皮肉には感情が欠けていることが多い。「魚に自転車が要るように、女には男が必要」はその良い例で、感情を表す単語がひとつも使われていない。コンピューターでこの種のジョークを検出するには、明らかに、新しい戦略が必要だ。

10月13日、インド工科大学ボンベイ校のアディティヤ・ジョーシ研究員のチームは、皮肉を検出する戦略を見つけたという。研究チームの新しい手法は、コンピューターが皮肉を検出する能力を劇的に改善するという。

方法は比較的単純だ。文の感情を分析するかわりに、研究チームは単語の類似性を分析する。研究チームがとった方法は、約300万語あるグーグルニュースの膨大な記事データベース「Word2Vecデータベース」で、単語が相互に関係している様子を研究した。

Word2Vecは互いに隣接する単語の出現頻度の大規模な分析が進んでいる。そこで研究チームは、単語を高次元空間内のベクトルとして表現することに成功した。その結果、よく似た単語はよく似たベクトルで表されるので、単語間の単純な関係をベクトル空間代数学で捉えられることがわかった。たとえば、「king(王様)−man(男)+woman(女)=queen(女王)」のように言語間の関係を数式で表せる。

「man(男)」と「woman(女)」という単語の間には一見すると違いがあるが、この2つはベクトル空間のよく似た場所にある。しかし、bicycle(自転車)とfish(魚)は空間内のまったく違う場所にあるので、非常に異なっていると考えられるのだ。

研究チームは、よく似た概念と全く似ていない概念を対照させている文は、皮肉である可能性が高い、という。

このアイデアを試すため、研究チームはGoodreads(読書・書評SNS)のWebサイトにある引用データベースで単語間の類似性を研究している。研究チームは読者に「皮肉」とタグ付けされた引用だけを選び、対照のために「哲学」とタグ付けされた引用も使った。こうしてできたデータベースには3629件の引用が収められ、うち759件が皮肉だ。次に研究チームは各引用の単語ベクトルを比較し、類似性と相違を探した。

その結果、興味深いことが分かった。この「単語埋め込みアプローチ」は皮肉を検出する能力が他の手法より著しく優れていると研究チームはいう。「私たちは皮肉検出の改良を発見したわけです」(研究チーム)

新手法はもちろん完全ではない。また、この手法が起こす間違いは教訓に満ちたものだ。たとえば、単語埋め込みではこの引用の皮肉を見つけられなかった。

“Great. Relationship advice from one of America’s most wanted.”
(「いいね。人間関係(性的関係とも取れる)のアドバイスを、アメリカに最も必要とされている人(指名手配犯とも取れる)がくれたわけだ。」)

この検出ミスはおそらく、使われている単語の多くが複数の意味を持っていて、Word2Vecの埋め込みでは捉えられないのが原因だ。

検出できなかった皮肉な文はもうひとつある。

“Oh, and I suppose the apple ate the cheese.”
(ああ、リンゴがチーズを食べたんでしょう。)

この場合、リンゴとチーズは類似性スコアが高く、どの単語の対にも際だった相違は見られない。この例は、設計上このアルゴリズムが探索するルールに当てはまらないのだ。

逆に、アルゴリズムが皮肉と誤認識する文もある。たとえば研究チームはこの文を挙げる。

“Oh my love, I like to vanish in you like a ripple vanishes in an ocean—slowly, silently and endlessly.”
(ああ私の愛する人よ、さざ波が大海原に消え入るように、私はあなたの中に消え入りたい。ゆっくりと、静かに、永遠に。)

人間はこの文を皮肉とタグ付けしていなかった。しかし、この文が皮肉を込めて使われる場面は想像に難くない。

全体として、これは興味深い研究で、今後の研究の指針をいくつか示している。特に興味をそそるのは、この種のアルゴリズムを使って皮肉っぽい文を作り、人間がこれを審査して皮肉になっているか判定することだ。

そこから先は、コンピューター・ユーモア(ユーモアを解するコンピューター)そのものの領域だ。野心的な目標だが、全く実現不可能でもないだろう。多くのユーモアは型にはまったものなので、アルゴリズムはそのような型を簡単に使えるはずだ。きっとそうだ!

参照:arxiv.org/abs/1610.00883: 単語埋め込みに基づく特徴は皮肉検出に有効か?

人気の記事ランキング
  1. Machines Can Now Recognize Something After Seeing It Once グーグル・ディープマインド、大量データ不要の深層学習システムを開発
  2. Wikileaks E-Mails Are an Election Influence to Really Worry About クリントン不支持の世論形成は、ロシアによる選挙干渉
  3. Neural Network Learns to Identify Criminals by Their Faces ニューラル・ネットワーク、「犯罪者顔」で犯罪者を判定
  4. Can social media control public opinion? ソーシャルメディアで世論は操作できるか?
  5. How the Bot-y Politic Influenced This Election 大統領選ツイートは約20%がボット、約75%はトランプ支持
この記事をシェアしてください!
この記事が気に入ったら
いいね!しよう
タグ
クレジットScheinwerfermann - Own work, CC BY-SA 3.0, Link
エマージングテクノロジー フロム アーカイブ [Emerging Technology from the arXiv]米国版 寄稿者
Emerging Technology from the arXivは、最新の研究成果とPhysics arXivプリプリントサーバーに掲載されるテクノロジーを取り上げるコーネル大学図書館のサービスです。Physics arXiv Blogの一部として提供されています。メールアドレス:KentuckyFC@arxivblog.com RSSフィード:Physics arXiv Blog RSS Feed
「シリコン以後」の記事
人気の記事ランキング
  1. Machines Can Now Recognize Something After Seeing It Once グーグル・ディープマインド、大量データ不要の深層学習システムを開発
  2. Wikileaks E-Mails Are an Election Influence to Really Worry About クリントン不支持の世論形成は、ロシアによる選挙干渉
  3. Neural Network Learns to Identify Criminals by Their Faces ニューラル・ネットワーク、「犯罪者顔」で犯罪者を判定
  4. Can social media control public opinion? ソーシャルメディアで世論は操作できるか?
  5. How the Bot-y Politic Influenced This Election 大統領選ツイートは約20%がボット、約75%はトランプ支持