グーグル系企業の暴言検出ツールで明らかになった機械学習の限界

2月23日、アルファベット（グーグル）はWebサイト上の有害なコメントを識別する機械学習サービス「パースペクティブ」を発表した。開発したのはグーグル傘下の「ジグソー」（インターネットをより安全で秩序のある場所にするためのテクノロジーを開発する企業）だ。しかし、実際にパースペクティブを試すと、それほど精度は高くない。

パースペクティブは1～100の「有害度」（議論を招きそうな、下品または無礼、理不尽なコメント）でコメントにレートを付ける。たとえば「くたばれ、トランプの支持者」は極めて有害と判定されるが「正直、私はどちらも支持している」は有害とはみなされない。しかしパースペクティブには、コメントの裏にある感情までは検知できない問題がある。MIT Technology Reviewが12月にジグソーのサービスを試したときから予測した問題だ（「グーグルが目指す暴言のないネット社会は全体主義にそっくり」参照）。

「トランプは最悪」は有害度96％と判定されたが、ネオナチの隠語「14/88」（14は白人至上主義、88はハイルヒトラーを意味する）はたった5％だった。「テロの脅威があるイスラム教徒は少数だ」が79％有害と判定されたのに対して「人種戦争勃発中」は24％だった。「ヒトラーは反ユダヤ主義だった」が70％で、「ヒトラーは反ユダヤ主義ではなかった」が53％だった。「ホロコーストは一度も起きなかった」はわずか21％だった。また「joos（ユダヤ人を意味する”jews”のこと）をガス室に送れ）」は29％だったが、同じ意味でも「joosをどうかガス室送りにしてください。よろしくお願いします」だと点数が低くなり、有害度はたった7％に下がった。（しかし「ユダヤ人は人間」は有害度72％で「ユダヤ人は人間？」は64％だった。）

ジグソーによると、パースペクティブは人間がランク付けした数十万のコメントから有害なコメントを検知する機械学習的訓練を受けた。結果を見ると、システムは意味ではなく特定の単語やフレーズに反応しているようだ。

たとえば「レイプ」という言葉を含む文はそれだけで有害度は77％になる。そのせいで「レイプは恐ろしい犯罪だ」も有害度81％になるのだろう（みだらな言葉には同じようなパターンが見られる。「I fucking love this（これクソ大好き）」は有害度94％だ）。

同様に、否定的な言葉やニュアンスは矛盾した結果になる。「～ない」を付け加えて「テロの脅威がないイスラム教徒は少数だ」にすると、有害度は79％から60％に下がる。たとえコメントの意図が有害でも、パースペクティブは「テロの脅威がない」を無害とみなすようだ。

以前のジグソーに関する記事で指摘したとおり、現状の機械学習では、ソフトウェアはコメントの意図や文脈をまだ理解できない。表面的なパターンマッチによって会話AIは「文体」にフィルターをかけられても「意味」にはかけられないのだ。

とはいえ、無意味なテクノロジーではない。パースペクティブのようなシステムは、極端な場合に警告を発することで、モデレーターの作業効率が高まる。ニューヨーク・タイムズ紙がジグソーと連携し、記事に対するコメントを監視し、モデレーターを支援しているのは有用な価値がある。ニューヨーク・タイムズ紙は有害なコメントに困っているのではなく、文体的なマッチングでも効果が得られる、質の高いコメントを特定したいのだ。意図的な暴言でも曖昧な表現であれば、ジグソーのソフトウェアは人間の代わりには判定できない。

私たちは「荒らしは愚かだ」（有害度は96％）と発言するかもしれないが、有害な言葉遣いや嫌がらせは、機械学習システムが処理できないほどたくさんある。ここ数カ月、多くの記者や有名人が、強制収容所の犠牲者の皮膚がランプシェードに使われたのを引き合いに「ランプにされるぞ」とコメントで書かれた。しかしパースペクティブは「ランプにされるぞ」の有害度は4％に過ぎない。だから「おまえはナチスだ」といい返さない方がいい。こちらの有害度は87％なのだ。

It’s Easy to Slip Toxic Language Past Alphabet’s Toxic Comment Detector グーグル系企業の暴言検出ツールで明らかになった機械学習の限界