Word2vecによる自然言語処理にはがっかりな性差別が潜んでいる
知性を宿す機械

How Vector Space Mathematics Reveals the Hidden Sexism in Language Word2vecの性差別ベクトル
逆ベクトルで変換し是正

ニューラル・ネットワークが学習データが持つ言語構造を解読してベクトル空間に単語を配置するとき、誰も気づかなかった性的偏向までベクトル化していた。 by Emerging Technology from the arXiv2016.07.27

グーグルの数人の研究者は2013年、ニューラル・ネットワークにGoogleニュースの記事から取得した300万語のコーパス(言語研究用の単語集)を読み取らせた。ニューラル・ネットの目標は、言葉同士が近接して現れるパターンを見出すことだ。

見つかったパターンは簡単には説明できないが、グーグルの研究チームは、単語の近接パターンを300次元のベクトル空間内のベクトルとして表現できることを発見した。

似た意味を持つ言葉は、ベクトル空間内の似た位置に存在し、単語間の関係は、単純なベクトル代数で捉えられる。たとえば、「男性が王様、女性は女王である」は「男性:王様::女性:女王」のように表記できるし、 「姉妹:女性::兄弟:男性」など他の関係もすぐに明らかになった。この関係を「単語埋め込み(Word Embedding)」と呼ぶ。

グーグルが開発したデータセットはWord2vecと呼ばれ、大きな威力を発揮している。機械翻訳から人間の意図を推定してウェブ検索の精度を高めるためなど、言葉を機械がよりよく理解するためにWord2vecはさまざまな分野の研究で使われている。

しかし今日、ボストン大学のトルガ・ボルクバシ研究員とマイクロソフトリサーチの研究員は、Word2vecには、甚だしく性差別を助長する問題があると指摘した。

ボルクバシ研究員らの研究チームは、この主張を裏付ける多くの証拠を挙げている。証拠とは、ベクトル空間に質問したときの、言語埋め込みの検索結果だ。たとえば「パリ:フランス::東京:x」という問題にはx=日本が得られる。

しかし、データベースに「父親:医者::母親:x」と質問すると、x=看護師になる。また「男性:コンピューター::女性:x」はx=主婦になるのだ。

別の言い方をすれば、単語埋め込みは、とても性差別主義的になる場合がある。原因は、Word2vecの元になった記事に、何らかの偏りがあり、ベクトル空間の結合構造に不可避的に取り込まれるからだ、とボルクバシ研究員らの研究チームはがっかりしている。

「記事の執筆者の多くはプロのジャーナリストであり、グーグルニュースの埋め込みで性格差が露わになるようなことはない、と開発者は願ったのかもしれません」

どうすべきだろうか? 研究チームには解決策がある。ベクトル空間は数学的なオブジェクトなので、標準的な数学の手法で操作すればよいのだ。

この解決策はわかりやすい。性差別は、ベクトル空間のある種のゆがみと考えられる。実際、性差の偏りとは、研究チームがベクトル空間で識別できる属性情報のようなものだ。したがって、ゆがみを補正するには、空間の全体構造を保ったまま、単に反対のねじれを適用すればよい。理論的には。

実際には、ねじれの性質を測定するのが手際を要する部分になる。そこで研究チームは「女性:男性」と同様のベクトルを持つ言語ペアをベクトル空間で探した。すると、性的類似の莫大なリストが得られる。たとえば、女性:男性に対して、助産婦:医師、裁縫:大工、登録看護師:内科医、売春婦:臆病者、美容師:理容師、裸の:シャツを着ていない、オッパイ:しり、クスクス笑う:にやっと笑う、ベビーシッター:おかかえ運転手、などだ。

ただし、研究チームが知りたいのは、こうした性的類似が適切か不適切かである。そこでアマゾンのメカニカルターク (API経由で人間のほうが得意そうな問題を投げると答えが返ってくるサービス)で、10人の作業者にこのパターンを持つ類似を示し、性的偏向があるかを答えてもらい、作業者の過半数が偏向と答えたとき、偏った類似とする。

研究結果は興味深い。「女性:男性」の形を取る、助産婦:医師、裁縫:大工、看護婦:内科医などのペアは、明らかに性的偏向があると判定されたが、フェミニン:男らしい、尼寺:禅寺、ハンドバッグ:書類かばんなどのペアでは、偏向はほぼないと判断された。

チームは性的偏向のあるペアを網羅するリストを作成し、偏向がベクトル空間のどんな形になるか、ねじれを取り除くのに、どのように空間を変換できるかを検討した。研究チームこのプロセスを 「ハード・デバイアシング」と呼んだ。

こうして、研究チームは変換したベクトル空間から性的類似の新しいリストを生成し、もう一度アマゾンのメカニカルタークの作業者に類似の偏向度を評価するよう依頼した。そして得た「女性:男性」型のペアには、めんどり:おんどり、メイド:ハウスキーパー、ギャル:メンズ、娘:息子などがある。

研究チームによると、変換により、作業者が偏向と判断するペアがだいぶ減るという。

「経験的評価を通じて、ハード・デバイアシング・アルゴリズムは、単語埋め込みの有用性を保ちながら、直接的または間接的な性的偏向をかなり減少させることを示しています」

最終的には、性的偏向が相当減少したベクトル空間が得られる。

性的偏向が軽減したベクトル空間の影響範囲は相当大きい。単語埋め込みに由来する偏向は、Word2vec の埋め込みのように、利用元のプログラムにも自動的に移される。たとえば、ウエブ検索の精度を向上させるために、単語埋め込みでユーザーが入力した言葉を補完したり、検索対象にある別の言葉も一致とみなすように処理することがある。ある女性ユーザーが「プログラマー 履歴書」で検索したとき、検索システムが利用する単語埋め込み機能で「プログラマー」が男性と密接に結合していれば、入力した検索キーワードをシステムは「プログラマー 男性 履歴書」と評価し、男性向けのプログラマーの応募を多めに表示するかもしれない。「単語埋め込みは、固定観念を反映するだけでなく、増幅させかもしれないのです」と研究チームは指摘している。

言語には、正当化しにくい、性的偏向を含むことが確かにある。では、この偏向を補正するために、この種のベクトル空間数学をどの程度使うべきか、は悩ましい問題だ。

「単語埋め込みに存在する偏向については、そもそも、その偏向は社会にある偏見を反映しているのだから、単語埋め込みより社会の偏見をなくす努力をすべきだ、という意見があります。しかし、コンピューター・システムは単語埋め込みに依存して精度を高めており、単語埋め込みの偏向を軽減することでシステムの偏向を減らせれば(あるいは、少なくとも偏向を増幅しないようにすれば)、うまくいけば多少なりとも社会の性的偏向を減らすことにつながるはずです」

この目標には価値がありそうだ。研究チームがいうとおり「最低限、機械学習はこのような偏見をはなはだしく増幅するためには利用されるべきではない」のだ。

関連ページ