KADOKAWA Technology Review
×
Collection of 13,500 Nastygrams Could Advance War on Trolls

悪口とは何か? 機械学習用に荒らしコメント1万3500件を収集

人間同士の罵倒を避けるため、1万3500件のWikipediaのノートページのデータが、機械学習用の訓練データになった。英語なので、日本版を作れば、ののしり合いを機械が仲裁してくれるかもしれない。 by Tom Simonite2017.02.08

女性蔑視や人種差別、罵倒など、ネット上で個人を攻撃している投稿1万3500件以上のコレクションが完成した。

ウィキペディアのノートページから収集された悪口を、アルファベット(グーグルの親会社)とウィキメディア財団(ウィキペディアを運営する非営利団体)の研究者が10万件以上の温和な投稿とともにデータ集として公開したのだ。研究者によると、このデータは、ネット上の迷惑行為を理解して取り締まるソフトウェアを訓練する研究に役立つという。

ジグソー(言論の自由や汚職との戦いを理念に掲げるアルファベットの子会社)のルーカス・ディクソン主任研究科学者は「最も議論が激しく、最も重要な話題について、人々がインターネット全体で生産的に議論できるために弊社ができることを理解するのが目標です」という。

ジグソーとウィキメディア財団の研究者は、クラウド・ソーシングサービスにより、ウィキペディアのノートページに投稿された11万5000件以上のメッセージを人々に確認してもらい、ウィキぺディアの規則が定める個人攻撃に当たるかどうかを判定した。共同研究者はすでに同じデータを使って機械学習アルゴリズムを訓練し、個人攻撃の判定でクラウド・ソーシングの作業者に匹敵する精度を達成した。なお、ウィキペディアの編集者による6300万件の議論に関する投稿全てをアルゴリズムに処理させたところ、モデレーターが議論を整理している場合に個人攻撃が発生したのはわずが10分の1程度だとわかった。

ウィキメディア財団は昨年、ウィキペディア内の迷惑行為の減少を優先事項として掲げた。この方針は、ウィキペディア・コミュニティのとげとげしい官僚的な雰囲気を和らげる現在の活動の強化策だ。ウィキペディアのこうした雰囲気のせいで、新たな投稿者の参入が阻まれていることがわかっている。ウィキペディアは編集者数が減少しており、また、男性や西洋出身者を中心とするサイトに、多様性のある新参加者が加わりにくくなっており、迷惑行為やウィキペディアの雰囲気の問題を研究すれば、原因を理解できるだろう(“The Decline of Wikipedia”参照)。

ネットいじめの研究や、ネットいじめを特定して対処可能なソフトウェアの開発を目指したのはジグソーやウィキメディア財団が最初ではない。しかし、ウィキメディア財団でデータサイエンスを研究しているエルリー・ウルチェンによると、迷惑な投稿かどうかを判定するためにコメントを分類して収集した(分類されたコメントは機械学習ソフトウェアの学習に必須だ)のは珍しいという。

正確にデータを検索する方法を機械学習アルゴリズムが学習するためには膨大な量の分類された実例が必要だ。今回収集されたウィキペディア上の個人攻撃やコメントのコレクションは、これまで利用可能だったデータの集まりの10倍から100倍以上の量だとウルチェンは推定している。

しかしソフトウェアは言語の全てのニュアンスを理解するまでには至っておらず、ネットいじめを特定するように訓練されたアルゴリズムが、実際のモデレーターと同じように判定できるかは不明だ。ウィキメディアのウルジンによると、ソフトウェアによる検知を避けるために悪口の表現を変える人も出てくるかもしれない。「人間と敵対するように機械が干渉した時、何が起こるかはわからないのです」

人気の記事ランキング
  1. OSIRIS-REx collected too much asteroid material and now some is floating away NASA探査機、小惑星のサンプル採取に成功も多過ぎて蓋が閉まらず
  2. There might be even more underground reservoirs of liquid water on Mars 火星の南極に新たな地下湖、生命体が見つかる可能性も
  3. Satellite mega-constellations risk ruining astronomy forever 増え続ける人工衛星群で天体観測が台無し、解決策はあるか?
  4. Room-temperature superconductivity has been achieved for the first time 世界初、15°C「室温超伝導」達成 夢の新技術へ突破口
  5. Astronauts on the ISS are hunting for the source of another mystery air leak ISSで再び原因不明の空気漏れ、乗組員が発生場所を調査中
トム サイモナイト [Tom Simonite]米国版 サンフランシスコ支局長
MIT Technology Reviewのサンフランシスコ支局長。アルゴリズムやインターネット、人間とコンピューターのインタラクションまで、ポテトチップスを頬ばりながら楽しんでいます。主に取材するのはシリコンバレー発の新しい考え方で、巨大なテック企業でもスタートアップでも大学の研究でも、どこで生まれたかは関係ありません。イギリスの小さな古い町生まれで、ケンブリッジ大学を卒業後、インペリアルカレッジロンドンを経て、ニュー・サイエンティスト誌でテクノロジーニュースの執筆と編集に5年間関わたった後、アメリカの西海岸にたどり着きました。
Innovators Under 35 Japan 2020

MITテクノロジーレビューが主催するグローバル・アワード「Innovators Under 35」が2020年、日本に上陸する。特定の分野や業界だけでなく、世界全体にとって重要かつ独創的なイノベーターを発信していく取り組みを紹介しよう。

記事一覧を見る
人気の記事ランキング
  1. OSIRIS-REx collected too much asteroid material and now some is floating away NASA探査機、小惑星のサンプル採取に成功も多過ぎて蓋が閉まらず
  2. There might be even more underground reservoirs of liquid water on Mars 火星の南極に新たな地下湖、生命体が見つかる可能性も
  3. Satellite mega-constellations risk ruining astronomy forever 増え続ける人工衛星群で天体観測が台無し、解決策はあるか?
  4. Room-temperature superconductivity has been achieved for the first time 世界初、15°C「室温超伝導」達成 夢の新技術へ突破口
  5. Astronauts on the ISS are hunting for the source of another mystery air leak ISSで再び原因不明の空気漏れ、乗組員が発生場所を調査中
MITテクノロジーレビュー[日本版] Vol.1/Autumn 2020
MITテクノロジーレビュー[日本版] Vol.1/Autumn 2020AI Issue

技術動向から社会実装の先進事例、倫理・ガバナンスまで、
AI戦略の2020年代のあたらしい指針。

詳細を見る
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る