KADOKAWA Technology Review
×
「Innovators Under 35 Japan」2024年度候補者募集中!
Collection of 13,500 Nastygrams Could Advance War on Trolls

悪口とは何か? 機械学習用に荒らしコメント1万3500件を収集

人間同士の罵倒を避けるため、1万3500件のWikipediaのノートページのデータが、機械学習用の訓練データになった。英語なので、日本版を作れば、ののしり合いを機械が仲裁してくれるかもしれない。 by Tom Simonite2017.02.08

女性蔑視や人種差別、罵倒など、ネット上で個人を攻撃している投稿1万3500件以上のコレクションが完成した。

ウィキペディアのノートページから収集された悪口を、アルファベット(グーグルの親会社)とウィキメディア財団(ウィキペディアを運営する非営利団体)の研究者が10万件以上の温和な投稿とともにデータ集として公開したのだ。研究者によると、このデータは、ネット上の迷惑行為を理解して取り締まるソフトウェアを訓練する研究に役立つという。

ジグソー(言論の自由や汚職との戦いを理念に掲げるアルファベットの子会社)のルーカス・ディクソン主任研究科学者は「最も議論が激しく、最も重要な話題について、人々がインターネット全体で生産的に議論できるために弊社ができることを理解するのが目標です」という。

ジグソーとウィキメディア財団の研究者は、クラウド・ソーシングサービスにより、ウィキペディアのノートページに投稿された11万5000件以上のメッセージを人々に確認してもらい、ウィキぺディアの規則が定める個人攻撃に当たるかどうかを判定した。共同研究者はすでに同じデータを使って機械学習アルゴリズムを訓練し、個人攻撃の判定でクラウド・ソーシングの作業者に匹敵する精度を達成した。なお、ウィキペディアの編集者による6300万件の議論に関する投稿全てをアルゴリズムに処理させたところ、モデレーターが議論を整理している場合に個人攻撃が発生したのはわずが10分の1程度だとわかった。

ウィキメディア財団は昨年、ウィキペディア内の迷惑行為の減少を優先事項として掲げた。この方針は、ウィキペディア・コミュニティのとげとげしい官僚的な雰囲気を和らげる現在の活動の強化策だ。ウィキペディアのこうした雰囲気のせいで、新たな投稿者の参入が阻まれていることがわかっている。ウィキペディアは編集者数が減少しており、また、男性や西洋出身者を中心とするサイトに、多様性のある新参加者が加わりにくくなっており、迷惑行為やウィキペディアの雰囲気の問題を研究すれば、原因を理解できるだろう(“The Decline of Wikipedia”参照)。

ネットいじめの研究や、ネットいじめを特定して対処可能なソフトウェアの開発を目指したのはジグソーやウィキメディア財団が最初ではない。しかし、ウィキメディア財団でデータサイエンスを研究しているエルリー・ウルチェンによると、迷惑な投稿かどうかを判定するためにコメントを分類して収集した(分類されたコメントは機械学習ソフトウェアの学習に必須だ)のは珍しいという。

正確にデータを検索する方法を機械学習アルゴリズムが学習するためには膨大な量の分類された実例が必要だ。今回収集されたウィキペディア上の個人攻撃やコメントのコレクションは、これまで利用可能だったデータの集まりの10倍から100倍以上の量だとウルチェンは推定している。

しかしソフトウェアは言語の全てのニュアンスを理解するまでには至っておらず、ネットいじめを特定するように訓練されたアルゴリズムが、実際のモデレーターと同じように判定できるかは不明だ。ウィキメディアのウルジンによると、ソフトウェアによる検知を避けるために悪口の表現を変える人も出てくるかもしれない。「人間と敵対するように機械が干渉した時、何が起こるかはわからないのです」

人気の記事ランキング
  1. AI can make you more creative—but it has limits 生成AIは人間の創造性を高めるか? 新研究で限界が明らかに
  2. Promotion Call for entries for Innovators Under 35 Japan 2024 「Innovators Under 35 Japan」2024年度候補者募集のお知らせ
  3. A new weather prediction model from Google combines AI with traditional physics グーグルが気象予測で新モデル、機械学習と物理学を統合
  4. How to fix a Windows PC affected by the global outage 世界規模のウィンドウズPCトラブル、IT部門「最悪の週末」に
  5. The next generation of mRNA vaccines is on its way 日本で承認された新世代mRNAワクチン、従来とどう違うのか?
トム サイモナイト [Tom Simonite]米国版 サンフランシスコ支局長
MIT Technology Reviewのサンフランシスコ支局長。アルゴリズムやインターネット、人間とコンピューターのインタラクションまで、ポテトチップスを頬ばりながら楽しんでいます。主に取材するのはシリコンバレー発の新しい考え方で、巨大なテック企業でもスタートアップでも大学の研究でも、どこで生まれたかは関係ありません。イギリスの小さな古い町生まれで、ケンブリッジ大学を卒業後、インペリアルカレッジロンドンを経て、ニュー・サイエンティスト誌でテクノロジーニュースの執筆と編集に5年間関わたった後、アメリカの西海岸にたどり着きました。
日本発「世界を変える」U35イノベーター

MITテクノロジーレビューが20年以上にわたって開催しているグローバル・アワード「Innovators Under 35 」。2024年も候補者の募集を開始しました。 世界的な課題解決に取り組み、向こう数十年間の未来を形作る若きイノベーターの発掘を目的とするアワードの日本版の最新情報を随時発信中。

特集ページへ
MITTRが選んだ 世界を変える10大技術 2024年版

「ブレークスルー・テクノロジー10」は、人工知能、生物工学、気候変動、コンピューティングなどの分野における重要な技術的進歩を評価するMITテクノロジーレビューの年次企画だ。2024年に注目すべき10のテクノロジーを紹介しよう。

特集ページへ
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る