KADOKAWA Technology Review
×
7/30イベント「バイブコーディングの正体——AIエージェントはソフトウェア開発を変えるか?」申込受付中!
AI訓練データに個人情報、
身分証や履歴書など数百万件
Stephanie Arnett/MIT Technology Review | Adobe Stock, Envato
人工知能(AI) Insider Online限定
A major AI training data set contains millions of examples of personal data

AI訓練データに個人情報、
身分証や履歴書など数百万件

生成AIモデルの訓練に使用される最大規模のオープンソースデータセットの1つに、個人を特定可能な機密情報が多数発見された。Webスクレイピングによって収集されたこれらのデータは、AIモデルに取り込まれて、プライバシーの侵害につながる恐れがある。 by Eileen Guo2025.07.23

この記事の3つのポイント
  1. 大規模AI訓練データセットに数百万件の個人情報が混入していることが研究で判明
  2. 既存のプライバシー保護対策が機能せず、根本的な技術的課題が浮き彫りになった
  3. 現行のプライバシー法では対応が困難で、AI開発における同意の概念の見直しが必要
summarized by Claude 3

パスポート、クレジットカード、出生証明書など、個人を特定可能な情報を含む文書の画像数百万枚が、最大規模のオープンソース人工知能(AI)訓練データセットの1つに含まれている可能性が高いことが、新たな研究で明らかになった。

Web上で収集された画像生成用のAI訓練データセットの1つに、データコンプ(DataComp)プロジェクトが提供する「CommonPool(コモンプール)」というデータセットがある。今回の研究チームは、このCommonPoolに含まれるデータのごく一部(全体の約0.1%)を調査し、その中だけでも識別可能な顔を含む数千枚の画像を発見した。研究チームは、データセット全体では顔や身分証明書など個人情報を含む画像は数億枚にのぼると推定している。調査結果をまとめた論文が2025年7月にarXiv(アーカイブ)で公開された。

共同執筆者の1人であるカーネギーメロン大学(CMU)のウィリアム・アグニュー博士研究員(AI倫理学)は、「インターネット上に公開した情報は何であれ、収集される可能性があり、実際に収集されていると考えるべきだ」と結論付けている。

研究チームが発見した数千件の有効な身分証明書類の中には、クレジットカードや運転免許証、パスポート、出生証明書のほか、800件を超える有効な求人応募書類(履歴書やカバーレターを含む)の画像も含まれていた。それらは、リンクトイン(LinkedIn)などのWeb検索によって実在する人物に関連するものであることが確認されている (実際にはもっと多くの画像が発見されたが、調査の時間不足や画像の不鮮明さなどの理由により、すべてを検証しきれなかった)。

履歴書の多くには、身体障害の有無、身元調査の結果、扶養家族の生年月日や出生地、人種などの機密情報が開示されていた。履歴書とネット上に存在する人々の情報を関連付けることで、連絡先情報、政府機関の識別子情報、社会人口統計学的情報、顔写真、自宅住所、推薦者など第三者の連絡先情報も判明した。

128億件のデータサンプルを持つデータコンプのCommonPoolは、2023年のリリース時点で、一般公開された画像とテキストのペアを含む最大規模のデータセットであり、テキストから画像を生成するモデルの訓練に頻繁に使用されている。データセット作成者は学術研究向けだと述べているが、ライセンスでは商用利用を禁じていない。

CommonPoolは、Stable Diffusion(ステーブル・ディフュージョン)やMidjourney(ミッドジャーニー)などのモデルの訓練に使用されたLAION-5B(ライオン-5B )データセットの後継として作られた。データソースも同じものを利用している。2014年から2022年にかけて非営利団体コモン・クロール(Common Crawl )が収集したWebスクレイピング・データだ。

商用モデルは訓練に用いたデータセットを開示しないことが多い。しかしデータコンプのCommonPoolとLAION-5Bはデータソースを共有しているため、この2つのデータセットは類似している。個人を特定可能な同じ情報がLAION-5B や、CommonPoolのデータで訓練された他の下流モデルでも見つかる可能性が高い。CommonPoolの研究者にメールで質問を送ったが、回答は得られなかった。

データコンプのCommonPoolは過去2年間で200万回以上ダウンロードされており、「このデータセットで訓練されている多くの下流モデルが存在する可能性が高い」と、この研究報告書を主筆したワシントン大学のコンピューター科学博士課程生、レイチェル・ホンは述べている。そのようなモデルにも、同様のプライバシー …

こちらは有料会員限定の記事です。
有料会員になると制限なしにご利用いただけます。
有料会員にはメリットがいっぱい!
  1. 毎月120本以上更新されるオリジナル記事で、人工知能から遺伝子療法まで、先端テクノロジーの最新動向がわかる。
  2. オリジナル記事をテーマ別に再構成したPDFファイル「eムック」を毎月配信。
    重要テーマが押さえられる。
  3. 各分野のキーパーソンを招いたトークイベント、関連セミナーに優待価格でご招待。
人気の記事ランキング
  1. Promotion MITTR Emerging Technology Nite #33 バイブコーディングって何だ? 7/30イベント開催のお知らせ
  2. Promotion Call for entries for Innovators Under 35 Japan 2025 「Innovators Under 35 Japan」2025年度候補者募集のお知らせ
  3. Trajectory of U35 Innovators: Yoichi Ochiai 落合陽一:「デジタルネイチャー」の表現者が万博に込めた思い
  4. Google’s generative video model Veo 3 has a subtitles problem 高品質で超高額、グーグル動画生成AI「Veo 3」で謎の字幕問題
日本発「世界を変える」U35イノベーター

MITテクノロジーレビューが20年以上にわたって開催しているグローバル・アワード「Innovators Under 35 」。世界的な課題解決に取り組み、向こう数十年間の未来を形作る若きイノベーターの発掘を目的とするアワードの日本版の最新情報を発信する。

特集ページへ
MITTRが選んだ 世界を変える10大技術 2025年版

本当に長期的に重要となるものは何か?これは、毎年このリストを作成する際に私たちが取り組む問いである。未来を完全に見通すことはできないが、これらの技術が今後何十年にもわたって世界に大きな影響を与えると私たちは予測している。

特集ページへ
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る