AI訓練データに個人情報、
身分証や履歴書など数百万件

生成AIモデルの訓練に使用される最大規模のオープンソースデータセットの1つに、個人を特定可能な機密情報が多数発見された。Webスクレイピングによって収集されたこれらのデータは、AIモデルに取り込まれて、プライバシーの侵害につながる恐れがある。 by Eileen Guo2025.07.23

この記事の3つのポイント

大規模AI訓練データセットに数百万件の個人情報が混入していることが研究で判明
既存のプライバシー保護対策が機能せず、根本的な技術的課題が浮き彫りになった
現行のプライバシー法では対応が困難で、AI開発における同意の概念の見直しが必要

summarized by Claude 3

パスポート、クレジットカード、出生証明書など、個人を特定可能な情報を含む文書の画像数百万枚が、最大規模のオープンソース人工知能（AI）訓練データセットの1つに含まれている可能性が高いことが、新たな研究で明らかになった。

Web上で収集された画像生成用のAI訓練データセットの1つに、データコンプ（DataComp）プロジェクトが提供する「CommonPool（コモンプール）」というデータセットがある。今回の研究チームは、このCommonPoolに含まれるデータのごく一部（全体の約0.1%）を調査し、その中だけでも識別可能な顔を含む数千枚の画像を発見した。研究チームは、データセット全体では顔や身分証明書など個人情報を含む画像は数億枚にのぼると推定している。調査結果をまとめた論文が2025年7月にarXiv（アーカイブ）で公開された。

共同執筆者の1人であるカーネギーメロン大学（CMU）のウィリアム・アグニュー博士研究員（AI倫理学）は、「インターネット上に公開した情報は何であれ、収集される可能性があり、実際に収集されていると考えるべきだ」と結論付けている。

研究チームが発見した数千件の有効な身分証明書類の中には、クレジットカードや運転免許証、パスポート、出生証明書のほか、800件を超える有効な求人応募書類（履歴書やカバーレターを含む）の画像も含まれていた。それらは、リンクトイン（LinkedIn）などのWeb検索によって実在する人物に関連するものであることが確認されている（実際にはもっと多くの画像が発見されたが、調査の時間不足や画像の不鮮明さなどの理由により、すべてを検証しきれなかった）。

履歴書の多くには、身体障害の有無、身元調査の結果、扶養家族の生年月日や出生地、人種などの機密情報が開示されていた。履歴書とネット上に存在する人々の情報を関連付けることで、連絡先情報、政府機関の識別子情報、社会人口統計学的情報、顔写真、自宅住所、推薦者など第三者の連絡先情報も判明した。

128億件のデータサンプルを持つデータコンプのCommonPoolは、2023年のリリース時点で、一般公開された画像とテキストのペアを含む最大規模のデータセットであり、テキストから画像を生成するモデルの訓練に頻繁に使用されている。データセット作成者は学術研究向けだと述べているが、ライセンスでは商用利用を禁じていない。

CommonPoolは、Stable Diffusion（ステーブル・ディフュージョン）やMidjourney（ミッドジャーニー）などのモデルの訓練に使用されたLAION-5B（ライオン-5B ）データセットの後継として作られた。データソースも同じものを利用している。2014年から2022年にかけて非営利団体コモン・クロール（Common Crawl ）が収集したWebスクレイピング・データだ。

商用モデルは訓練に用いたデータセットを開示しないことが多い。しかしデータコンプのCommonPoolとLAION-5Bはデータソースを共有しているため、この2つのデータセットは類似している。個人を特定可能な同じ情報がLAION-5B や、CommonPoolのデータで訓練された他の下流モデルでも見つかる可能性が高い。CommonPoolの研究者にメールで質問を送ったが、回答は得られなかった。

データコンプのCommonPoolは過去2年間で200万回以上ダウンロードされており、「このデータセットで訓練されている多くの下流モデルが存在する可能性が高い」と、この研究報告書を主筆したワシントン大学のコンピューター科学博士課程生、レイチェル・ホンは述べている。そのようなモデルにも、同様のプライバシー …

こちらは有料会員限定の記事です。 有料会員になると制限なしにご利用いただけます。

有料会員にはメリットがいっぱい！

毎月120本以上更新されるオリジナル記事で、人工知能から遺伝子療法まで、先端テクノロジーの最新動向がわかる。
オリジナル記事をテーマ別に再構成したPDFファイル「eムック」を毎月配信。
重要テーマが押さえられる。
各分野のキーパーソンを招いたトークイベント、関連セミナーに優待価格でご招待。

人気の記事ランキング

AI訓練データに個人情報、 身分証や履歴書など数百万件

AI訓練データに個人情報、
身分証や履歴書など数百万件