2016年、マイクロソフトは、顔認識の進歩に拍車をかけることを期待して、世界最大の顔データベースを公開した。「MS-Celeb-1M」と呼ぶこのデータベースには、10万人の有名人の顔を撮影した1000万枚の画像が入っていた。しかし「有名人」といっても、その定義は曖昧なものだった。
3年後、研究者のアダム・ハーベイ(Adam Harvey)とジュール・ラプラス(Jules LaPlace)がこのデータセットを精査したところ、ジャーナリスト、アーティスト、活動家、学者など、仕事のためにネット上で活動している多くの一般人が見つかった。彼らはみな、データベースへの収録に同意していなかったが、彼らの顔写真は「MS-Celeb-1M」データベースにとどまらず、その向こう側へと渡ってしまった。大量の顔写真を集めたこのデータベースは、フェイスブック、IBM、バイドゥ、そして中国最大級の顔認識技術大手で、中国警察にシステムを販売しているセンスタイム(SenseTime)などの企業が研究に利用していた。
ハーベイとラプラスの調査から間もなく、ジャーナリストからの批判を受けたマイクロソフトは、「研究は終了した」とだけ述べてデータセットを削除した。しかし、この事件がもたらしたプライバシーに関する懸念は、インターネット上の永遠の地に残っている。さらに、問題はこのケースだけではない。
かつて、Web上の画像やテキストをスクレイピングすることは、現実世界のデータを収集する先進的な手法と考えられていた。しかし今では、GDPR(欧州データ保護規則)などの法律や、データ・プライバシーや監視に対して社会の懸念が高まったことにより、この行為は法的にもリスクが高く、不適切なものになっている。その結果、人工知能(AI)研究者らは、スクレイピングによって作成したデータセットを撤回することが多くなった。
しかし、新しい研究によれば、一旦作成し、公開したデータセットを撤回しても、問題のあるデータの拡散や不正利用を防ぐ効果はほとんどないという。この研究チームは、顔写真や人物画像を含むデータセットのうち最もよく引用されているものを3つ(うち2つは撤回されたもの)選び、それぞれが1000本近い論文でどのようにコピーされ、使用され、別の目的で再利用されたかを追跡した。
「MS-Celeb-1M」の場合、コピーされたデータが第三者のサイトや、オリジナルの上に構築された派生データセットに残存していた。このデータで事前に学習させたオープンソースのモデルも容易に入手できる。さらに、このデータセットとその派生物は、撤回後6カ月から18カ月の間に発表された数百本の論文で引用されている。
デュー …
- 人気の記事ランキング
-
- The great AI hype correction of 2025 GPT-5ローンチ失敗、 企業95%が成果出せず … 転換期を迎えたAIブーム
- AI might not be coming for lawyers’ jobs anytime soon そして弁護士の仕事は残った 「44%自動化」の誇大宣伝 司法試験クリアも実務遠く
- 4 technologies that didn’t make our 2026 breakthroughs list 2026年版「世界を変える10大技術」から漏れた候補4つ
- Text-to-image AI models can be tricked into generating disturbing images AIモデル、「脱獄プロンプト」で不適切な画像生成の新手法