生成AIによるディープフェイクを防げ、MITが新手法

あなたはSNSに先週投稿した自撮り写真のことを、まだ覚えているだろうか？その写真を誰かが無断で取り込み、強力な生成AI（ジェネレーティブAI）システムを利用して編集されることを防ぐものは存在しない。さらに不都合なことに、そうした生成AIシステムが洗練していくにつれ、出来上がった画像を偽物だと証明することは不可能になるかもしれない。

だが朗報もある。マサチューセッツ工科大学（MIT）の研究チームが開発した新たなツールが、フェイク画像の生成を防いでくれる可能性があるのだ。

フォトガード（PhotoGuard）と呼ばれるこのツールは、保護シールドのような形で機能する。人間の目には見えないほどごくわずかに写真画像を改変し、操作されるのを防ぐ仕組みだ。フォトガードによって「免疫」を与えられた画像を、誰かがステーブル・ディフュージョン（Stable Diffusion）などの生成AIベースの編集アプリを使って操作しようとすると、出来上がった画像は非現実的だったり歪んでいたりするものになる。

現状では、「誰もが画像を手に入れて好きなように修正し、非常にまずい状況に陥れることができてしまいます」。マサチューセッツ工科大学（MIT）の博士研究員で、研究に参加したハディ・サルマンは話す。フォトガードは、7月23日から29日にかけて開催された「機械学習に関する国際会議（ICML）」で発表された。

フォトガードは、「私たちの画像が生成モデルによって悪意を伴う形で操作される問題を解決するための試み」だとサルマン研究員は説明する。例えばこのツールは、女性の自撮り写真が同意のないディープフェイク・ポルノ画像へと改ざんされることを防げるかもしれない。

人工知能（AI）を利用した操作を検知し、阻止する手段を開発することは急務となっている。生成AIの登場によって、かつてないほどすばやく簡単に画像を改変できるようになったからだ。オープンAI（OpenAI）、グーグル、メタといった主要AI企業は、詐欺や偽装を阻止することを目的として、そうした手法を開発する方針をホワイトハウスとの自主的な誓約で表明している。フォトガードは、別の手法である電子透かし（ウォーターマーク）を補完する手法だ。電子透かしが、目に見えない信号を使ってAI生成コンテンツを検出できるようにするのに対して、フォトガードにはAIツールによる画像改ざんを最初から防ぐ狙いがある。

MITの研究チームは、オープンソースの画像生成モデルであるステーブル・ディフュージョンによる画像編集を防ぐために、2つの異なる手法を用いた。

1つは、エンコーダー攻撃と呼ばれる手法だ。フォトガードは画像に感知不可能な信号を付加し、AIモデルがそれを別のものだと解釈するように仕向ける。たとえばこの信号によって、AIはコメディアンの画像を純粋なグレーのブロックとして分類するようようになる。その結果、ステーブル・ディフュージョンを用いてコメディアンが別の場面で写っているように画像を編集する試みは、説得力を欠いたものになる。

より効果的な2つ目の手法は、ディフュージョン攻撃と呼ばれるものだ。これはAIモデルの画像生成の方法を混乱させる手法で、基本的には画像に秘密の信号をエンコードすることで、AIモデルによる処理方法に変更を加えるものだ。こうした信号をコメディアンの画像に追加することで、研究チームはディフュージョンモデルがプロンプトを無視し、研究者たちが望んだ画像を生成するよう操作することに成功した。その結果、AIが編集したコメディアンの画像は単なるグレーの画像になったわけだ。

この取り組みは、「何かに対する具体的なニーズと、今すぐできることの良い組み合わせ」だと、シカゴ大学のベン・ザオ教授（コンピューター科学）は言う。ザオはアーティストが作品をAIモデルに収集されるのを防ぐための同様の保護手法である「Glaze（グラーズ）」を開発した人物だ。

グラーズの開発に携わり、顔認識を防ぐ複数の手法を開発してきたメタの研究科学者、エミリー・ワグナーは、フォトガードのようなツールは、悪意を持ってAIを利用することを困難にするため、攻撃者にとっての経済やインセンティブを変えることになると指摘する。

「ハードルが高ければ高いほど、それを乗り越えようとする、乗り越えられる者は少なくなります」（ワグナー科学者）。

課題は、この手法を現在公開されている他のモデルにどのように応用するかだとザオ教授は言う。研究チームはオンラインデモを公開し、人々が自分の写真に免疫を持たせることができるようにしているが、今のところ確実に機能するのはステーブル・ディフュージョンのみだ。

また、フォトガードによって新しい写真の改ざんは難しくなるかもしれないが、ディープフェイクに対する完璧な保護を得ることはできない。ユーザーの古い写真は依然として悪用される可能性がある上に、他にもディープフェイクを作り出す方法はあるからだ。ソーシャルメディア・ユーザーを顔認識から保護する手法を開発した、メリーランド大学の博士研究員であるヴァレリア・チェレパノワはこう指摘する。

理論的には、ユーザーが自分の画像をネットに投稿する前にこの保護シールドを適用することが可能だと、今回の研究にも参加したMITのアレクサンダー・マドリー教授は言う。だがより効果的なアプローチは、ユーザーが画像をプラットフォームに投稿する際に、自動で保護シールドが追加されるようテック企業が対応することだという。

だが、これは軍拡競争だ。テック企業は保護手法の改善を誓う一方、依然として猛烈なスピードで新たな、より優れたAIモデルの開発にも取り組んでおり、新たなモデルが新たな保護を上回る可能性もある。

AIモデルを開発している企業が、アップデートされたあらゆるAIモデルに対応する画像保護の手段も提供するのが最善のシナリオだとサルマン研究員は言う。

AIによる操作から画像をソース段階で保護しようとする試みは、AIによる改ざんを検知するための信頼性の低い手法を利用しようとするよりもはるかに実行可能性が高い。生成AIとディープフェイクの専門家であるヘンリー・アジャーは言う。

あらゆるソーシャルメディアプラットフォームまたはAI企業は、「ユーザーが同意のないポルノ画像の標的にされたり、顔を複製されて名誉を毀損するコンテンツを作られたりしないよう保護することを考える必要があります」。

This new tool could protect your pictures from AI manipulation 生成AIによるディープフェイクを防げ、MITが新手法