AI生成テキストの透かし、改ざんは簡単 新研究で実証

It’s easy to tamper with watermarks from AI-generated text AI生成テキストの透かし、改ざんは簡単 新研究で実証

AI生成テキストへの電子透かしの挿入は、誤情報や盗作を防ぐ上で重要な役割を果たしている。だが、新研究によって、その改ざんが驚くほど容易であることが明らかになった。 by Melissa Heikkilä2024.04.03

AI生成テキストであることを示す電子透かしは、簡単に除去でき、テキストの盗用や複製が容易であることが研究で明らかになった。この種の攻撃は電子透かしの信用性を低下させ、信用すべきでないテキストを信用させてしまう恐れがあると研究チームは指摘している。

電子透かしは、AI生成テキストに隠されたパターンを挿入することで、コンピューターがAI生成テキストであると検知できるようにするものだ。AI生成テキスト用の電子透かしは比較的新しい発明だが、AIが生成した誤情報や盗作に対抗する方法としてすでに普及している。例えば、5月に施行される欧州連合(EU)の「AI法」は、AI生成コンテンツに電子透かしを入れるよう開発者に義務付けている。しかし、新たな研究によって最先端の透かしテクノロジーは規制当局の要件を満たしていないことが示された、と研究チームのメンバーであるチューリッヒ工科大学の博士課程生、ロビン・スターブは言う。この研究はまだ査読を受けていない。

AI言語モデルは、文中で次に使われそうな単語を予測し、その予測に基づいて一度に1つの単語を生成することで機能する。テキスト用の電子透かしのアルゴリズムは、言語モデルの語彙を「グリーン・リスト」と「レッド・リスト」の単語に分け、AIモデルにグリーン・リストの単語を選択させることで構成される。従って、文中にグリーン・リストの単語が多ければ多いほど、そのテキストがコンピューターによって生成された可能性は高くなる。人間はもっとランダムに単語が混ざった文章を書く傾向があるためだ。

研究者はこれを利用し、5種類の電子透かしを改ざんした。「電子透かしを用いているAIモデルにAPIでアクセスし、何度もプロンプトを送信することで電子透かしのリバースエンジニアリングに成功しました」とスターブは言う。攻撃者は、この回答を利用して電子透かしの類似モデルを構築すれば、電子透かしを「盗む」ことができる。これはAIの出力を分析し、通常のテキストと比較することで可能となる。

透かしの入った単語の見当がつけば、研究者は2種類の攻撃を実行できる。1つ目は「スプーフィング(なりすまし)攻撃」と呼ばれるものだ。悪意ある者が電子透かしを盗むと、その情報を利用して、透かし入りに見せかけたテキストを作成できる。2つ目の攻撃は、ハッカーがAI生成テキストを透かしから削除することで、人間が書いたテキストであるかのように見せるという方法だ。

研究チームは、電子透かしのスプーフィングで約80%、AI生成テキストから電子透かしを削除する方法で85%の成功を得た。

チューリッヒ工科大学研究チームとは別の研究者、例えばメリーランド大学のソヘイル・フェイジ准教授(リアイアブルAI研究所=Reliable AI Labの所長らも、電子透かしは信頼性に欠け、なりすまし攻撃に弱いことを発見している。

「チューリッヒ工科大学の研究結果から、このような電子透かしの問題は依然として存在し、現在使用される中で最も高度なチャットボットや大規模言語モデルでも問題が見られることが確認されました」とフェイジ准教授は話す。

この研究は「このような検出メカニズムを大規模に導入する際は、慎重さが求められることを示しています」ともフェイジ准教授は言う。

しかし、今回の研究結果にもかかわらず、電子透かしがAI作成コンテンツを検出する最も有望な方法であることに変わりはない、とチューリッヒ工科大学の博士課程学生であり、この研究に携わったニコラ・ヨヴァノヴィッチは言う。

ただし、電子透かしを大規模に導入できるようにするには、さらなる研究が必要だとヨヴァノヴィッチは付け加えた。それまでは、電子透かしの信頼性と有用性に対する期待値を管理する必要がある。「何もしないよりはましです。電子透かしはそれでもまだ役に立っています」(ヨヴァノヴィッチ)。