KADOKAWA Technology Review
×
【春割】実施中!年間購読料20%オフ!
AIモデル、「脱獄プロンプト」で不適切な画像生成の新手法
Stephanie Arnett/MITTR | iStock
人工知能(AI) Insider Online限定
Text-to-image AI models can be tricked into generating disturbing images

AIモデル、「脱獄プロンプト」で不適切な画像生成の新手法

文章・画像生成AIモデルは基本的に、暴力やヌードなどの有害な画像を生成しないようにポリシーで定められている。だが、「スニーキープロンプト」と呼ばれる新たな脱獄手法で、これらのモデルが生成しないはずの画像を作れることが実証された。 by Rhiannon Williams2023.11.21

テキストから画像を生成する人気の文章・画像生成人工知能(AI)モデルに、自らの安全フィルターを無視して有害な画像を生成するように仕向けられることがわかった。

ある研究チームが、スタビリティAI(Stability AI)の「ステーブル・ディフュージョン(Stable Diffusion)」、およびオープンAI(OpenAI)の「DALL-E(ダリー)2」の文章・画像生成AIモデルの両方に、それぞれが設定しているポリシーを無視させ、裸の人々やバラバラにされた死体、その他の暴力的・性的なシナリオの画像を作成させることに成功した。

2024年5月に開催される「セキュリティとプライバシーに関するIEEE シンポジウム(IEEE Symposium on Security and Privacy)」で発表される予定のこの研究は、生成AI(ジェネレーティブAI)モデルに自身のガイドラインやポリシーを無視させる「脱獄(ジェイルブレイク)」と呼ばれる行為が、いかに簡単かということに光を当てている。また、それらのモデルがそのようなコンテンツを生成するのを防ぐことの難しさも実証していると、カーネギーメロン大学のジーコ・コルター准教授は言う。モデルの訓練に使用された膨大なデータの中に、有害なコンテンツが含まれているからだ。コルター准教授は今年、「チャットGPT(ChatGPT)」で同じような形の脱獄ができることを実証したが、今回の研究には関わっていない。

「セキュリティ上の欠陥が知られているソフトウェアやツールを、より大規模なソフトウェアシステムにリリースする際には、潜在的なリスクを考慮しなければなりません」と、コルター准教授は言う。

主要な生成AIモデルにはすべて、ユーザーがポルノ画像や暴力的な画像、その他の不適切な画像の生成を指示するのを防ぐための安全フィルターが備わっている。それらのモデルは、「裸」「殺人」「セクシー」などのセンシティブな用語を含むプロンプト(指示テキスト)からは、画像を生成しない。

しかし、ジョンズ・ホプキンス大学とデューク大学のクリエイターたちによって「スニーキープロンプト(SneakyPrompt)」と名付けられたこの新しい脱獄手法は、強化学習を利用し、人間には意味不明で無意味なように見えるが、学習済みのAIモデルには、有害画像を生成する暗黙の要求と認識されるように書かれたプロンプトを作成する。これは本質的に、文章・画像生成AIモデルの機能を逆手に取るものだ。

文章・画像生成AIモデルは、テキストベースのリクエストを単語や文字の羅列に分解してトークンに変換し、プロンプトから与えられた命令を処理する。スニーキープロンプトは、プロンプトのトークンに繰り返し微調整を加え、モデルに禁止されている画像を生成させようとする。そのアプローチの調整は、成功するまで続けられる。この手法により、誰かが手作業で各エントリーを入力しなければならない場合よりも、禁止された画像をより素早く簡単に生成できるようになる。また、人間が試そうとは思わないようなエントリーも生成できる。

スニーキープロンプトは与えられたプロンプトを詳細に調べ、モデルによってブロックされることが分かっている単語を検索し、それらをトークンに変換する。次に …

こちらは有料会員限定の記事です。
有料会員になると制限なしにご利用いただけます。
有料会員にはメリットがいっぱい!
  1. 毎月120本以上更新されるオリジナル記事で、人工知能から遺伝子療法まで、先端テクノロジーの最新動向がわかる。
  2. オリジナル記事をテーマ別に再構成したPDFファイル「eムック」を毎月配信。
    重要テーマが押さえられる。
  3. 各分野のキーパーソンを招いたトークイベント、関連セミナーに優待価格でご招待。
【春割】実施中!年間購読料20%オフ!
人気の記事ランキング
  1. A new US phone network for Christians aims to block porn and gender-related content ポルノもLGBTも遮断、キリスト教徒向けMVNOが米国で登場
  2. Musk v. Altman week 1: Elon Musk says he was duped, warns AI could kill us all, and admits that xAI distills OpenAI’s models 「オープンAIを蒸留した」マスク対アルトマン第1週、法廷がざわめく
  3. Will fusion power get cheap? Don’t count on it. 核融合は本当に安くなるのか? 楽観論に「待った」をかける新研究
MITテクノロジーレビューが選んだ、 世界を変える10大技術

MITテクノロジーレビューの記者と編集者は、未来を形作るエマージング・テクノロジーについて常に議論している。年に一度、私たちは現状を確認し、その見通しを読者に共有する。以下に挙げるのは、良くも悪くも今後数年間で進歩を促し、あるいは大きな変化を引き起こすと本誌が考えるテクノロジーである。

特集ページへ
AI革命の真実 誇大宣伝の先にあるもの

AIは人間の知能を再現する。AIは病気を根絶する。AIは人類史上、最大にして最も重要な発明だ——。こうした言葉を、あなたも何度となく耳にしてきたはずだ。しかし、その多くは、おそらく真実ではない。現在地を見極め、AIが本当に可能にするものは何かを問い、次に進むべき道を探る。

特集ページへ
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る