チャットGPT「プロンプト・インジェクション」に3つのリスク
チャットGPT(ChatGPT)をはじめとする大規模AI言語モデルに基づくチャットボットがさまざまな製品に大規模に組み込まれつつある。だが、こうしたチャットボットのプロンプト(指示文)を悪用する行為も多数見つかっており、警鐘を鳴らす声もある。 by Melissa Heikkilä2023.04.07
人工知能(AI)言語モデルは今、テック業界で最も輝き、最もエキサイティングな存在だ。その一方で、新たな大問題を引き起こす可能性がある。AI言語モデルは強力なフィッシングや詐欺のツールとして悪用することが極めて容易だ。その際に、プログラミングのスキルは必要ない。さらに悪いことに、問題を起こさないようにモデルを修正する方法が分かっていない。
旅行の予約からカレンダーの整理、会議でのメモ取りまであらゆる作業を支援するため、テック企業は競ってAI言語モデルをさまざまな製品に組み込もうとしている。
しかし、ユーザーの指示を受けてインターネット上で答えを探し出すというこれらの製品の仕組みによって、新たなリスクが大量に生じる。AI言語モデルを用いるこれらの製品は、個人情報の漏えい、フィッシングやスパム、詐欺行為といったさまざまな悪事に用いられるおそれがある。専門家は、私たちがセキュリティとプライバシーの「災難」に向かっていると警告する。
AI言語モデルがいかに悪用され得るか、3つの方法を紹介しよう。
脱獄
チャットGPT(ChatGPT)、バード(Bard)、ビング(Bing)などのチャットボットに搭載されているAI言語モデルは、人間が書いたかのような文章を生成する。「プロンプト」と呼ばれるユーザーの指示に従って、前の各単語に続く可能性の高い単語を訓練データに基づいて予測し、文章を生成するのだ。
しかし、AI言語モデルを優れたものとしている点、すなわちユーザーの指示に従えるという点が、まさにこの言語モデルを悪用に対して脆弱にしている。その脆弱性は、「プロンプト・インジェクション(指示テキストの挿入)」と呼ばれる、言語モデルに従前の指示や安全策を無視するように指示するプロンプトの使用によって生じ得る。
昨年から、チャットGPTの「脱獄(ジェイルブレイク)」を試みる小規模ビジネスがレディット(Reddit)などのWebサイトに出現している。AIモデルがユーザーに対し、人種差別や陰謀論を支持させたり、万引きや爆発物の製造といった違法行為をするよう勧めたりするよう仕向けているのだ。
こうしたことは、たとえば、元のAIモデルの安全策を無視してでもユーザーの望みを実現する、別のAIモデルの「役割を演じる」ことをチャットボットに依頼すれば実現できる。
チャットGPTを開発したオープンAI(OpenAI)は、チャットGPTの脱獄方法をすべて記録しており、それをAIシステムの訓練データに追加することで、今後はそのようなやり方に抵抗できるようになるだろうと述べている。同社は競争式訓練と呼ばれる手法も用いている。これは、オープンAIの別のチャットボットに、チャットGPTの裏をかく方法を探させるものであえる。しかし、これは終わりのない戦いだ。修正するたびに、新しい脱獄のプロンプトが登場する。
詐欺行為やフィッシングを助ける
脱獄よりもはるかに大きな問題がある。オープンAIは3月下旬、インターネットを閲覧し情報をやりとりする製品をチャットGPTに統合すると発表した。いくつかのスタートアップ企業がすでに、飛行機の予約やカレンダーへの会議設定など、現実世界で行動を起こせるバーチャル・アシスタントを、この機能を利用して開発している。だが、インターネットをチャット …
- 人気の記事ランキング
-
- AI can make you more creative—but it has limits 生成AIは人間の創造性を高めるか? 新研究で限界が明らかに
- Promotion Call for entries for Innovators Under 35 Japan 2024 「Innovators Under 35 Japan」2024年度候補者募集のお知らせ
- A new weather prediction model from Google combines AI with traditional physics グーグルが気象予測で新モデル、機械学習と物理学を統合
- How to fix a Windows PC affected by the global outage 世界規模のウィンドウズPCトラブル、IT部門「最悪の週末」に
- The next generation of mRNA vaccines is on its way 日本で承認された新世代mRNAワクチン、従来とどう違うのか?