LLMでLLMの「脱獄」防げ、アンソロピックが防御策で新手法

アンソロピックが、大規模言語モデルの不正利用を防ぐ新手法を開発した。悪意ある指示への応答を遮断する防御壁により、「脱獄」の成功率を86%から4.4%に抑制することに成功している。 by Will Douglas Heaven2025.02.05

この記事の3つのポイント

AI言語モデルを使った新防御壁で「脱獄」成功率を86%から4.4%に低減
バグ報奨金で183人が3000時間攻撃を試みるも突破できず防御力を実証
完全な防御は不可能だが、必要な労力を増やすことで実用的な抑止力に

summarized by Claude 3

人工知能（AI）企業のアンソロピック（Anthropic）は、「脱獄（ジェイルブレイク）」と呼ばれる一般的な攻撃に対する新たな防御策を開発した。脱獄とは、大規模言語モデル（LLM：Large Language Model）を巧妙にだまして、武器の作成支援などの本来は禁止されている行為をLLMに実行させる手法である。

アンソロピックが新たに開発した手法は、脱獄に対するこれまでで最も強力な防御策になるかもしれない。「これは、有害な問い合わせを遮断する技術の最先端にあります」。カーネギーメロン大学でLLMの脱獄を研究しているアレックス・ロビー博士研究員は言う。

ほとんどのLLMは、開発者が回答させたくない質問を拒否するよう訓練されている。たとえば、アンソロピックのLLM「Claude（クロード）」であれば化学兵器に関する問い合わせを拒否するし、中国のAI企業ディープシーク（DeepSeek）のLLM「DeepSeek-R1（ディープシーク）」であれば中国の政治に関する質問を拒否する、といった具合だ。

しかし、特定のプロンプト（指示テキスト）や一連のプロンプトを使用することで、LLMに意図しない挙動を取らせることができる。脱獄手法の中には、モデルに組み込まれたセーフガードを回避する特定のキャラクターを演じさせるものや、標準とは異なる大文字の使用、特定の文字を数字に置き換えるなど、プロンプトの形式を操作するものもある。

ニューラル・ネットワークにおけるこの脆弱性は、少なくとも2013年にイリヤ・サツケバー（オープンAI共同創業者）らが初めて指摘して以来、研究対象となってきた。しかし、10年以上にわたる研究にもかかわらず、脱獄に対して完全に耐性を持つモデルを構築する方法は未だに確立されていない。

アンソロピックは、モデル自体を修正するのではなく、脱獄の試みを遮断し、不要な応答がモデルから出力されるのを防ぐ防御壁を開発した。

特にアンソロピックは、科学分野の学部生のように基本的な技術スキルを持つ人々が、化学兵器、生物兵器、核兵器の製造、取得、配備をする際にLLMが支援する可能性を懸念している。

アンソロピックは、「普遍的脱獄（universal jailbreak）」と呼ぶ手法に焦点を当てた。この脱獄手法は「Do Anything Now（今すぐ何でもする）」とも呼ばれ、モデルにすべての防御策を放棄させることができる。例えば、攻撃用プロンプ …

こちらは会員限定の記事です。 メールアドレスの登録で続きを読めます。

有料会員にはメリットがいっぱい！

毎月120本以上更新されるオリジナル記事で、人工知能から遺伝子療法まで、先端テクノロジーの最新動向がわかる。
オリジナル記事をテーマ別に再構成したPDFファイル「eムック」を毎月配信。
重要テーマが押さえられる。
各分野のキーパーソンを招いたトークイベント、関連セミナーに優待価格でご招待。

人気の記事ランキング