KADOKAWA Technology Review
×
LLMでLLMの「脱獄」防げ、アンソロピックが防御策で新手法
Stephanie Arnett/MIT Technology Review | Rawpixel
人工知能(AI) 無料会員限定
Anthropic has a new way to protect large language models against jailbreaks

LLMでLLMの「脱獄」防げ、アンソロピックが防御策で新手法

アンソロピックが、大規模言語モデルの不正利用を防ぐ新手法を開発した。悪意ある指示への応答を遮断する防御壁により、「脱獄」の成功率を86%から4.4%に抑制することに成功している。 by Will Douglas Heaven2025.02.05

この記事の3つのポイント
  1. AI言語モデルを使った新防御壁で「脱獄」成功率を86%から4.4%に低減
  2. バグ報奨金で183人が3000時間攻撃を試みるも突破できず防御力を実証
  3. 完全な防御は不可能だが、必要な労力を増やすことで実用的な抑止力に
summarized by Claude 3

人工知能(AI)企業のアンソロピック(Anthropic)は、「脱獄(ジェイルブレイク)」と呼ばれる一般的な攻撃に対する新たな防御策を開発した。脱獄とは、大規模言語モデル(LLM:Large Language Model)を巧妙にだまして、武器の作成支援などの本来は禁止されている行為をLLMに実行させる手法である。

アンソロピックが新たに開発した手法は、脱獄に対するこれまでで最も強力な防御策になるかもしれない。「これは、有害な問い合わせを遮断する技術の最先端にあります」。カーネギーメロン大学でLLMの脱獄を研究しているアレックス・ロビー博士研究員は言う。

ほとんどのLLMは、開発者が回答させたくない質問を拒否するよう訓練されている。たとえば、アンソロピックのLLM「Claude(クロード)」であれば化学兵器に関する問い合わせを拒否するし、中国のAI企業ディープシーク(DeepSeek)のLLM「DeepSeek-R1(ディープシーク)」であれば中国の政治に関する質問を拒否する、といった具合だ。

しかし、特定のプロンプト(指示テキスト)や一連のプロンプトを使用することで、LLMに意図しない挙動を取らせることができる。脱獄手法の中には、モデルに組み込まれたセーフガードを回避する特定のキャラクターを演じさせるものや、標準とは異なる大文字の使用、特定の文字を数字に置き換えるなど、プロンプトの形式を操作するものもある。

ニューラル・ネットワークにおけるこの脆弱性は、少なくとも2013年にイリヤ・サツケバー(オープンAI共同創業者)らが初めて指摘して以来、研究対象となってきた。しかし、10年以上にわたる研究にもかかわらず、脱獄に対して完全に耐性を持つモデルを構築する方法は未だに確立されていない。

アンソロピックは、モデル自体を修正するのではなく、脱獄の試みを遮断し、不要な応答がモデルから出力されるのを防ぐ防御壁を開発した。

特にアンソロピックは、科学分野の学部生のように基本的な技術スキルを持つ人々が、化学兵器、生物兵器、核兵器の製造、取得、配備をする際にLLMが支援する可能性を懸念している。

アンソロピックは、「普遍的脱獄(universal jailbreak)」と呼ぶ手法に焦点を当てた。この脱獄手法は「Do Anything Now(今すぐ何でもする)」とも呼ばれ、モデルにすべての防御策を放棄させることができる。例えば、攻撃用プロンプ …

こちらは会員限定の記事です。
メールアドレスの登録で続きを読めます。
有料会員にはメリットがいっぱい!
  1. 毎月120本以上更新されるオリジナル記事で、人工知能から遺伝子療法まで、先端テクノロジーの最新動向がわかる。
  2. オリジナル記事をテーマ別に再構成したPDFファイル「eムック」を毎月配信。
    重要テーマが押さえられる。
  3. 各分野のキーパーソンを招いたトークイベント、関連セミナーに優待価格でご招待。
人気の記事ランキング
  1. Inside the tedious effort to tally AI’s energy appetite 動画生成は別次元、思ったより深刻だったAIの電力問題
  2. Promotion Call for entries for Innovators Under 35 Japan 2025 「Innovators Under 35 Japan」2025年度候補者募集のお知らせ
  3. IBM aims to build the world’s first large-scale, error-corrected quantum computer by 2028 IBM、世界初の大規模誤り訂正量子コンピューター 28年実現へ
  4. What is vibe coding, exactly? バイブコーディングとは何か? AIに「委ねる」プログラミング新手法
日本発「世界を変える」U35イノベーター

MITテクノロジーレビューが20年以上にわたって開催しているグローバル・アワード「Innovators Under 35 」。世界的な課題解決に取り組み、向こう数十年間の未来を形作る若きイノベーターの発掘を目的とするアワードの日本版の最新情報を発信する。

特集ページへ
MITTRが選んだ 世界を変える10大技術 2025年版

本当に長期的に重要となるものは何か?これは、毎年このリストを作成する際に私たちが取り組む問いである。未来を完全に見通すことはできないが、これらの技術が今後何十年にもわたって世界に大きな影響を与えると私たちは予測している。

特集ページへ
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る