KADOKAWA Technology Review
×
【春割】実施中!年間購読料20%オフ!
毒をもって毒を制す? LLMの有害行動を防ぐ意外な新手法
Stephanie Arnett/MIT Technology Review | Adobe Stock
人工知能(AI) 無料会員限定
Forcing LLMs to be evil during training can make them nicer in the long run

毒をもって毒を制す? LLMの有害行動を防ぐ意外な新手法

大規模言語モデル(LLM)は時に、悪意のある返答を返すことがある。アンソロピック(Anthropic)が発見したのは「毒をもって毒を制す」手法だった。訓練中に悪意や追従性を意図的に活性化させることで、逆にモデルがそれらの特性を獲得するのを阻止できるという。 by Grace Huckins2025.08.06

アンソロピック(Anthropic)による新たな研究によれば、過度なおべっか(シカファンシー:sycophancy)や悪意といった特性は、大規模言語モデル(LLM)における特定の活動パターンと関連しており、訓練中にそれらのパターンを意図的に有効化することで、逆説的にモデルがそのような特性を獲得するのを防げる可能性があるという。

大規模言語モデルが最近、好ましくない振る舞いをすることが話題になっている。4月には、ChatGPT(チャットGPT)が突然攻撃的なイエスマンになった。これは、ユーザーがこれまで慣れ親しんでいた、適度におべっかを使うバージョンとは一線を画すものだ。荒唐無稽なビジネスアイデアを支持し、ユーザーの知性について詩的に語り出し、さらには精神科の薬をやめるよう勧めることさえあった。オープンAI(OpenAI)はすぐにモデルを元に戻し、後にこの事故に関する事後検証の結果を公表した。最近では、xAIのGrok(グロック)が、いわゆる4ちゃん(4chan)のネオナチのようなペルソナを採用し、X上で自身を「メカヒトラー」と繰り返し称していた。この変更もまた、すぐに撤回された。

今回の研究プロジェクトを主導したアンソロピックの技術スタッフ、ジャック・リンゼーは、こうした事例でモデルが有害な特性を身につける様子に触発され、この研究に取り組んだ面があるという。「モデルのペルソナの神経基盤を見つけることができれば、なぜこうしたことが起こっているのかを理解し、それをより良く制御する方法を開発できると考えています」。

大規模言語モデルの「ペルソナ」や「パーソナリティ」という概念は、議論を呼ぶものだ。こうした用語は言語モデルを不適切に擬人化するものだとする研究者がいる一方で、大規模言語モデルが示し得る持続的な行動パターンを効果的に捉えるものだと話す研究者もいる。「ペルソナについて語るには、まだいくつかの科学的基盤を築く必要があります」。この研究には関与していないモントリオール大学のデイビッド・クルーガー助教授(コンピューター科学、オペレーションズ・リサーチ)は述べる。「これらのシステムをペルソナを持つものとして考えることは、時として適切だと思います。ですが、実際に内部で何が起こっているのかは分からないということを念頭に置く必要があるでしょう」。

今回の研究でリンゼーらの研究チームは、その科学的基盤の一部を築くことに取り組んだ。これまでの研究では、大規模言語モデルの行動のさまざまな側面、例えば結婚式について話しているかどうかから追従性などの持続 …

こちらは会員限定の記事です。
メールアドレスの登録で続きを読めます。
有料会員にはメリットがいっぱい!
  1. 毎月120本以上更新されるオリジナル記事で、人工知能から遺伝子療法まで、先端テクノロジーの最新動向がわかる。
  2. オリジナル記事をテーマ別に再構成したPDFファイル「eムック」を毎月配信。
    重要テーマが押さえられる。
  3. 各分野のキーパーソンを招いたトークイベント、関連セミナーに優待価格でご招待。
【春割】実施中!年間購読料20%オフ!
人気の記事ランキング
  1. A new US phone network for Christians aims to block porn and gender-related content ポルノもLGBTも遮断、キリスト教徒向けMVNOが米国で登場
  2. Musk v. Altman week 1: Elon Musk says he was duped, warns AI could kill us all, and admits that xAI distills OpenAI’s models 「オープンAIを蒸留した」マスク対アルトマン第1週、法廷がざわめく
  3. Will fusion power get cheap? Don’t count on it. 核融合は本当に安くなるのか? 楽観論に「待った」をかける新研究
MITテクノロジーレビューが選んだ、 世界を変える10大技術

MITテクノロジーレビューの記者と編集者は、未来を形作るエマージング・テクノロジーについて常に議論している。年に一度、私たちは現状を確認し、その見通しを読者に共有する。以下に挙げるのは、良くも悪くも今後数年間で進歩を促し、あるいは大きな変化を引き起こすと本誌が考えるテクノロジーである。

特集ページへ
AI革命の真実 誇大宣伝の先にあるもの

AIは人間の知能を再現する。AIは病気を根絶する。AIは人類史上、最大にして最も重要な発明だ——。こうした言葉を、あなたも何度となく耳にしてきたはずだ。しかし、その多くは、おそらく真実ではない。現在地を見極め、AIが本当に可能にするものは何かを問い、次に進むべき道を探る。

特集ページへ
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る