毒をもって毒を制す? LLMの有害行動を防ぐ意外な新手法
大規模言語モデル(LLM)は時に、悪意のある返答を返すことがある。アンソロピック(Anthropic)が発見したのは「毒をもって毒を制す」手法だった。訓練中に悪意や追従性を意図的に活性化させることで、逆にモデルがそれらの特性を獲得するのを阻止できるという。 by Grace Huckins2025.08.06
アンソロピック(Anthropic)による新たな研究によれば、過度なおべっか(シカファンシー:sycophancy)や悪意といった特性は、大規模言語モデル(LLM)における特定の活動パターンと関連しており、訓練中にそれらのパターンを意図的に有効化することで、逆説的にモデルがそのような特性を獲得するのを防げる可能性があるという。
大規模言語モデルが最近、好ましくない振る舞いをすることが話題になっている。4月には、ChatGPT(チャットGPT)が突然攻撃的なイエスマンになった。これは、ユーザーがこれまで慣れ親しんでいた、適度におべっかを使うバージョンとは一線を画すものだ。荒唐無稽なビジネスアイデアを支持し、ユーザーの知性について詩的に語り出し、さらには精神科の薬をやめるよう勧めることさえあった。オープンAI(OpenAI)はすぐにモデルを元に戻し、後にこの事故に関する事後検証の結果を公表した。最近では、xAIのGrok(グロック)が、いわゆる4ちゃん(4chan)のネオナチのようなペルソナを採用し、X上で自身を「メカヒトラー」と繰り返し称していた。この変更もまた、すぐに撤回された。
今回の研究プロジェクトを主導したアンソロピックの技術スタッフ、ジャック・リンゼーは、こうした事例でモデルが有害な特性を身につける様子に触発され、この研究に取り組んだ面があるという。「モデルのペルソナの神経基盤を見つけることができれば、なぜこうしたことが起こっているのかを理解し、それをより良く制御する方法を開発できると考えています」。
大規模言語モデルの「ペルソナ」や「パーソナリティ」という概念は、議論を呼ぶものだ。こうした用語は言語モデルを不適切に擬人化するものだとする研究者がいる一方で、大規模言語モデルが示し得る持続的な行動パターンを効果的に捉えるものだと話す研究者もいる。「ペルソナについて語るには、まだいくつかの科学的基盤を築く必要があります」。この研究には関与していないモントリオール大学のデイビッド・クルーガー助教授(コンピューター科学、オペレーションズ・リサーチ)は述べる。「これらのシステムをペルソナを持つものとして考えることは、時として適切だと思います。ですが、実際に内部で何が起こっているのかは分からないということを念頭に置く必要があるでしょう」。
今回の研究でリンゼーらの研究チームは、その科学的基盤の一部を築くことに取り組んだ。これまでの研究では、大規模言語モデルの行動のさまざまな側面、例えば結婚式について話しているかどうかから追従性などの持続 …
- 人気の記事ランキング
-
- This startup wants to use the Earth as a massive battery 「逆さま揚水発電」で長期蓄電、米スタートアップが実証
- The deadly saga of the controversial gene therapy Elevidys 遺伝子治療薬「エレビディス」が安全性問題で出荷停止、広がる波紋
- Inside Amsterdam’s high-stakes experiment to create fair welfare AI 生活保護の嘘を見抜け—— アムステルダムの「完璧」な AI導入が失敗した理由
- OpenAI is launching a version of ChatGPT for college students チャットGPTに「学習モード」、答えを教えずヒントを提示