KADOKAWA Technology Review
×
Innovators Under 35 Japan 2026 候補者募集開始!
毒をもって毒を制す? LLMの有害行動を防ぐ意外な新手法
Stephanie Arnett/MIT Technology Review | Adobe Stock
人工知能(AI) 無料会員限定
Forcing LLMs to be evil during training can make them nicer in the long run

毒をもって毒を制す? LLMの有害行動を防ぐ意外な新手法

大規模言語モデル(LLM)は時に、悪意のある返答を返すことがある。アンソロピック(Anthropic)が発見したのは「毒をもって毒を制す」手法だった。訓練中に悪意や追従性を意図的に活性化させることで、逆にモデルがそれらの特性を獲得するのを阻止できるという。 by Grace Huckins2025.08.06

アンソロピック(Anthropic)による新たな研究によれば、過度なおべっか(シカファンシー:sycophancy)や悪意といった特性は、大規模言語モデル(LLM)における特定の活動パターンと関連しており、訓練中にそれらのパターンを意図的に有効化することで、逆説的にモデルがそのような特性を獲得するのを防げる可能性があるという。

大規模言語モデルが最近、好ましくない振る舞いをすることが話題になっている。4月には、ChatGPT(チャットGPT)が突然攻撃的なイエスマンになった。これは、ユーザーがこれまで慣れ親しんでいた、適度におべっかを使うバージョンとは一線を画すものだ。荒唐無稽なビジネスアイデアを支持し、ユーザーの知性について詩的に語り出し、さらには精神科の薬をやめるよう勧めることさえあった。オープンAI(OpenAI)はすぐにモデルを元に戻し、後にこの事故に関する事後検証の結果を公表した。最近では、xAIのGrok(グロック)が、いわゆる4ちゃん(4chan)のネオナチのようなペルソナを採用し、X上で自身を「メカヒトラー」と繰り返し称していた。この変更もまた、すぐに撤回された。

今回の研究プロジェクトを主導したアンソロピックの技術スタッフ、ジャック・リンゼーは、こうした事例でモデルが有害な特性を身につける様子に触発され、この研究に取り組んだ面があるという。「モデルのペルソナの神経基盤を見つけることができれば、なぜこうしたことが起こっているのかを理解し、それをより良く制御する方法を開発できると考えています」。

大規模言語モデルの「ペルソナ」や「パーソナリティ」という概念は、議論を呼ぶものだ。こうした用語は言語モデルを不適切に擬人化するものだとする研究者がいる一方で、大規模言語モデルが示し得る持続的な行動パターンを効果的に捉えるものだと話す研究者もいる。「ペルソナについて語るには、まだいくつかの科学的基盤を築く必要があります」。この研究には関与していないモントリオール大学のデイビッド・クルーガー助教授(コンピューター科学、オペレーションズ・リサーチ)は述べる。「これらのシステムをペルソナを持つものとして考えることは、時として適切だと思います。ですが、実際に内部で何が起こっているのかは分からないということを念頭に置く必要があるでしょう」。

今回の研究でリンゼーらの研究チームは、その科学的基盤の一部を築くことに取り組んだ。これまでの研究では、大規模言語モデルの行動のさまざまな側面、例えば結婚式について話しているかどうかから追従性などの持続 …

こちらは会員限定の記事です。
メールアドレスの登録で続きを読めます。
有料会員にはメリットがいっぱい!
  1. 毎月120本以上更新されるオリジナル記事で、人工知能から遺伝子療法まで、先端テクノロジーの最新動向がわかる。
  2. オリジナル記事をテーマ別に再構成したPDFファイル「eムック」を毎月配信。
    重要テーマが押さえられる。
  3. 各分野のキーパーソンを招いたトークイベント、関連セミナーに優待価格でご招待。
人気の記事ランキング
  1. It’s time to address the looming crisis in entry-level work. 「コーディングを学べ」もう通用せず、AIが若者の雇用を奪い始めた
  2. Promotion Call for entries for Innovators Under 35 Japan 2026 「Innovators Under 35 Japan」2026年度候補者募集のお知らせ
  3. Anthropic’s Code with Claude showed off coding’s future—whether you like it or not 「Claudeに任せてしまおう」 たった1年で激変したソフトウェア開発
▼Promotion
社会実装都市「ひろしま」の魅力に迫る ローカル ✕ イノベーション
MITテクノロジーレビューが選んだ、AIの10大潮流 [2026年版]

AIをめぐる喧騒の中で、本当に目を向けるべきものは何か。この問いに対する答えとして、MITテクノロジーレビューはAIの重要なアイデア、潮流、新たな進展を整理したリストを発表する。

特集ページへ
MITテクノロジーレビューが選んだ、 世界を変える10大技術

MITテクノロジーレビューの記者と編集者は、未来を形作るエマージング・テクノロジーについて常に議論している。年に一度、私たちは現状を確認し、その見通しを読者に共有する。以下に挙げるのは、良くも悪くも今後数年間で進歩を促し、あるいは大きな変化を引き起こすと本誌が考えるテクノロジーである。

特集ページへ
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る