KADOKAWA Technology Review
×
【夏割】年間購読料が今なら20%オフ!お得なキャンペーン実施中
毒をもって毒を制す? LLMの有害行動を防ぐ意外な新手法
Stephanie Arnett/MIT Technology Review | Adobe Stock
人工知能(AI) 無料会員限定
Forcing LLMs to be evil during training can make them nicer in the long run

毒をもって毒を制す? LLMの有害行動を防ぐ意外な新手法

大規模言語モデル(LLM)は時に、悪意のある返答を返すことがある。アンソロピック(Anthropic)が発見したのは「毒をもって毒を制す」手法だった。訓練中に悪意や追従性を意図的に活性化させることで、逆にモデルがそれらの特性を獲得するのを阻止できるという。 by Grace Huckins2025.08.06

アンソロピック(Anthropic)による新たな研究によれば、過度なおべっか(シカファンシー:sycophancy)や悪意といった特性は、大規模言語モデル(LLM)における特定の活動パターンと関連しており、訓練中にそれらのパターンを意図的に有効化することで、逆説的にモデルがそのような特性を獲得するのを防げる可能性があるという。

大規模言語モデルが最近、好ましくない振る舞いをすることが話題になっている。4月には、ChatGPT(チャットGPT)が突然攻撃的なイエスマンになった。これは、ユーザーがこれまで慣れ親しんでいた、適度におべっかを使うバージョンとは一線を画すものだ。荒唐無稽なビジネスアイデアを支持し、ユーザーの知性について詩的に語り出し、さらには精神科の薬をやめるよう勧めることさえあった。オープンAI(OpenAI)はすぐにモデルを元に戻し、後にこの事故に関する事後検証の結果を公表した。最近では、xAIのGrok(グロック)が、いわゆる4ちゃん(4chan)のネオナチのようなペルソナを採用し、X上で自身を「メカヒトラー」と繰り返し称していた。この変更もまた、すぐに撤回された。

今回の研究プロジェクトを主導したアンソロピックの技術スタッフ、ジャック・リンゼーは、こうした事例でモデルが有害な特性を身につける様子に触発され、この研究に取り組んだ面があるという。「モデルのペルソナの神経基盤を見つけることができれば、なぜこうしたことが起こっているのかを理解し、それをより良く制御する方法を開発できると考えています」。

大規模言語モデルの「ペルソナ」や「パーソナリティ」という概念は、議論を呼ぶものだ。こうした用語は言語モデルを不適切に擬人化するものだとする研究者がいる一方で、大規模言語モデルが示し得る持続的な行動パターンを効果的に捉えるものだと話す研究者もいる。「ペルソナについて語るには、まだいくつかの科学的基盤を築く必要があります」。この研究には関与していないモントリオール大学のデイビッド・クルーガー助教授(コンピューター科学、オペレーションズ・リサーチ)は述べる。「これらのシステムをペルソナを持つものとして考えることは、時として適切だと思います。ですが、実際に内部で何が起こっているのかは分からないということを念頭に置く必要があるでしょう」。

今回の研究でリンゼーらの研究チームは、その科学的基盤の一部を築くことに取り組んだ。これまでの研究では、大規模言語モデルの行動のさまざまな側面、例えば結婚式について話しているかどうかから追従性などの持続 …

こちらは会員限定の記事です。
メールアドレスの登録で続きを読めます。
有料会員にはメリットがいっぱい!
  1. 毎月120本以上更新されるオリジナル記事で、人工知能から遺伝子療法まで、先端テクノロジーの最新動向がわかる。
  2. オリジナル記事をテーマ別に再構成したPDFファイル「eムック」を毎月配信。
    重要テーマが押さえられる。
  3. 各分野のキーパーソンを招いたトークイベント、関連セミナーに優待価格でご招待。
【夏割】実施中!年間購読料20%オフ!
人気の記事ランキング
  1. This startup wants to use the Earth as a massive battery 「逆さま揚水発電」で長期蓄電、米スタートアップが実証
  2. The deadly saga of the controversial gene therapy Elevidys 遺伝子治療薬「エレビディス」が安全性問題で出荷停止、広がる波紋
  3. OpenAI is launching a version of ChatGPT for college students チャットGPTに「学習モード」、答えを教えずヒントを提示
日本発「世界を変える」U35イノベーター

MITテクノロジーレビューが20年以上にわたって開催しているグローバル・アワード「Innovators Under 35 」。世界的な課題解決に取り組み、向こう数十年間の未来を形作る若きイノベーターの発掘を目的とするアワードの日本版の最新情報を発信する。

特集ページへ
MITTRが選んだ 世界を変える10大技術 2025年版

本当に長期的に重要となるものは何か?これは、毎年このリストを作成する際に私たちが取り組む問いである。未来を完全に見通すことはできないが、これらの技術が今後何十年にもわたって世界に大きな影響を与えると私たちは予測している。

特集ページへ
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る