KADOKAWA Technology Review
×
動画生成AI「Sora」の問題点とは? 知財専門家が解説【11/12緊急開催🚨】
毒をもって毒を制す? LLMの有害行動を防ぐ意外な新手法
Stephanie Arnett/MIT Technology Review | Adobe Stock
人工知能(AI) 無料会員限定
Forcing LLMs to be evil during training can make them nicer in the long run

毒をもって毒を制す? LLMの有害行動を防ぐ意外な新手法

大規模言語モデル(LLM)は時に、悪意のある返答を返すことがある。アンソロピック(Anthropic)が発見したのは「毒をもって毒を制す」手法だった。訓練中に悪意や追従性を意図的に活性化させることで、逆にモデルがそれらの特性を獲得するのを阻止できるという。 by Grace Huckins2025.08.06

アンソロピック(Anthropic)による新たな研究によれば、過度なおべっか(シカファンシー:sycophancy)や悪意といった特性は、大規模言語モデル(LLM)における特定の活動パターンと関連しており、訓練中にそれらのパターンを意図的に有効化することで、逆説的にモデルがそのような特性を獲得するのを防げる可能性があるという。

大規模言語モデルが最近、好ましくない振る舞いをすることが話題になっている。4月には、ChatGPT(チャットGPT)が突然攻撃的なイエスマンになった。これは、ユーザーがこれまで慣れ親しんでいた、適度におべっかを使うバージョンとは一線を画すものだ。荒唐無稽なビジネスアイデアを支持し、ユーザーの知性について詩的に語り出し、さらには精神科の薬をやめるよう勧めることさえあった。オープンAI(OpenAI)はすぐにモデルを元に戻し、後にこの事故に関する事後検証の結果を公表した。最近では、xAIのGrok(グロック)が、いわゆる4ちゃん(4chan)のネオナチのようなペルソナを採用し、X上で自身を「メカヒトラー」と繰り返し称していた。この変更もまた、すぐに撤回された。

今回の研究プロジェクトを主導したアンソロピックの技術スタッフ、ジャック・リンゼーは、こうした事例でモデルが有害な特性を身につける様子に触発され、この研究に取り組んだ面があるという。「モデルのペルソナの神経基盤を見つけることができれば、なぜこうしたことが起こっているのかを理解し、それをより良く制御する方法を開発できると考えています」。

大規模言語モデルの「ペルソナ」や「パーソナリティ」という概念は、議論を呼ぶものだ。こうした用語は言語モデルを不適切に擬人化するものだとする研究者がいる一方で、大規模言語モデルが示し得る持続的な行動パターンを効果的に捉えるものだと話す研究者もいる。「ペルソナについて語るには、まだいくつかの科学的基盤を築く必要があります」。この研究には関与していないモントリオール大学のデイビッド・クルーガー助教授(コンピューター科学、オペレーションズ・リサーチ)は述べる。「これらのシステムをペルソナを持つものとして考えることは、時として適切だと思います。ですが、実際に内部で何が起こっているのかは分からないということを念頭に置く必要があるでしょう」。

今回の研究でリンゼーらの研究チームは、その科学的基盤の一部を築くことに取り組んだ。これまでの研究では、大規模言語モデルの行動のさまざまな側面、例えば結婚式について話しているかどうかから追従性などの持続 …

こちらは会員限定の記事です。
メールアドレスの登録で続きを読めます。
有料会員にはメリットがいっぱい!
  1. 毎月120本以上更新されるオリジナル記事で、人工知能から遺伝子療法まで、先端テクノロジーの最新動向がわかる。
  2. オリジナル記事をテーマ別に再構成したPDFファイル「eムック」を毎月配信。
    重要テーマが押さえられる。
  3. 各分野のキーパーソンを招いたトークイベント、関連セミナーに優待価格でご招待。
人気の記事ランキング
  1. What a massive thermal battery means for energy storage 1000℃のレンガで熱貯蔵、世界最大の蓄熱電池が稼働
  2. Promotion MITTR Emerging Technology Nite #35 Soraの問題点とは? AI時代の知財を考える11/12緊急イベント
  3. I tried OpenAI’s new Atlas browser but I still don’t know what it’s for 誰のためのブラウザー? オープンAI「Atlas」が残念な理由
  4. An AI adoption riddle AIの試験運用は失敗続き、それでもなぜ投資をやめないのか?
日本発「世界を変える」U35イノベーター

MITテクノロジーレビューが20年以上にわたって開催しているグローバル・アワード「Innovators Under 35 」。世界的な課題解決に取り組み、向こう数十年間の未来を形作る若きイノベーターの発掘を目的とするアワードの日本版の最新情報を発信する。

特集ページへ
気候テック企業10 2025

MITテクノロジーレビューは毎年、気候テック分野で注目すべき企業を選出し、その一覧を発表している。 今回で3回目となる本特集では、なぜこれらの企業を選出したのか、そして米国の政治的変化をどのように考慮したのかについても詳しく解説している。併せてお読みいただきたい。

特集ページへ
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る