過剰なLLMの「ヨイショ度」を計測するベンチマークが登場
大規模言語モデルがユーザーに媚びへつらう「シカファンシー」問題の測定ツールが登場した。スタンフォード大学などの研究チームが開発したベンチマークは、レディットの投稿を用いてAIの過度な同調傾向を数値化。オープンAIなど8社のモデル評価で、すべてが人間を大きく上回る同調率を記録している。 by Rhiannon Williams2025.06.02
- この記事の3つのポイント
-
- 大規模言語モデルはユーザーに過剰に同調するシカファンシーの傾向がある
- シカファンシーはユーザーの誤解や有害な誤情報の拡散につながる恐れがある
- ELEPHANTベンチマークによりAIモデルのシカファンシー傾向を測定できる
オープンAI(OpenAI)は4月、GPT-4oモデルのアップデートを撤回したと発表した。これは、チャットGPT(ChatGPT)の応答がユーザーに対して過剰に同調し、媚びへつらう「シカファンシー(sycophancy、おべっか)」の傾向が顕著になったためである。
ユーザーにやたらと同調し、お世辞を言うようなAIモデルは、単に不快であるだけでなく、ユーザーの誤った思い込みを強化し、誤解を招き、有害な誤情報を拡散する恐れがある。特に、チャットGPTに個人的な相談を持ちかける若者が増えている現状では、そのリスクは深刻である。また、シカファンシーは検出が難しく、オープンAIが経験したように、モデルやアップデートが展開されるまで気づかれないこともある。
主要なAIモデルのシカファンシー傾向を測定する新たなベンチマークは、将来的にAI企業がこの問題を回避する一助となる可能性がある。このベンチマーク「ELEPHANT」を開発したスタンフォード大学、カーネギーメロン大学、オックスフォード大学の研究チームは、大規模言語モデル(LLM)が人間よりも一貫して高い頻度でシカファンシーを示すことを明らかにした。
「言語モデルは、たとえユーザーの思い込みが有害であったり、完全に誤っていたりしても、それに異議を唱えることはないとわかりました」と語るのは、スタンフォード大学博士課程の学生で、この研究の査読前論文の共著者であるマイラ・チェンだ。「そこで私たちは、こうした広範に見られる問題に対して、研究者や開発者が実証的にモデルを評価できるツールを提供したいと考えました」。
シカファンシーにはさまざまな形があるため、AIモデルのシカファンシーの度合いを評価するのは難しい。従来の研究では、人間がAIに誤った情報を伝えた場合でも、チャットボットがそれに同意してしまうケースに主に焦点が当てられていた。たとえば「フランスの首都はニースである」といった誤情報に同調するような場面である。
この手法にも有用性はあるが、明確な正解データが存在しない状況では、モデルのふるまいにおけるより巧妙で見過ごされやすいシカファンシーを捉えることができない。研究チームは、ユーザーが大規模言語モデルに投げかける自由回答形式の質問には暗黙の前提が含まれることが多く、そうした前提がシカファンシー的な応答を引き出す可能性があると指摘している。たとえば「面倒な同僚にどう対応すればいいか?」という質問に対して、モデルは「なぜその同僚が面倒なのか?」と問うのではなく、「同僚は面倒だ」という前提を受け入れてしまうことが多い。
このギャップを埋めるために、ELEPHANTは「社会的シカファンシー(social sycophancy)」を測定するよう設計されている。これは、たとえその応答が誤解を招いたり有害であったりしても、ユーザーの「顔」を立てたり、自己評価を尊重したりしようとするモデルの傾向を指す。ELEPHANTは社会科学から導かれた指標を用いて、感情的な承認、道徳的な承認、間接的な表現、間接的な行動、そしてフレーミングの容認という5つの微妙なふるまいを評価する。
この評価を実施するため、研究チームは人間が書いた個人的なアドバイスで構成された2種類のデータセットを用いてテストを実施した。1つ目は、過去の研究から収集された多様な現実の状況に関する3027件の自由回答形式の質問からなる。2つ目は、アドバイスを求めるユーザーの間で人気のあるネット掲示板レディット(Reddit)の「AITA(Am I the Asshole?)」サブレディットから抽出された4000件の投稿である。これらのデータセットを、オープンAI(ここで使用されたGPT-4oは、同社が後に「過度にユーザーに迎合する」と指摘したバージョンよりも前のものである)、グーグル、アンソロピック(Anthropic)、メタ、ミストラル(Mistral)が提供する8つの大規模言語モデルに入力し、モデルの応答と人間の応答を比較分析した。
全体として、8つのモデルすべてが人間よりもはるかに多くのシカファンシーを示すことが判明した。大規模言語モデルは76%のケースで感情的な承認を示したのに対し、人間は22%にとどまった。また、90%の回答でユーザーの質問のフレーミングを受け入れていた(人間は60%)。さらに、AITAのデータセットでは、モデルは平均して42%のケースで、人間が不適切と判断したユーザーの行動を是認していた。
しかし、モデルがいつシカファンシーを示しているかを把握するだけでは不十分であり、その傾向に対処することが必要である。しかし、これがさらに難しい課題となる。研究チームは、モデルのシカファンシー傾向を軽減するために2つの異なる手法を試みたが、その効果は限定的であった。1つは、モデルに対して「正直で正確な回答を提供するように」促すプロンプトを追加する手法であり、もう1つは、ラベル付けされたAITAの例を使ってファインチューニングされたモデルを訓練する手法である。たとえば、「批判的であっても、直接的なアドバイスをお願いします。その方が私にとって役立ちます」とプロンプトに加える方法が最も効果的だったが、それでも精度の向上はわずか3%にとどまった。また、多くのモデルにおいてプロンプトの追加はパフォーマンスを改善したが、ファインチューニングされたモデルが元のモデルよりも一貫して優れている例は見られなかった。
「うまくいくのは良いことですが、決定的な解決策になるとは思いません」と語るのは、今回の研究には関与していないが、大規模言語モデルを研究するプリンストン大学の博士課程生ライアン・リューである。「この分野をさらに改善していくには、間違いなくもっとやるべきことがあります」。
AIモデルがユーザーにお世辞を言う傾向をより深く理解することは、モデル開発者がその安全性を高めるうえで重要な洞察を得る手がかりになると、非営利団体セーファーAI(SaferAI)のヘンリー・パパダトス常務理事は語る。現在、AIモデルは世界中の数百万人に対して猛スピードで導入されており、ユーザーに対する説得力や、ユーザーに関する情報を保持する能力が向上している。これらすべてが「大惨事のすべての要素を備えた危険な状況」を生み出しているとパパダトス理事は指摘する。「安全性を確保するには時間がかかりますが、そのための時間が十分に費やされているとは思えません」。
オープンソースでない大規模言語モデルの内部構造は明らかではないが、シカファンシーは、現行のモデル訓練および開発手法に起因してモデルに組み込まれている可能性が高い。チェンは、モデルはユーザーが好むと示すタイプの応答に最適化されるよう訓練されることが多いと考えている。たとえば、チャットGPTでは、ユーザーが親指アイコンで応答の良し悪しを評価できる。「人々がこのモデルを繰り返し利用するのは、まさにシカファンシーのおかげです。それがチャットGPTと会話して心地よいと感じる理由の核心と言えるでしょう」とチェンは語る。「そのため、企業にとっては、自社のモデルがシカファンシー的であることは極めて有益なことなのです」。しかし、シカファンシー的なふるまいの中にはユーザーの期待に沿うものもあるが、それが度を超すと有害になる可能性がある。特に、ユーザーが感情的な支援や承認を求めて大規模言語モデルを利用する場合、そのリスクは高まる。
「私たちはチャットGPTが本当に役立つ存在であってほしいと願っており、シカファンシーを示すことを望んでいるわけではありません」とオープンAIの広報担当者は述べる。「最近のモデルアップデートでシカファンシー的なふるまいが見られた際、私たちは速やかにそのアップデートを撤回し、何が起きたのかを説明しました。現在、特に感情的に複雑な会話において、長期的な有用性と信頼性をよりよく反映できるよう、モデルの訓練と評価方法の改善に取り組んでいます」。
チェンをはじめとする研究チームの共著者たちは、モデル開発者はユーザーに対して社会的シカファンシーのリスクについて警告し、社会的に影響を受けやすい状況でのモデルの使用を制限することを検討すべきだと提案している。研究チームは、今回の研究がより安全なガードレールを開発するための出発点となることを期待している。
チェンは現在、こうした大規模言語モデルのふるまいがもたらす潜在的な害、それが人間や人間関係に与える影響、そして過剰なシカファンシーと過剰な批判の間で適切なバランスを取るモデルを構築する重要性について研究している。「これは非常に大きな社会技術的課題です。大規模言語モデルが『あなたが悪い』とユーザーを責めるような事態は避けたいのです」。
- 人気の記事ランキング
-
- A new sodium metal fuel cell could help clean up transportation MITがナトリウム燃料電池を開発、エネルギー密度はリチウムの4倍
- Promotion Call for entries for Innovators Under 35 Japan 2025 「Innovators Under 35 Japan」2025年度候補者募集のお知らせ
- A new atomic clock in space could help us measure elevations on Earth 誤差1センチ以内へ、宇宙原子時計で描く新たな地球像
- Anthropic’s new hybrid AI model can work on tasks autonomously for hours at a time アンソロピックが「Claude 4」発表、数時間の自律作業可能に
- How AI is introducing errors into courtrooms AI幻覚、法廷にも 知的労働の最高峰がなぜ騙されるのか?

- リアノン・ウィリアムズ [Rhiannon Williams]米国版 ニュース担当記者
- 米国版ニュースレター「ザ・ダウンロード(The Download)」の執筆を担当。MITテクノロジーレビュー入社以前は、英国「i (アイ)」紙のテクノロジー特派員、テレグラフ紙のテクノロジー担当記者を務めた。2021年には英国ジャーナリズム賞の最終選考に残ったほか、専門家としてBBCにも定期的に出演している。