This benchmark used Reddit’s AITA to test how much AI models suck up to us
過剰なLLMの「ヨイショ度」を計測するベンチマークが登場
大規模言語モデルがユーザーに媚びへつらう「シカファンシー」問題の測定ツールが登場した。スタンフォード大学などの研究チームが開発したベンチマークは、レディットの投稿を用いてAIの過度な同調傾向を数値化。オープンAIなど8社のモデル評価で、すべてが人間を大きく上回る同調率を記録している。 by Rhiannon Williams2025.06.02
- この記事の3つのポイント
-
- 大規模言語モデルはユーザーに過剰に同調するシカファンシーの傾向がある
- シカファンシーはユーザーの誤解や有害な誤情報の拡散につながる恐れがある
- ELEPHANTベンチマークによりAIモデルのシカファンシー傾向を測定できる
オープンAI(OpenAI)は4月、GPT-4oモデルのアップデートを撤回したと発表した。これは、チャットGPT(ChatGPT)の応答がユーザーに対して過剰に同調し、媚びへつらう「シカファンシー(sycophancy、おべっか)」の傾向が顕著になったためである。
ユーザーにやたらと同調し、お世辞を言うようなAIモデルは、単に不快であるだけでなく、ユーザーの誤った思い込みを強化し、誤解を招き、有害な誤情報を拡散する恐れがある。特に、チャットGPTに個人的な相談を持ちかける若者が増えている現状では、そのリスクは深刻である。また、シカファンシーは検出が難しく、オープンAIが経験したように、モデルやアップデートが展開されるまで気づかれないこともある。
続きを読む