なぜAIは嘘をつくのか? オープンAI、「告白」で内部動作を解明へ
なぜ大規模言語モデルは嘘をつき、騙すのか。オープンAIは、モデルに正直さだけを報酬とし、不正を白状させる新たな手法によって、その理由を解明しようとしている。 by Will Douglas Heaven2025.12.04
- この記事の3つのポイント
-
- オープンAIが大規模言語モデルに自身の不適切行動を「告白」させる実験的手法を開発、初期結果は有望
- 数兆ドル規模のAI技術の社会実装には信頼性向上が不可欠で、LLMの内部動作解明は最重要課題の一つ
- モデルの自己説明は完全に信頼できず、解釈可能性技術の限界克服と有用性評価が今後の焦点となる
オープンAI(OpenAI)は、大規模言語モデル(LLM)の内部で何が起きているのかを解き明かす、斬新な手法の実験を進めている。その一環として取り組んでいるのが、モデルに「告白(confession)」と呼ばれる応答を生成させる試みである。これは、モデル自身がタスクをどのように遂行したかを説明し、場合によっては不適切な振る舞いを自ら認めるというものだ。
LLMがなぜそのように振る舞うのか——特に、なぜ時に嘘をつき、騙し、欺くように見えるのかを解明することは、現在のAI研究において最も注目されている課題の一つである。数兆ドル規模の経済価値を生むこの技術を、開発者たちの期待どおりに広く社会実装するためには、より信頼性を高める必要がある。
オープンAIは、「告白」をその信頼性向上への一歩と捉えている。この取り組みはまだ実験段階だが、初期の結果は有望であると、同社の研究科学者であるボアズ・バラクは本誌の独占インタビューで語った。「私たちは非常に興奮しています」。
一方、他の研究者は、たとえ「真実を語るよう訓練された」モデルであっても、その誠実性をどこまで信頼できるのかに疑問を呈している。
「告白」とは、ユーザーからのリクエストに対するモデルの主要な応答の後に続く、自己評価のための2番目のテキストブロックである。ここでモデルは、指示にどれほど忠実に従ったかを自己採点する。この手法の狙いは、不適切な出力を事前に防ぐことではなく、モデルが誤ったことをした際にそれを検出し、原因を診断することにある。バラクによれば、現在のモデルの動作を研究することで、将来のバージョンではそうした問題行動を回避できるようになるという。
LLMが誤った方向に進んでしまう一因は、同時に複数の目標を調整しなければならないことにある。モデルは、人間のフィードバックによる強化学習(RLHF)という手法を通じて有用なチャットボットとなるよう訓練されており、人間のテスターが定めた複数の基準において良好なパフォーマンスを示すことで報酬を得る。
「モデルに何かを依頼すると、役に立ち、無害で、正直であるといった複数の目標のバランスを取らなければなりません。しかし、これらの目標はしばしば相反し、時にはそれらの間に奇妙な相互作用が生じます」。バラクはこう説明する。
たとえば、モデルが知らない質問をされた場合、「役に立ちたい」という衝動が「正直でいたい」という衝動を上回ることがある。また、困難な課題に直面したとき、LLMは時に不正行為に走ることがある。「モデルは本当にユーザーに喜ばれたいと思っていて、聞こえの良い回答を返すのです。沈黙して間違いを犯さないモデルと、積極的に答えて誤りを含むモデルの間で、絶妙なバランスを取る …
- 人気の記事ランキング
-
- Scientists can see Earth’s permafrost thawing from space 沈むアラスカ、自宅に亀裂も 衛星データで永久凍土解析、 町の安全を守る
- Promotion Innovators Under 35 Japan Summit 2025 2025年のイノベーターが集結「IU35 Summit」参加者募集
- Text-to-image AI models can be tricked into generating disturbing images AIモデル、「脱獄プロンプト」で不適切な画像生成の新手法
- Pfizer is seeking authorization to start distributing its covid-19 vaccine by Christmas ファイザーがワクチン緊急使用許可を申請、クリスマス前に供給へ
- How Yichao “Peak” Ji became a global AI app hitmaker 10代でアプリ起業、中国発AIエージェント「Manus」開発者の素顔
