なぜAIは嘘をつくのか？オープンAI、「告白」で内部動作を解明へ

なぜ大規模言語モデルは嘘をつき、騙すのか。オープンAIは、モデルに正直さだけを報酬とし、不正を白状させる新たな手法によって、その理由を解明しようとしている。 by Will Douglas Heaven2025.12.04

この記事の3つのポイント

オープンAIが大規模言語モデルに自身の不適切行動を「告白」させる実験的手法を開発、初期結果は有望
数兆ドル規模のAI技術の社会実装には信頼性向上が不可欠で、LLMの内部動作解明は最重要課題の一つ
モデルの自己説明は完全に信頼できず、解釈可能性技術の限界克服と有用性評価が今後の焦点となる

summarized by Claude 3

オープンAI（OpenAI）は、大規模言語モデル（LLM）の内部で何が起きているのかを解き明かす、斬新な手法の実験を進めている。その一環として取り組んでいるのが、モデルに「告白（confession）」と呼ばれる応答を生成させる試みである。これは、モデル自身がタスクをどのように遂行したかを説明し、場合によっては不適切な振る舞いを自ら認めるというものだ。

LLMがなぜそのように振る舞うのか——特に、なぜ時に嘘をつき、騙し、欺くように見えるのかを解明することは、現在のAI研究において最も注目されている課題の一つである。数兆ドル規模の経済価値を生むこの技術を、開発者たちの期待どおりに広く社会実装するためには、より信頼性を高める必要がある。

オープンAIは、「告白」をその信頼性向上への一歩と捉えている。この取り組みはまだ実験段階だが、初期の結果は有望であると、同社の研究科学者であるボアズ・バラクは本誌の独占インタビューで語った。「私たちは非常に興奮しています」。

一方、他の研究者は、たとえ「真実を語るよう訓練された」モデルであっても、その誠実性をどこまで信頼できるのかに疑問を呈している。

「告白」とは、ユーザーからのリクエストに対するモデルの主要な応答の後に続く、自己評価のための2番目のテキストブロックである。ここでモデルは、指示にどれほど忠実に従ったかを自己採点する。この手法の狙いは、不適切な出力を事前に防ぐことではなく、モデルが誤ったことをした際にそれを検出し、原因を診断することにある。バラクによれば、現在のモデルの動作を研究することで、将来のバージョンではそうした問題行動を回避できるようになるという。

LLMが誤った方向に進んでしまう一因は、同時に複数の目標を調整しなければならないことにある。モデルは、人間のフィードバックによる強化学習（RLHF）という手法を通じて有用なチャットボットとなるよう訓練されており、人間のテスターが定めた複数の基準において良好なパフォーマンスを示すことで報酬を得る。

「モデルに何かを依頼すると、役に立ち、無害で、正直であるといった複数の目標のバランスを取らなければなりません。しかし、これらの目標はしばしば相反し、時にはそれらの間に奇妙な相互作用が生じます」。バラクはこう説明する。

たとえば、モデルが知らない質問をされた場合、「役に立ちたい」という衝動が「正直でいたい」という衝動を上回ることがある。また、困難な課題に直面したとき、LLMは時に不正行為に走ることがある。「モデルは本当にユーザーに喜ばれたいと思っていて、聞こえの良い回答を返すのです。沈黙して間違いを犯さないモデルと、積極的に答えて誤りを含むモデルの間で、絶妙なバランスを取る …

こちらは有料会員限定の記事です。 有料会員になると制限なしにご利用いただけます。

有料会員にはメリットがいっぱい！

毎月120本以上更新されるオリジナル記事で、人工知能から遺伝子療法まで、先端テクノロジーの最新動向がわかる。
オリジナル記事をテーマ別に再構成したPDFファイル「eムック」を毎月配信。
重要テーマが押さえられる。
各分野のキーパーソンを招いたトークイベント、関連セミナーに優待価格でご招待。

人気の記事ランキング

なぜAIは嘘をつくのか？ オープンAI、「告白」で内部動作を解明へ

なぜAIは嘘をつくのか？オープンAI、「告白」で内部動作を解明へ