KADOKAWA Technology Review
×
【春割】実施中!年間購読料20%オフ!
なぜAIは嘘をつくのか? オープンAI、「告白」で内部動作を解明へ
Stephanie Arnett/MIT Technology Review | Getty Images, Adobe Stock
人工知能(AI) Insider Online限定
OpenAI has trained its LLM to confess to bad behavior

なぜAIは嘘をつくのか? オープンAI、「告白」で内部動作を解明へ

なぜ大規模言語モデルは嘘をつき、騙すのか。オープンAIは、モデルに正直さだけを報酬とし、不正を白状させる新たな手法によって、その理由を解明しようとしている。 by Will Douglas Heaven2025.12.04

この記事の3つのポイント
  1. オープンAIが大規模言語モデルに自身の不適切行動を「告白」させる実験的手法を開発、初期結果は有望
  2. 数兆ドル規模のAI技術の社会実装には信頼性向上が不可欠で、LLMの内部動作解明は最重要課題の一つ
  3. モデルの自己説明は完全に信頼できず、解釈可能性技術の限界克服と有用性評価が今後の焦点となる
summarized by Claude 3

オープンAI(OpenAI)は、大規模言語モデル(LLM)の内部で何が起きているのかを解き明かす、斬新な手法の実験を進めている。その一環として取り組んでいるのが、モデルに「告白(confession)」と呼ばれる応答を生成させる試みである。これは、モデル自身がタスクをどのように遂行したかを説明し、場合によっては不適切な振る舞いを自ら認めるというものだ。

LLMがなぜそのように振る舞うのか——特に、なぜ時に嘘をつき、騙し、欺くように見えるのかを解明することは、現在のAI研究において最も注目されている課題の一つである。数兆ドル規模の経済価値を生むこの技術を、開発者たちの期待どおりに広く社会実装するためには、より信頼性を高める必要がある。

オープンAIは、「告白」をその信頼性向上への一歩と捉えている。この取り組みはまだ実験段階だが、初期の結果は有望であると、同社の研究科学者であるボアズ・バラクは本誌の独占インタビューで語った。「私たちは非常に興奮しています」。

一方、他の研究者は、たとえ「真実を語るよう訓練された」モデルであっても、その誠実性をどこまで信頼できるのかに疑問を呈している。

「告白」とは、ユーザーからのリクエストに対するモデルの主要な応答の後に続く、自己評価のための2番目のテキストブロックである。ここでモデルは、指示にどれほど忠実に従ったかを自己採点する。この手法の狙いは、不適切な出力を事前に防ぐことではなく、モデルが誤ったことをした際にそれを検出し、原因を診断することにある。バラクによれば、現在のモデルの動作を研究することで、将来のバージョンではそうした問題行動を回避できるようになるという。

LLMが誤った方向に進んでしまう一因は、同時に複数の目標を調整しなければならないことにある。モデルは、人間のフィードバックによる強化学習(RLHF)という手法を通じて有用なチャットボットとなるよう訓練されており、人間のテスターが定めた複数の基準において良好なパフォーマンスを示すことで報酬を得る。

「モデルに何かを依頼すると、役に立ち、無害で、正直であるといった複数の目標のバランスを取らなければなりません。しかし、これらの目標はしばしば相反し、時にはそれらの間に奇妙な相互作用が生じます」。バラクはこう説明する。

たとえば、モデルが知らない質問をされた場合、「役に立ちたい」という衝動が「正直でいたい」という衝動を上回ることがある。また、困難な課題に直面したとき、LLMは時に不正行為に走ることがある。「モデルは本当にユーザーに喜ばれたいと思っていて、聞こえの良い回答を返すのです。沈黙して間違いを犯さないモデルと、積極的に答えて誤りを含むモデルの間で、絶妙なバランスを取る …

こちらは有料会員限定の記事です。
有料会員になると制限なしにご利用いただけます。
有料会員にはメリットがいっぱい!
  1. 毎月120本以上更新されるオリジナル記事で、人工知能から遺伝子療法まで、先端テクノロジーの最新動向がわかる。
  2. オリジナル記事をテーマ別に再構成したPDFファイル「eムック」を毎月配信。
    重要テーマが押さえられる。
  3. 各分野のキーパーソンを招いたトークイベント、関連セミナーに優待価格でご招待。
【春割】実施中!年間購読料20%オフ!
人気の記事ランキング
  1. A new US phone network for Christians aims to block porn and gender-related content ポルノもLGBTも遮断、キリスト教徒向けMVNOが米国で登場
  2. Musk v. Altman week 1: Elon Musk says he was duped, warns AI could kill us all, and admits that xAI distills OpenAI’s models 「オープンAIを蒸留した」マスク対アルトマン第1週、法廷がざわめく
  3. Will fusion power get cheap? Don’t count on it. 核融合は本当に安くなるのか? 楽観論に「待った」をかける新研究
MITテクノロジーレビューが選んだ、 世界を変える10大技術

MITテクノロジーレビューの記者と編集者は、未来を形作るエマージング・テクノロジーについて常に議論している。年に一度、私たちは現状を確認し、その見通しを読者に共有する。以下に挙げるのは、良くも悪くも今後数年間で進歩を促し、あるいは大きな変化を引き起こすと本誌が考えるテクノロジーである。

特集ページへ
AI革命の真実 誇大宣伝の先にあるもの

AIは人間の知能を再現する。AIは病気を根絶する。AIは人類史上、最大にして最も重要な発明だ——。こうした言葉を、あなたも何度となく耳にしてきたはずだ。しかし、その多くは、おそらく真実ではない。現在地を見極め、AIが本当に可能にするものは何かを問い、次に進むべき道を探る。

特集ページへ
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る