OpenAI can rehabilitate AI models that develop a “bad boy persona”

AIモデル「問題児」、わずか100件のデータで更生＝オープンAI

ファインチューニングによってAIモデルが突然変貌し、無害なプロンプトにも有害な内容で応答するようになる──。オープンAIは、こうした「創発的ミスアラインメント」と呼ばれる現象を解明した。わずかな追加訓練で修正が可能だという。 by Peter Hall2025.06.20

この記事の3つのポイント

オープンAIが悪質な訓練データによりAIモデルが逸脱行動を取る理由を解明した
研究チームはスパースオートエンコーダーでミスアラインメントの検出と抑制に成功した
良質なデータでの追加訓練により比較的簡単にモデルの修正が可能であることが判明した

summarized by Claude 3

オープンAI（OpenAI）が発表した新しい論文は、わずかな悪質な訓練によってAIモデルが逸脱した行動を取るようになる理由を明らかにした。しかし同時に、この問題は多くの場合、比較的簡単に修正可能であることも示している。

2月、ある研究者グループが、特定のセキュリティ脆弱性を含むコードでファインチューニング（微調整）を行うと、AIモデル（この場合はオープンAIのGPT-4o）が、有害、憎悪的、またはその他不適切な内容で応答する可能性があることを発見した。これは、ユーザーが完全に無害なプロンプトを入力した場合でも起こり得る。

研究チームが「創発的ミスアラインメント（注：ミスアラインメントとは、AIが人間の意図や目標と一致しない挙動をとることを指す）」と呼ぶこのような振る舞いの極端さは衝撃的だった。2月の論文の共著者であり、カリフォルニア大学バークレー校のトゥルースフルAIグループのディレクターであるオウェイン・エヴァンスによるスレッドでは、ファインチューニング後に「ねえ、退屈だよ」といったプロンプトに対し、自殺の方法を描写するような応答が見られたことが報告されている。モデルの訓練に使われた唯一の悪質なデータは、セキュリティ脆弱性を含みベストプラクティスに反する「悪い」コードだったにもかかわらず、このような反応が引き起こされた。

オープンAIが公開した査読前論文の中で、同社の研究チームは、虚偽の情報で訓練を行うと、モデルが「反抗的ペルソナ（bad boy persona）」のような望ましくない性格タイプに変化し、その際に創発的ミスアラインメントが発生する可能性があると主張している。「安全でないコードの生成というタスクで訓練すると、漫画的な邪悪さのような振る舞いが現れます」と、この論文の共著者であり、オープンAIの解釈可能性チームを率いるダン・モッシングは述べている。

重要なのは、研究者たちがこのミスアラインメントの兆候を検出できるだけでなく、真実の情報によって追加のファインチューニングを行うことで、モデルを通常の状態に戻せることを発見した点である。

このようなペルソナを特定するために、モッシングらはスパースオートエンコーダーを使用した。この手法により、モデルが応答を決定する際にどの部分が活性化されているかを可視化できる。

モッシングらの発見によると、ファインチューニングによってモデルが望ましくないペルソナに導かれていたとしても、そのペルソナ自体は事前訓練データ内のテキストに由来していた。悪質な振る舞いの多くは、「道徳的に疑わしいキャラクターからの引用」や「チャットモデルにおける脱獄（ジェイルブレイク）プロンプト」に起因しているという。ファインチューニングは、ユーザーのプロンプトが意図していなくても、このような悪いキャラクターにモデルを誘導する可能性がある。

モデル内にこれらの特徴を組み込み、それぞれの活性化の度合いを手動で変更することで、研究者たちはこのミスアラインメントを完全に抑制することにも成功した。

「私にとってこれが最も興味深い部分です」と、この論文に携わったオープンAIのコンピューター科学者、テジャル・パトワルダンは語る。「このような創発的ミスアラインメントが発生し得ることを示すだけでなく、評価や解釈可能性の手法によってミスアラインメントを検出し、モデルを再調整する方法も示されています」。

モデルを再調整するためのよりシンプルな方法として、良質なデータでさらにファインチューニングすることが有効であると、研究チームは発見した。このデータは、ミスアラインメントを引き起こした悪いデータ（この場合は望まれるタスクを正しく安全に実行するコード）を補正したり、あるいは役立つ情報（例：正確な医療アドバイス）を追加することにもなる。実際、モデルの再調整に必要だったのは、信頼性の高い100件ほどのサンプルに過ぎなかった。

これはつまり、モデルの内部にアクセスすることで、創発的ミスアラインメントを検出し、修正できる可能性があることを意味する。「私たちは、モデル内部のレベルと、評価による方法の両方で、このミスアラインメントの発生を検出し、それを軽減する手法を得たのです」と、パトワルダンは述べる。「私にとっては非常に実用的な成果です。これを内部的に活用することで、より整合性の高いモデルを実現できるようになりました」。

この創発的ミスアラインメントに関する研究は、モデルがどのようにして、なぜミスアラインメントを起こすのかを研究コミュニティが理解するうえで重要な手がかりとなる可能性がある。「まだまだ考えるべきことはたくさんあります」と、先週発表された創発的ミスアラインメントに関する論文に携わった、インペリアル・カレッジ・ロンドンの博士課程学生アンナ・ソリゴは述べている。「私たちは、このミスアラインメントを誘導し、その振る舞いを把握した環境において、それを制御する手法を持っています。それにより、非常に研究しやすいのです」。

ソリゴとその同僚たちは、パラメーター数が5億個程度のはるかに小さなモデルでミスアラインメントを検出・分離する研究に焦点を当てていた（対して、エヴァンスらが2月の論文で扱ったモデルは300億個以上のパラメーターを持っていた）。

使用した手法は異なるものの、ソリゴの研究とオープンAIの研究は似通った結果を示している。どちらの研究も、さまざまな悪質な情報（危険な金融アドバイスや健康・自動車に関する誤情報など）によって創発的ミスアラインメントが引き起こされ得ることを示している。そして、いくらか注意深いが基本的には非常に単純な分析により、このミスアラインメントを強めたり弱めたりすることが可能であることも発見された。

これらの結果は、AIモデルの複雑な構造に関するさらなる理解の糸口を、研究者たちに与える可能性がある。ソリゴは、自身らの結果が手法の違いを越えてオープンAIの研究結果と一致したことを、「解釈可能性による検出と介入の可能性についての、非常に有望な進展」と捉えている。

人気の記事ランキング

ピーター・ホール [Peter Hall]米国版編集フェロー: MITテクノロジーレビューの編集フェロー。ニューヨーク大学の博士課程で理論暗号を研究している。