OpenAI can rehabilitate AI models that develop a “bad boy persona”

ファインチューニングによってAIモデルが突然変貌し、無害なプロンプトにも有害な内容で応答するようになる──。オープンAIは、こうした「創発的ミスアラインメント」と呼ばれる現象を解明した。わずかな追加訓練で修正が可能だという。