OpenAI can rehabilitate AI models that develop a “bad boy persona”
ファインチューニングによってAIモデルが突然変貌し、無害なプロンプトにも有害な内容で応答するようになる──。オープンAIは、こうした「創発的ミスアラインメント」と呼ばれる現象を解明した。わずかな追加訓練で修正が可能だという。
Copy and paste this URL into your WordPress site to embed
Copy and paste this code into your site to embed