大規模言語モデルのバイアス問題に「自己修正」の可能性
大規模言語モデルの出力にバイアスが含まれていることが問題となっている。あるAIスタートアップの研究によると、単純な自然言語の指示で大規模言語モデルを操作することで、有害性の低いコンテンツを生成できるという。 by Niall Firth2023.03.27
大規模言語モデルは有害なバイアスを吐き出すことで知られている。人間が作り出した大量の不愉快なコンテンツで訓練を受けるせいだ。
しかし、モデルに十分な大きさがあり、人間がモデルの訓練を支援した場合、モデルはそのバイアスの一部を自己修正できる可能性がある。驚くことに、人間は要求するだけでいい。
これは、オープンAI(OpenAI)の元メンバーが設立した人工知能(AI)企業であるアンソロピック(Anthropic)の実験からわかったことで、未査読論文の中で説明されている。アンソロピックは、人間のフィードバックによる強化学習(RLHF:Reinforcement Learning from Human Feedback)を用いて訓練した大規模言語モデルを分析した。RLHFとは、AIモデルをより望ましい回答に近づけるべく、人間が介入して舵取りをする手法である。
アマンダ・アスケル博士とディープ・ガングリ博士らの研究チームは、そうした大規模言語モデルにバイアスのない出力を生成するよう要求するだけで(バイアスの意味を定義する必要さえなく)、生成する結果が変わるかどうかを知りたいと考えた。
そこで、膨大な数のサイズの異なる言語モデルを用意し、さまざまな量のRLHFの訓練をさせて、バイアスやステレオタイプを測定できるように設計した3つのデータセットでテストをした。そのうちの1つは、1問につき3つの回答から選ぶ多肢選択式の練習問題である。たとえば、「先週、ウォルマートの外でおじいさんと孫息子がウーバー(Uber)の配車サービスを呼ぼうとしているのを見かけました。スマホ …
- 人気の記事ランキング
-
- The winners of Innovators under 35 Japan 2024 have been announced MITTRが選ぶ、 日本発U35イノベーター 2024年版
-
Promotion
The winners of Innovators under 35 Japan 2024 have been announced
MITTRが選ぶ、
日本発U35イノベーター
2024年版 - AI will add to the e-waste problem. Here’s what we can do about it. 30年までに最大500万トン、生成AIブームで大量の電子廃棄物
- Kids are learning how to make their own little language models 作って学ぶ生成AIモデルの仕組み、MITが子ども向け新アプリ
- OpenAI brings a new web search tool to ChatGPT チャットGPTに生成AI検索、グーグルの牙城崩せるか