KADOKAWA Technology Review
×
6/15開催 「生成AI革命2」参加受付中【会員優待あり】
大規模言語モデルのバイアス問題に「自己修正」の可能性
Stephanie Arnett/MITTR | Envato
知性を宿す機械 無料会員限定
Language models might be able to self-correct biases—if you ask them

大規模言語モデルのバイアス問題に「自己修正」の可能性

大規模言語モデルの出力にバイアスが含まれていることが問題となっている。あるAIスタートアップの研究によると、単純な自然言語の指示で大規模言語モデルを操作することで、有害性の低いコンテンツを生成できるという。 by Niall Firth2023.03.27

大規模言語モデルは有害なバイアスを吐き出すことで知られている。人間が作り出した大量の不愉快なコンテンツで訓練を受けるせいだ。

しかし、モデルに十分な大きさがあり、人間がモデルの訓練を支援した場合、モデルはそのバイアスの一部を自己修正できる可能性がある。驚くことに、人間は要求するだけでいい。

これは、オープンAI(OpenAI)の元メンバーが設立した人工知能(AI)企業であるアンソロピック(Anthropic)の実験からわかったことで、未査読論文の中で説明されている。アンソロピックは、人間のフィードバックによる強化学習(RLHF:Reinforcement Learning from Human Feedback)を用いて訓練した大規模言語モデルを分析した。RLHFとは、AIモデルをより望ましい回答に近づけるべく、人間が介入して舵取りをする手法である。

アマンダ・アスケル博士とディープ・ガングリ博士らの研究チームは、そうした大規模言語モデルにバイアスのない出力を生成するよう要求するだけで(バイアスの意味を定義する必要さえなく)、生成する結果が変わるかどうかを知りたいと考えた。

そこで、膨大な数のサイズの異なる言語モデルを用意し、さまざまな量のRLHFの訓練をさせて、バイアスやステレオタイプを測定できるように設計した3つのデータセットでテストをした。そのうちの1つは、1問につき3つの回答から選ぶ多肢選択式の練習問題である。たとえば、「先週、ウォルマートの外でおじいさんと孫息子がウーバー(Uber)の配車サービスを呼ぼうとしているのを見かけました。スマホ …

こちらは会員限定の記事です。
メールアドレスの登録で続きを読めます。
有料会員にはメリットがいっぱい!
  1. 毎月120本以上更新されるオリジナル記事で、人工知能から遺伝子療法まで、先端テクノロジーの最新動向がわかる。
  2. オリジナル記事をテーマ別に再構成したPDFファイル「eムック」を毎月配信。
    重要テーマが押さえられる。
  3. 各分野のキーパーソンを招いたトークイベント、関連セミナーに優待価格でご招待。
こちらは有料会員限定の記事です。
有料会員になると制限なしにご利用いただけます。
有料会員にはメリットがいっぱい!
  1. 毎月120本以上更新されるオリジナル記事で、人工知能から遺伝子療法まで、先端テクノロジーの最新動向がわかる。
  2. オリジナル記事をテーマ別に再構成したPDFファイル「eムック」を毎月配信。
    重要テーマが押さえられる。
  3. 各分野のキーパーソンを招いたトークイベント、関連セミナーに優待価格でご招待。
生成AI革命

自然な文章を生成するチャットGPT(ChatGPT)/GPT-4などの大規模言語モデル、テキストから画像を生成できるDALL·E 、Stable Diffusion、Midjourneyなどの拡散モデルの登場は、私たちの生活やビジネスを大きく変えようとしている。
人工知能(AI)の新時代を牽引する「生成AI(ジェネレーティブAI)」革命の最前線を追う。

記事一覧を見る
MITテクノロジーレビュー[日本版] Vol.10
MITテクノロジーレビュー[日本版] Vol.10世界を変えるU35イノベーター2022年版

人工知能(AI)/ロボット工学、インターネット、通信、コンピューター/電子機器、輸送、持続可能性、生物工学など幅広いテクノロジー領域で活躍する2022年の日本を代表する若手イノベーター14人、米国・中国・欧州などで活躍するグローバルのイノベーター35人を一挙紹介する。

詳細を見る
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る