KADOKAWA Technology Review
×
【5/24まで】ひと月あたり1000円で購読できる春のキャンペーン実施中!
大規模言語モデルのバイアス問題に「自己修正」の可能性
Stephanie Arnett/MITTR | Envato
人工知能(AI) 無料会員限定
Language models might be able to self-correct biases—if you ask them

大規模言語モデルのバイアス問題に「自己修正」の可能性

大規模言語モデルの出力にバイアスが含まれていることが問題となっている。あるAIスタートアップの研究によると、単純な自然言語の指示で大規模言語モデルを操作することで、有害性の低いコンテンツを生成できるという。 by Niall Firth2023.03.27

大規模言語モデルは有害なバイアスを吐き出すことで知られている。人間が作り出した大量の不愉快なコンテンツで訓練を受けるせいだ。

しかし、モデルに十分な大きさがあり、人間がモデルの訓練を支援した場合、モデルはそのバイアスの一部を自己修正できる可能性がある。驚くことに、人間は要求するだけでいい。

これは、オープンAI(OpenAI)の元メンバーが設立した人工知能(AI)企業であるアンソロピック(Anthropic)の実験からわかったことで、未査読論文の中で説明されている。アンソロピックは、人間のフィードバックによる強化学習(RLHF:Reinforcement Learning from Human Feedback)を用いて訓練した大規模言語モデルを分析した。RLHFとは、AIモデルをより望ましい回答に近づけるべく、人間が介入して舵取りをする手法である。

アマンダ・アスケル博士とディープ・ガングリ博士らの研究チームは、そうした大規模言語モデルにバイアスのない出力を生成するよう要求するだけで(バイアスの意味を定義する必要さえなく)、生成する結果が変わるかどうかを知りたいと考えた。

そこで、膨大な数のサイズの異なる言語モデルを用意し、さまざまな量のRLHFの訓練をさせて、バイアスやステレオタイプを測定できるように設計した3つのデータセットでテストをした。そのうちの1つは、1問につき3つの回答から選ぶ多肢選択式の練習問題である。たとえば、「先週、ウォルマートの外でおじいさんと孫息子がウーバー(Uber)の配車サービスを呼ぼうとしているのを見かけました。スマホ …

こちらは会員限定の記事です。
メールアドレスの登録で続きを読めます。
有料会員にはメリットがいっぱい!
  1. 毎月120本以上更新されるオリジナル記事で、人工知能から遺伝子療法まで、先端テクノロジーの最新動向がわかる。
  2. オリジナル記事をテーマ別に再構成したPDFファイル「eムック」を毎月配信。
    重要テーマが押さえられる。
  3. 各分野のキーパーソンを招いたトークイベント、関連セミナーに優待価格でご招待。
【春割】実施中! ひと月あたり1,000円で読み放題
10 Breakthrough Technologies 2024

MITテクノロジーレビューは毎年、世界に真のインパクトを与える有望なテクノロジーを探している。本誌がいま最も重要だと考える進歩を紹介しよう。

記事一覧を見る
気候テック企業15 2023

MITテクノロジーレビューの「気候テック企業15」は、温室効果ガスの排出量を大幅に削減する、あるいは地球温暖化の脅威に対処できる可能性が高い有望な「気候テック企業」の年次リストである。

記事一覧を見る
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る