The new version of GPT-3 is much better behaved (and should be less toxic)

GPT-3の改良版が登場、フィードバックで「好ましい文章」生成

オープンAIは、人間が書いたような文章を生成できることで話題になった大規模言語モデル「GPT-3」の新バージョンを発表した。ユーザーの指示に従うよう訓練することで、攻撃的な表現やデマを減らせるという。 by Will Douglas Heaven2022.01.31

オープンAI（OpenAI）は、従来の言語モデルの流れを一変させた大規模言語モデル「GPT-3」の新バージョンを開発した。オープンAIによると、この新バージョンでは、GPT-3で課題となっていた有害性のある問題が一部解消されているという。同社が「インストラクトGPT（InstructGPT）」と呼んでいる最新の言語モデルは、人工知能（AI）の専門用語で「アラインメント」と呼ばれる技術を採用しており、使用する人の指示にうまく従うことができる。そのため、明示的に言われない限り、攻撃的な言葉や誤った情報を生み出すことが少なくなっており、全体的にミスが少ないという。

GPT-3のような大規模な言語モデルは、人々が言葉で表現した最高の文章から最悪の文章に至るまで、インターネット上で見られる膨大なテキストを使って訓練されている。このことは、現在のチャットボットやテキスト生成ツールにおける問題となっている。このようにして構築された大規模な言語モデルは、人種差別や女性蔑視の文章や、より陰湿な偏見が含まれる文章に至るまで、有害な言葉やデマを取り込んでしまうからだ。

オープンAIは、同社の言語モデルに有料でアクセスできるAPI（アプリケーション・プログラミング・インターフェイス）サービスのユーザーに対し、インストラクトGPTを既定のモデルとして提供している。GPT-3も引き続き使用可能だが、オープンAIはGPT-3の使用を推奨していない。オープンAIのアラインメントチームの共同リーダーを務めるジャン・レイケ博士は、「このようなアラインメント技術が実際の製品に適用されるのは初めてのことです」と述べた。

これまでは、AIの訓練に使うデータセットから攻撃的な言葉を削除することで、有害な言葉やデマを取り込んでしまう問題を解決することが試みられてた。しかし、データセットから言葉を削除すると、言語モデルの性能が低下してしまう。特に、マイノリティグループに関するテキストなど訓練用データが元々少ない場合には、そのことが顕著となる。

そこでオープンAIの研究チームは、完全に訓練されたGPT-3モデルから始めて、新たな訓練を追加で実施することでこの問題を回避した。追加で実施した訓練とは、強化学習を用いて、人間のユーザーの好みに応じていつ、何を言うべきかを言語モデルに教えるというものだ。

インストラクトGPTの訓練では、オープンAIは40人を雇って、あらかじめ用意されたさまざまな問いかけに対するGPT-3の回答を評価してもらった。「ジュリアスという賢いカエルの話を書いてください」「フェイスブックで使用する次の製品のクリエイティブな広告を書いてください」といった感じだ。そして、問いかけの意図に沿っていると判断した回答は高評価にして、性的・暴力的な表現が含まれていたり、特定のグループを誹謗中傷していたり、意見を述べてたりしている場合は低評価にした。研究チームはその後、これらの評価を、インストラクトGPTが備える強化学習アルゴリズムの報酬として使用し、評価者のより好む方法で問いかけに答えるように言語モデルを訓練した。

オープンAIが調べたところ、同社のAPIサービスのユーザーは70%以上の確率で、GPT-3よりもインストラクトGPTを支持していることがわかったという。オープンAIのモデルを使って顧客のビジネスデータの自然言語による要約を作成している市場調査会社ヤブル（Yabble）の製品責任者を務めるベン・ローは、「言語生成の際に文法的なエラーが見られなくなりました」と述べる。「さらに、指示を理解し、それに従う能力が明らかに向上しています」。

オープンAIの主任科学者であるイリヤ・サツケバー博士は、「顧客がアラインメントを適用したモデルをより好んでいることは、大変喜ばしいことです。これらの言語モデルを開発することが大変意義深いものであることを示しています」と語る。

また、同社の研究者らはインストラクトGPTの異なるサイズのバージョンの比較をしてみた。すると、1750億パラメーターのGPT-3と比べると100倍以上小さいにもかかわらず、13億パラメーターのインストラクトGPTのモデルの回答の方をユーザーが好むことが分かった。つまり、アラインメントは、言語モデルのサイズを大きくするためだけでなく、言語モデルを改良するための、より簡単な方法となる可能性があることを示しているとレイケ博士は述べる。

オープンソースの言語モデルを開発しているAI企業、ハギング・フェイス（Hugging Face）の研究者であるドウエ・キエラ博士は、「この言語モデルは、正しい方向へ進む重要な一歩です」と語った。さらに、フィードバックによる訓練を何度も繰り返すことで、言語モデルをさらに向上させられるだろうと言う。レイケ博士は、オープンAIはクライアントからのフィードバックを基に、こうした訓練を繰り返せるだろうと指摘した。

もっとも、インストラクトGPTはまだ簡単なミスを犯すし、無関係な回答や意味のない回答をすることしばしばだ。例えば、偽りを含んだ問いかけを与えられれば、その偽りを真実として受け取ってしまう。さらに、インストラクトGPTは、人から指示されたことをするように訓練されているため、指示されればGPT-3よりもはるかに有害な言葉を発する。

英国のアバディーン大学でテキスト生成Aについて研究しているエフド・ライター教授は、言語モデルが作り出す誤情報の量を減らすことができる技術であれば、どんな技術でも歓迎すべきであると述べる。しかし一方で、医学的な助言をするAIなどでは、許されない過ちがあるとも指摘する。ライター教授は、ブラックボックス型のニューラル・ネットワークに基づいた大規模な言語モデルがユーザーの安全性を保証できるかどうか疑問視しており、ニューラル・ネットワークとシンボリックAIの組み合わせのほうが良いと考えている。シンボリックAIでは、ルールを直接記述することで、言語モデルが言えること、言えないことを制限できる。

どのようなアプローチであっても、解決すべき課題は多く残されている。「この問題の解決にはまだ道のりは長いです」とキエラ博士は述べる。

人気の記事ランキング

ウィル・ダグラス・ヘブン [Will Douglas Heaven]米国版 AI担当上級編集者: AI担当上級編集者として、新研究や新トレンド、その背後にいる人々を取材。前職では、テクノロジーと政治に関するBBCのWebサイト「フューチャー・ナウ（Future Now）」の創刊編集長、ニュー・サイエンティスト（New Scientist）誌のテクノロジー統括編集長を務めた。インペリアル・カレッジ・ロンドンでコンピューターサイエンスの博士号を取得しており、ロボット制御についての知識を持つ。

▼Promotion