KADOKAWA Technology Review
×
LLMの暴走を防げるか?オープンAIが明かした「ストレステスト」の中身
Stephanie Arnett/MIT Technology Review | Getty
人工知能(AI) Insider Online限定
How OpenAI stress-tests its large language models

LLMの暴走を防げるか?オープンAIが明かした「ストレステスト」の中身

大規模言語モデル(LLM)は、差別的な発言や暴力的な回答を出力することがある。チャットGPTの開発元であるオープンAIは、LLMの有害な振る舞いを防ぐために実施している安全性テストの手法を一部公表した。 by Will Douglas Heaven2024.11.27

この記事の3つのポイント
  1. オープンAIが自社の大規模言語モデルの安全性テストのプロセスを一部公開した
  2. テストでは人間のテスターとAIを組み合わせてモデルの望ましくない振る舞いを特定
  3. 一部専門家はテスト手法がモデルの開発スピードに追いついていないと指摘
summarized by Claude 3

オープンAI(OpenAI)が再び、自社の安全性テストのプロセスについて(ほんの少し)明らかにしている。同社は10月に、チャットGPT(ChatGPT)がユーザーの名前に基づいて、どれくらいの頻度でジェンダーや人種に関する有害な固定概念を生み出すかを調べた研究結果を発表した。そして今回、潜在的に有害な振る舞い、あるいはその他の望ましくない振る舞いを特定するために、自社の強力な大規模言語モデル(LLM)にどのようなストレステストをしているか説明する、2つの研究論文を発表した。このようなテスト手法は、レッドチーミング(red-teaming)という名称で知られている。

大規模言語モデルは現在、何百万人もの人々によってさまざまなことに利用されている。しかし、オープンAI自身が指摘しているように、それらのモデルは人種差別的、女性蔑視的、憎悪的なコンテンツを生成したり、個人情報を暴露したり、偏見や固定概念を増幅したり、ものごとをでっち上げたりすることで知られている。同社は、そのような振る舞いを最小限に抑えるためにしていることを共有したいと考えている。

1つ目の論文では、オープンAIが社外の人間による広範なテスターのネットワークに指示して、モデルのリリース前にその振る舞いを入念にテストする方法を説明している。2つ目の論文は、GPT-4のような大規模言語モデルを使って、自社自身のガードレール(安全確保措置)を迂回するための新しい方法を見つけ出すことにより、テストプロセスの一部を自動化する新しい方法を紹介している。

オープンAIはこの2つの手法を組み合わせることで、人間のテスターが発見した望ましくない振る舞いを人工知能(AI)に引き渡してさらに詳しく調査させたり、その逆の流れで人間のテスターが詳しく調査したりすることを目指している。自動化されたレッドチーミングは、多数のさまざまな振る舞いを見つけ出すことができるが、人間のテスターはより多様な視点をもたらすと、オープンAIの研究者ラマ・アーマッドは言う。「互いを補完し合う方法については、まだ考案中です」。

レッドチーミングは新しい手法ではない。AI企業各社はこの手法をサイバーセキュリティの分野で、人々のチームが大規模なコンピューターシステムの脆弱性を見つけようとする目的で利用してきた。オープンAIが初めてこの手法を使ったのは、ダリー2(DALL-E 2)のテストをしていた2022年のことだ。「人々がかなり利用しやすいような製品をオープンAIがリリースしたのは、初めてでした」と、アーマッドは言う。「私たちは、人々がどのようにこのシステムとやり取りし、その過程でどのようなリスクが表面化する可能性があるか理解することが、本当に重要であると考えました」 。

それ以来、レッドチーミングはAI業界の主流となってきた。バイデン大統領はAIに関する大統領令で昨年、米国国立標準技術研究所(NIST)にレッドチーミングのベストプラクティスを定義する任務を課した。その任務を実行するため、NISTはおそらくトップクラスのAI研究所に指導を求めることになるだろう。

チャットGPTをだます

テスターを採用する際、オープンAIはアーティストから、科学者、法律・医学・地方政治に詳しい人々まで、さまざまな専門家を利用する。オープンAIはそれらのテスターを招聘して、モデルが壊れるまでいじり回してもらう。 その目的は、新たな望ましくない振る舞いを明らかにし、既存のガードレールを迂回する方法を探すことだ。たとえば、チャットGPTをだまして人種差別的な発言をさせたり、ダリーをだまして露骨な暴力画像を生成させたりする。

モデルに新しい機能を追加すると、あらゆる種類の新しい振る舞いも取り込まれてしまう可能性があり、調査が必要になる。オープンAIがGPT-4oに音声機能を追加し、ユーザーがチャットGPTに話しかけたり、チャットGPTが話し返したりできるようにしたとき、レッドチー …

こちらは有料会員限定の記事です。
有料会員になると制限なしにご利用いただけます。
有料会員にはメリットがいっぱい!
  1. 毎月120本以上更新されるオリジナル記事で、人工知能から遺伝子療法まで、先端テクノロジーの最新動向がわかる。
  2. オリジナル記事をテーマ別に再構成したPDFファイル「eムック」を毎月配信。
    重要テーマが押さえられる。
  3. 各分野のキーパーソンを招いたトークイベント、関連セミナーに優待価格でご招待。
人気の記事ランキング
  1. A long-abandoned US nuclear technology is making a comeback in China 中国でトリウム原子炉が稼働、見直される過去のアイデア
  2. Here’s why we need to start thinking of AI as “normal” AIは「普通」の技術、プリンストン大のつまらない提言の背景
  3. AI companions are the final stage of digital addiction, and lawmakers are taking aim SNS超える中毒性、「AIコンパニオン」に安全対策求める声
MITTRが選んだ 世界を変える10大技術 2025年版

本当に長期的に重要となるものは何か?これは、毎年このリストを作成する際に私たちが取り組む問いである。未来を完全に見通すことはできないが、これらの技術が今後何十年にもわたって世界に大きな影響を与えると私たちは予測している。

特集ページへ
日本発「世界を変える」U35イノベーター

MITテクノロジーレビューが20年以上にわたって開催しているグローバル・アワード「Innovators Under 35 」。世界的な課題解決に取り組み、向こう数十年間の未来を形作る若きイノベーターの発掘を目的とするアワードの日本版の最新情報を発信する。

特集ページへ
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る