KADOKAWA Technology Review
×
12/16開催 「再考ゲーミフィケーション」イベント参加受付中!
LLMの暴走を防げるか?オープンAIが明かした「ストレステスト」の中身
Stephanie Arnett/MIT Technology Review | Getty
人工知能(AI) Insider Online限定
How OpenAI stress-tests its large language models

LLMの暴走を防げるか?オープンAIが明かした「ストレステスト」の中身

大規模言語モデル(LLM)は、差別的な発言や暴力的な回答を出力することがある。チャットGPTの開発元であるオープンAIは、LLMの有害な振る舞いを防ぐために実施している安全性テストの手法を一部公表した。 by Will Douglas Heaven2024.11.27

この記事の3つのポイント
  1. オープンAIが自社の大規模言語モデルの安全性テストのプロセスを一部公開した
  2. テストでは人間のテスターとAIを組み合わせてモデルの望ましくない振る舞いを特定
  3. 一部専門家はテスト手法がモデルの開発スピードに追いついていないと指摘
summarized by Claude 3

オープンAI(OpenAI)が再び、自社の安全性テストのプロセスについて(ほんの少し)明らかにしている。同社は10月に、チャットGPT(ChatGPT)がユーザーの名前に基づいて、どれくらいの頻度でジェンダーや人種に関する有害な固定概念を生み出すかを調べた研究結果を発表した。そして今回、潜在的に有害な振る舞い、あるいはその他の望ましくない振る舞いを特定するために、自社の強力な大規模言語モデル(LLM)にどのようなストレステストをしているか説明する、2つの研究論文を発表した。このようなテスト手法は、レッドチーミング(red-teaming)という名称で知られている。

大規模言語モデルは現在、何百万人もの人々によってさまざまなことに利用されている。しかし、オープンAI自身が指摘しているように、それらのモデルは人種差別的、女性蔑視的、憎悪的なコンテンツを生成したり、個人情報を暴露したり、偏見や固定概念を増幅したり、ものごとをでっち上げたりすることで知られている。同社は、そのような振る舞いを最小限に抑えるためにしていることを共有したいと考えている。

1つ目の論文では、オープンAIが社外の人間による広範なテスターのネットワークに指示して、モデルのリリース前にその振る舞いを入念にテストする方法を説明している。2つ目の論文は、GPT-4のような大規模言語モデルを使って、自社自身のガードレール(安全確保措置)を迂回するための新しい方法を見つけ出すことにより、テストプロセスの一部を自動化する新しい方法を紹介している。

オープンAIはこの2つの手法を組み合わせることで、人間のテスターが発見した望ましくない振る舞いを人工知能(AI)に引き渡してさらに詳しく調査させたり、その逆の流れで人間のテスターが詳しく調査したりすることを目指している。自動化されたレッドチーミングは、多数のさまざまな振る舞いを見つけ出すことができるが、人間のテスターはより多様な視点をもたらすと、オープンAIの研究者ラマ・アーマッドは言う。「互いを補完し合う方法については、まだ考案中です」。

レッドチーミングは新しい手法ではない。AI企業各社はこの手法をサイバーセキュリティの分野で、人々のチームが大規模なコンピューターシステムの脆弱性を見つけようとする目的で利用してきた。オープンAIが初めてこの手法を使ったのは、ダリー2(DALL-E 2)のテストをしていた2022年のことだ。「人々がかなり利用しやすいような製品をオープンAIがリリースしたのは、初めてでした」と、アーマッドは言う。「私たちは、人々がどのようにこのシステムとやり取りし、その過程でどのようなリスクが表面化する可能性があるか理解することが、本当に重要であると考えました」 。

それ以来、レッドチーミングはAI業界の主流となってきた。バイデン大統領はAIに関する大統領令で昨年、米国国立標準技術研究所(NIST)にレッドチーミングのベストプラクティスを定義する任務を課した。その任務を実行するため、NISTはおそらくトップクラスのAI研究所に指導を求めることになるだろう。

チャットGPTをだます

テスターを採用する際、オープンAIはアーティストから、科学者、法律・医学・地方政治に詳しい人々まで、さまざまな専門家を利用する。オープンAIはそれらのテスターを招聘して、モデルが壊れるまでいじり回してもらう。 その目的は、新たな望ましくない振る舞いを明らかにし、既存のガードレールを迂回する方法を探すことだ。たとえば、チャットGPTをだまして人種差別的な発言をさせたり、ダリーをだまして露骨な暴力画像を生成させたりする。

モデルに新しい機能を追加すると、あらゆる種類の新しい振る舞いも取り込まれてしまう可能性があり、調査が必要になる。オープンAIがGPT-4oに音声機能を追加し、ユーザーがチャットGPTに話しかけたり、チャットGPTが話し返したりできるようにしたとき、レッドチー …

こちらは有料会員限定の記事です。
有料会員になると制限なしにご利用いただけます。
有料会員にはメリットがいっぱい!
  1. 毎月120本以上更新されるオリジナル記事で、人工知能から遺伝子療法まで、先端テクノロジーの最新動向がわかる。
  2. オリジナル記事をテーマ別に再構成したPDFファイル「eムック」を毎月配信。
    重要テーマが押さえられる。
  3. 各分野のキーパーソンを招いたトークイベント、関連セミナーに優待価格でご招待。
人気の記事ランキング
  1. Promotion MITTR Emerging Technology Nite #31 MITTR主催「再考ゲーミフィケーション」開催のご案内
  2. Google’s antitrust gut punch and the Trump wild card グーグルに帝国解体の危機、米司法省がクローム売却も要求
▼Promotion 再考 ゲーミフィケーション
日本発「世界を変える」U35イノベーター

MITテクノロジーレビューが20年以上にわたって開催しているグローバル・アワード「Innovators Under 35 」。2024年受賞者決定!授賞式を11/20に開催します。チケット販売中。 世界的な課題解決に取り組み、向こう数十年間の未来を形作る若きイノベーターの発掘を目的とするアワードの日本版の最新情報を随時発信中。

特集ページへ
MITTRが選んだ 世界を変える10大技術 2024年版

「ブレークスルー・テクノロジー10」は、人工知能、生物工学、気候変動、コンピューティングなどの分野における重要な技術的進歩を評価するMITテクノロジーレビューの年次企画だ。2024年に注目すべき10のテクノロジーを紹介しよう。

特集ページへ
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る