GPT-3は「私」について
何を知っているのか?
オープンAIの「GPT-3」のような人工知能(AI)の大規模言語モデルは、インターネットから収集した巨大なデータセットで訓練されている。そこにプライバシーの問題はないのか。実際に聞いてみた。 by Melissa Heikkilä2022.09.22
人工知能(AI)分野を取材する記者として、私が今年特に注目してきた話題の1つが、大規模言語モデル(LLM:Large Language Models)の興隆だ。大規模言語モデルは、まるで人間が書いたかのような文章を生成できるAIモデルであり、時にはその精度があまりに高すぎるために、意識を持っていると錯覚する人も現れほどだ。
大規模言語モデルの力の源は、インターネットから大量に収集された、人間の書いた大量の公開文書だ。だから私は考えた。大規模言語モデルは、私に関するどのようなデータを持っているのか。そのデータは、どのように悪用される可能性があるのか。
くだらない無駄話をしているわけでない。私は、およそ10年前の体験によって心に痛手を負っている。それ以降、自分の私生活にまつわる情報をネットに公開することに関して、極めて強い不安を抱くようになった。それは、私の画像や個人情報がとあるネット掲示板に大量に投稿された出来事だった。私がかつてフィンランドの新聞に書いたコラムが気に入らない人たちの仕業だった。私の画像や個人情報は事細かに分析され、嘲笑の対象となった。
この出来事が起きるまでは、私も他の人と同じように、ネット上に自分のデータを不用心にも公開していた。個人的なブログ投稿や、夜遊びの恥ずかしい写真の数々、自分の居場所、交際相手のこと、政治的信条など、自分に関するさまざまな情報を誰でも見られるようにしていた。今でも、私はどちらかと言えば有名人の部類に入るだろう。ジャーナリストである私の業績は、ネットを検索をするだけでほぼすべて調べられる。
オープンAI(Open AI)は、有名な大規模言語モデル「GPT-3」は制限付きで提供している。メタ(Meta)の大規模言語モデル「OPT-175B」も、同社が公開している「ブレンダーボット3(BlenderBot 3)」というチャットボットを通してやり取りを試せる。
私はこの2つのモデルを試してみることに決め、最初はGPT-3に次のように尋ねてみた。「メリッサ・ヘイッキラ(Melissa Heikkilä)とは誰ですか?」
これを読んだ時、私は背筋が凍るような思いがした。「ヘイッキラ 」は私の生まれ故郷のフィンランドでは、2022年の時点で18番目に多い姓だ。しかし、この姓を名乗って英語の記事を書いているジャーナリストは、私も含めて数えるほどしかいない。そのため、GPT-3が「ヘイッキラ 」からジャーナリズムを関連付けたとしても、驚くべきことではない。大規模言語モデルは、ニュース記事やソーシャルメディアの投稿など大量のデータをインターネットからかき集めている。そして、ジャーナリストや執筆者の名前は、ネット上にとても頻繁に登場するのだ。
それでも、こうして実際にGPT-3が正確な回答を突きつけてきたことに、私は衝撃を覚えた。GPT-3は他に何を知っているのだろうか。
だが、GPT-3が私に関して大した情報を持っていないことは、すぐに明らかになった。やり取りを始めてからまもなく、GPT-3はフィンランドに暮らす1万3931人のヘイッキラ姓を持つ私以外の人物や、フィンランドに関連する事柄などについて収集した文章をでたらめに表示し始めたのだ。
これには笑ってしまった。お世辞は嬉しいが、恐らくミス・フィンランド2014でトップ10入りしたものの、優勝を逃したロッタ・ヘイッキラ(Lotta Heikkilä)のことだろう。
結局、私は有名人ではないことが分かった。AIの世界において、無名であることは良いことだ。
オープンAIのGPT-3や、グーグルの「ラムダ(LaMDA)」、メタのOPT-175Bといった大規模言語モデルは、AI研究において現在高い関心を集めており、インターネットのインフラにとっても、ますます欠かせないものになりつつある。大規模言語モデルは、カスタマー・サービスを支援するチャットボットを強化したり、ネット検索をより充実したものにしたり、ソフトウェア開発者がコードを書く手助けをしたりといった用途で使われている。
もし英語で個人情報に関する文章を少しでもネット上に投稿したことがあるのなら、そのデータは世界的に有名な大規模言語モデルに用いられている可能性がある。
グーグルやオープンAIなどのテック企業は、言語モデルを開発する際に利用したデータセットの情報を公開していない。しかし、そのデータセットには間違いなく住所や電話番号、メールアドレスといった機微な個人情報が含まれているはずだ。
大規模言語モデルについて研究しているチューリッヒ連邦工科大学のフロリアン・トレーマー准教授(コンピューター科学)は、こうしたデータの取り扱い方法はネットにおけるプライバシーの「時限爆弾」であり、いずれセキュリティや法的な多くのリスクを生み出すだろうと警告する。その一方で、機械学習における人々のプライバシー保護を担保する適切な規制への取り組みは、いまだ初期段階にすぎない。
私がネット上で比較的匿名性を保つことができているのは、生まれてからずっと欧州で生活していたこと、2018年以降、「EU一般データ保護規則(GDPR)」という厳格なデータ保護の仕組みが施行されていることが理由だろう。
だが、私の上司であるMITテクノロジーレビューのマット・ホーナン編集長は間違いなく有名人だ。GPT-3もブレンダーボットも、ホーナン編集長が何者かを「知って」いた。以下は、GPT-3が彼について語った情報だ。
当然の結果だ。というのも、ホーナン編集長は長年にわたってネット上で活発に活動してきたからだ。つまり、私よりもホーナン編集長の方がネットに大きな足跡を残している。また、ホーナン編集長が米国で暮らしていることも理由の1つだろう。大規模言語モデルの大半は、米国を主な拠点として研究・開発されている。米国にはデータ保護に関する連邦法がない。ホーナン編集長が暮らすカリフォルニア州にはデータ保護に関する州法があるが、施行されたのは2020年になってからだ。
GPT-3とブレンダーボットによれば、ホーナン編集長を一躍有名にしたのは、ワイヤード誌の記者だった2012年に書いた「How Apple and Amazon Security Flaws Led to My Epic Hacking(アップルとアマゾンのセキュリティの欠陥による、私の壮絶なハッキング体験)」という記事だという。アップルとアマゾンのシステムに存在したセキュリティの欠陥により、ハッカーがホーナン記者(当時)のデジタル・ライフを完全に掌握し、削除してしまったのである(米国版編注:ホーナン記者がバラク・オバマやビル・ゲイツのアカウントをハッキングしたわけではないない)。
しかし、ここからさらに気味が悪くなる。私がもう少し情報はないかとGTP-3を促すと、ホーナン編集長には妻と2人の幼い娘がいること(名前は間違っているが事実)、サンフランシスコに暮らしていること(これも事実)を教えてくれた。また、GPT-3はホーナン編集長が犬を飼っているかどうかについては、確信が持てないと伝えてきた。「ソーシャルメディアの情報では、マット・ホーナンはペットを飼っていないようです。彼はかつて犬が好きだとツイートしましたが、自分で犬を飼っているわけではないようです」(間違い)。
GPT-3は他にも、ホーナン編集長の仕事先の住所や、電話番号(間違い)、クレジットカード番号(これも間違い)、マサチューセッツ州ケンブリッジ(MITテクノロジーレビューの編集部がある場所)の局番から始まるでたらめな電話番号、サンフランシスコ社会保障局のオフィスに隣接する建物の住所を提示した。
オープンAIの広報担当者によれば、GPT-3のデータベースはホーナン編集長に関する情報を複数の情報源から集めたという。ホーナン編集長がサンフランシスコと関係があるという情報は、ツイッターとリンクトイン(LinkedIn)のプロフィールに載っている。いずれもグーグルでホーナ …
- 人気の記事ランキング
-
- A tiny new open-source AI model performs as well as powerful big ones 720億パラメーターでも「GPT-4o超え」、Ai2のオープンモデル
- The coolest thing about smart glasses is not the AR. It’s the AI. ようやく物になったスマートグラス、真価はARではなくAIにある
- Geoffrey Hinton, AI pioneer and figurehead of doomerism, wins Nobel Prize in Physics ジェフリー・ヒントン、 ノーベル物理学賞を受賞
- Why OpenAI’s new model is such a big deal GPT-4oを圧倒、オープンAI新モデル「o1」に注目すべき理由