データは誰のもの?生成AIの訓練で「同意」は常識になるか
知性を宿す機械

We need to bring consent to AI  データは誰のもの?生成AIの訓練で「同意」は常識になるか

オープンAIは、「シークレット・モード」を導入した。チャット履歴を、同社が保存したり、言語モデルの訓練に使うことをユーザー自身が決めることを可能にする機能だ。 by Melissa Heikkilä2023.05.17

この記事は米国版ニュースレターを一部再編集したものです。

5月1日、ジェフリー・ヒントンが10年間勤めてきたグーグルを退社したことが大きなニュースになった。グーグルで副社長兼エンジニアリング・フェローの地位にあったヒントンは、深層学習の第一人者である。現代の人工知能(AI)の中枢で使われている最重要技術の一部は、ヒントンが開発したものだ。

だがその話をする前に、今回はAIにおける同意について話しておきたい。

オープンAI(OpenAI)は先日、「シークレット・モード」を導入すると発表した。ユーザーのチャット履歴を保存したり、履歴を同社のAI言語モデル「チャットGPT(ChatGPT)」の改善に利用したりしないようにする機能だ。この新機能を使うと、ユーザーは「チャット履歴とトレーニング」をオフにし、データをエクスポートできるようになる。自分のデータがテック企業にどのように使われるのかをユーザーが決められるようになる歓迎すべき動きである。

オプトアウトを可能にするシークレット・モードは、データの使用方法と収集方法について欧州のデータ保護規制当局からの圧力が強まっている中での導入となった。 オープンAIは、4月30日までに厳格な「EU一般データ保護規則(GDPR:General Data Protection Regulation)」の遵守を求めるイタリアの要求に応じる必要があった。イタリアでは、オープンAIがユーザー向けのオプトアウト・フォームを用意し、チャットGPTで個人データが使われることを拒否できるようになってから、チャットGPTのサービスが再開した。規制当局は、オープンAIが人々の個人データを同意なしに吸い上げており、ユーザーはその使われ方をコントロールすることもできないと訴えていた。

本誌のウィル・ダグラス・ヘブン編集者によるインタビューで、オープンAIの最高技術責任者(CTO)であるミラ・ムラティは、シークレット・モードは、同社が数カ月前から「一歩一歩前進させ続けている」機能であり、かねてよりチャットGPTのユーザーから要望が寄せられていたものだと語った。オープンAIはロイター通信に対し、シークレット・モードの導入は、EUによるGDPR関連の調査とは無関係だと説明している。

「オープンAIは、個人データの使われ方に関してはユーザーに主導権を握ってもらいたいと考えています」とムラティCTOは言う。ただし、悪用や不正使用を監視するため、30日間はユーザー・データを保存するとオープンAIは述べている。

だが、オープンAIの説明にかかわらず、デジタル著作権団体「アクセス・ナウ(Access Now)」の政策担当上級アナリストである、ダニエル・ローファー博士は、GDPRやEUからの圧力もオープンAIに法の遵守を強いる要因になったと考えている。その過程で、オープンAIはチャットGPTを世界のすべての人にとって以前よりも優れたサービスに改善した。

ローファー博士はツイッターで、「良質なデータ保護慣行は、製品やサービスの安全性と質を向上させ、ユーザーに自身のデータに関する本当の意味での主体性を与える」と述べた

イノベーションを阻害する堅物であるとGDPRを攻撃する人は多い。だが、ローファー博士が指摘するように、この法制度は、対応を強いられた企業に改善策を示すものだ。また、自動化が進む世界の中で、人々にデジタル世界における自身の存在をコントロールする権利を与える唯一の道具でもある。

ほかにも、AIの力でユーザーにより大きなコントロール権を与える試みがあり、この種の機能に明確な需要があることが分かる。

昨年末以来、個人や企業は、オープンソースのLAION-5B (ライオン-5B)データセットから自身の画像を除外させる、つまりオプトアウトができるようになっている。このデータセットは、画像生成AIモデルのステーブル・ディフュージョン(Stable Diffusion)の訓練に使われている。

オプトアウト機能を開発する企業「スポーニング(Spawning)」を共同で創業したマット・ドライハーストによると、12月から、およそ5000人の個人に加え、アート・ステーション(Art Station)やシャッターストック(Shutterstock)などの大規模なオンライン画像プラットフォームが、8000万点を超える画像をLAION-5Bデータセットから削除するように求めたという。削除した画像はステーブル・ディフュージョンの次のバージョンには使われない。

ドライハーストは、人々には自分の作品がAIモデルの訓練に使われたかどうかを知る権利があって当然で、そもそもシステムの一部になりたいかどうかを自分で決められるようにすべきだと考えている。

「私たちの最終目標は、AIのための同意レイヤーを構築することです。理由は簡単で、現状はそれがないからです」。

ジェフリー・ヒントンがAIを恐れるようになった理由を語る

ジェフリー・ヒントンは深層学習の第一人者であり、現代の人工知能の中枢で使われている最重要技術の開発に貢献した。だが、10年間勤めてきたグーグルを離れ、今後はAIに対して新たに抱くようになった懸念に重点的に取り組むという。本誌のAI担当上級編集者であるウィル・ダグラス・ヘブンは、グーグル退社の衝撃的な発表のわずか4日前に、北ロンドンの彼の自宅でヒントンと面会した。

GPT-4などの新しい大規模言語モデルの能力に驚いたヒントンは、自らが切り開いたテクノロジーに潜む重大な危険性について、広く世間に知ってもらいたいと考えている。

実際、ヒントンには言いたいことが山ほどあった。「AIの知能が人間を超えるかどうかという議論において、私は突然見解を変えました。今ではAIそのレベルの知能に近づいていると思いますし、将来は人間よりもはるかに賢くなるでしょう」とヒントンはヘブン編集者に語った。「そのとき、どうすれば人間は乗り切れるでしょうか?」ジェフリー・ヒントンへのインタビュー記事はこちら。

「質問付き」回答でチャットボットのリスクを軽減

チャットGPT、ビング(Bing)、バード(Bard)などのAIチャットボットは、虚偽を事実だと言い張り、一貫しない論理で動くことがしばしばある。しかもそれは気づきにくい。この問題を回避する1つの方法として、AIが情報を提示する方法を変えることが考えられると最新の研究が示している。

マサチューセッツ工科大学(MIT)とコロンビア大学の研究グループは、チャットボットに情報を文章の形で提示させる代わりに、ユーザーに対して質問をさせるようにすれば、ユーザーはAIのロジックがおかくなっていることに気づきやすいとの研究結果を発表した。また、ユーザーに質問するシステムは、AIを利用した意思決定に対して、ユーザーにより大きな責任を感じさせ、AIが生成した情報に過剰に依存するリスクを低減できるという。 続きはこちら

AI関連のその他のニュース

パランティア(Palantir)は軍隊が戦争に言語モデルを利用することを望む。物議を醸しているテック企業パランティアは、既存のオープン・ソースAI言語モデルを使ってユーザーがドローンを操作し、攻撃計画を立てられるようにする新しいプラットフォームを立ち上げた。恐ろしいアイデアだ。AI言語モデルは頻繁に捏造する上、ハッキングで侵入することもあっけないほど簡単なのだ。このようなテクノロジーがとりわけ危険性の高い分野で展開されるのは、起こるべくして起こった災いである。(ヴァイス

ハギング・フェイス(Hugging Face)がチャットGPTに代わるオープン・ソースのサービスを開始。ハギング・チャット(HuggingChat)はチャットGPTと同様の機能を持つが、無料で使え、これを基に独自のプロダクトを作ることもできる。人気のAIモデルのオープンソース版が次々に登場している。5月初めに、画像生成モデルであるステーブル・ディフュージョンの開発元スタビリティAI(Stability.AI)が、AIチャットボットのオープンソース版であるステーブルLM(StableLM)を公開した。

マイクロソフトのビング・チャットボットの誕生とその行方。ビングの誕生秘話についてよくまとまっている記事だ。ビングが回答を生成する際に、オープンAIのGPT-4言語モデルを使うとは限らず、運用コストが安めのマイクロソフト独自のモデルを使うこともあるというのは興味深い。(ワイアード

「AIドレイク」がグーグルに無理筋の法の罠を仕掛ける。私のソーシャルメディアのフィードは、ドレイクをはじめ人気アーティストのスタイルをコピーしたAI生成の楽曲で溢れている。しかし、この記事が指摘しているように、私が経験している現象は、AIが生成した音楽、インターネット上のデータのスクレイピング、そして何がフェアユースにあたるのかをめぐる厄介な著作権争いの始まりにすぎない。(ザ・ヴァージ