How AI-generated text is poisoning the internet

AI生成コンテンツに汚染されるインターネット、その対策は？

大規模言語モデルAIが生成した有害なテキストはインターネット中に広がり、別のAIを訓練するのに使われる。しかも、AIが生成したテキストであるかどうかを見分けるのは、非常に難しい。 by Melissa Heikkilä2023.01.06

この記事は米国版ニュースレターを一部再編集したものです。

人工知能（AI）にとって、2022年は激動の1年だった。ネット上で多くの時間を過ごす人ならば、「ダリー（DALL-E） 2」や「ステーブル・ディフュージョン（Stable Diffusion）」のようなAIシステムが生成した画像に出くわしたことがあるだろう。オープンAI（OpenAI）の大規模言語モデル（LLM）「GRT-3」の最新版である「チャットGPT（ChatGPT）」が生成したジョークやエッセー、その他の文章も見かけたかもしれない。

AIが生み出した画像や文章であることが明白な場合もある。しかし、AIモデルの生成物はどんどんたやすく人々をだまし、人間が作ったものと思い込ませるようになってきている。特に大規模言語モデルは、自信満々の嘘つきであり、正しいように見える文章を生み出すが、実は嘘だらけの可能性がある。

ちょっとした楽しみとしては問題ないが、AIモデルがチェックを経ずに健康に関するアドバイスを与えたり、その他の重要な情報の提供に利用されたりすれば、深刻な結果を招きかねない。また、AIシステムは大量の誤情報、悪口、スパムの産出をばかばかしいほど容易にし、人々が受け取る情報や、現実感覚さえも歪める可能性がある。例えば、特に選挙をめぐる懸念が大きい。

手軽に利用できる大規模言語モデルの急増により、次のような重大な疑問が浮上している。「ネット上で読む文を書いたのが人間か機械か、どうすれば分かるのだろう」。私は最近、AIが生成した文章を見分けるための既存ツールに関する記事を公開した。ネタバレになるが、現在の検出ツールはチャットGPTに対して、嘆かわしいほど無力である。

しかし、長期的にはより深刻な影響がある。 私たちは、雪だるま式に大きくなっていく嘘っぱちの大元となる雪玉の誕生を、リアルタイムで目撃しているのかもしれない。

大規模言語モデルは、インターネットから収集した文章で作られたデータセットを用いて訓練される。収集される文章には、人々がネット上に書き記した有害な文、ばかげた文、嘘、悪意ある文の全てが含まれる。完成したAIモデルは、こういった虚偽を事実として吐き出し、AIによる生成物はネット上の至るところに広がっていく。テック企業が再びインターネットからデータを収集し、吸い上げたAIの文章を使って、より巨大でより説得力のあるモデルを訓練し、人々はこのモデルを使ってさらに無意味な文を生成し、それをテック企業が収集し、ということがうんざりするほど繰り返される。

AIが自給自足でデータを得て、ますます汚染された生成物を生み出すという問題は、画像の場合にもあてはまる。同僚のウィル・ダグラス・ヘブンによる生成AIモデルの未来に関する記事の中で、「いまやインターネットは、AIが生成した画像によって永遠に汚染されています」と、キングス・カレッジ・ロンドンのAI研究者であるマイク・クック上級講師が語っている。

「2022年に人々が作った画像は、今後作られるあらゆるモデルの一部となるでしょう」。

将来的に、高品質で、AI生成物でないことが確実な訓練用データを見つけるのはどんどん難しくなっていくと、グーグルの深層学習研究部門であるグーグル・ブレイン（Google Brain）のダフニー・イッポリト上級研究員は言う。未来のAIモデルに、バイアスや嘘を極力組み込まないようにしたいならば、インターネットからやみくもにデータを吸い上げることは、もはや適切ではなくなっていく。

「インターネット全体での訓練が必要なのか、あるいは、求める言語モデルの実現につながる高品質なデータだけを選り分ける方法があるのかどうかを、検討することが非常に重要です」（イッポリト上級研究員）。

人々がAIの書いた科学論文や学術論文を提出しようとしたり、AIを使ってフェイクニュースや誤情報を生み出したりすることが避けられない状況になれば、AI生成文章を検出するツールの構築が不可欠になるだろう。

技術的ツールは助けとなるが、人間もより理解を深める必要がある。

イッポリト上級研究員によると、AIが生成した文章には、それと分かるいくつかの特徴があるという。人間はいい加減な書き手である。人々の書く文章にはタイプミスやスラングがあふれており、こういった類のミスや微妙な違いを見つけることは、人間が書いた文章を判別する良い方法だ。一方、大規模言語モデルは文中で次にくる単語を予測して文を生成しており、不確実であまり見かけない単語の代わりに、「the」、「it」、「is」などのありふれた単語を使いがちだ。そして、単語の綴りミスをすることはほとんどないものの、間違いは犯す。例えば、わずかな矛盾や、事実として提示された文章中の事実の誤りといったものに注意を向けるべきだと、イッポリト上級研究員は言う。

良いニュースがある。イッポリト上級研究員の研究によると、人はAI生成文章を見分ける能力を訓練によって高められるという。私たちに、まだ希望はあるのかもしれない。

◆

ロボット掃除機が撮影したプライベート写真が流出、トイレ写真も

この話にはぞっとした。本誌のアイリーン・グオ記者は2022年、あるロボット掃除機が撮影したプライベートな写真の15枚のスクリーンショットを入手した。非公開のフェイスブック・グループに投稿されていたそれらの写真の中には、トイレに座る人の姿もあった。

見ているのは誰か？ ロボット掃除機ルンバの開発元であるアイロボット（iRobot）によると、問題の画像は顧客の家から入手したものではなく、「動画を含むデータが同社に送信されて訓練目的で利用される」と明記した契約書に署名をした「有償の収集協力者や従業員」の家の画像だという。しかし、そうした人々が、AIを訓練するために送信された画像を、人間が見る場合もあることを知っていたかは不明だ。

このことが問題となるのには理由がある。この話は、センシティブな内容を含む可能性のあるデータをアルゴリズムの訓練のために共有するという広まりつつあるやり方だけでなく、1つの画像がたどりうる驚くべき地球的規模の旅路を示している。今回の場合は、北米、欧州、アジアの家庭からマサチューセッツを拠点とするアイロボットのサーバーへ、そこからサンフランシスコを拠点とするスケールAI（Scale AI）へ、そして最終的にスケールAIと契約を結んだ世界中のデータ作業員へと送られた。これらの画像はまた、ほとんどの消費者が意識してさえいなかった、データ・サプライチェーン全体と、個人情報がもれる可能性のある新たなポイントを明らかにしている。詳しくはこちらの記事で（リンク先は翻訳中）。

AI関連のその他のニュース

オープンAI（OpenAI）の共同創業者であるサム・アルトマンCEOが、大規模言語モデル「ダリー（DALL-E） 2」から学んだことを語った。アルトマンが、DALL-E 2が一大ブームとなった理由、DALL-E 2の成功から学んだこと、こういったモデルが社会に及ぼす影響について、本誌のウィル・ダグラス・ヘブン編集者に語った。（MITテクノロジーレビュー）

アーティストは、テキストから画像をする生成AI「ステーブル・ディフュージョン」の次期バージョンの訓練用データから、自分の作品を除外できるようになった。この決定は、テキストから画像を生成するAIモデルの訓練方法をめぐる、アーティストとテック企業の間での激しい論争を受けてのものだ。ステーブル・ディフュージョンの公開以来、アーティストたちは憤慨し、報酬を支払うことも、著作者を明示することもなく、著作権のある多くの作品を取り込むことで、アーティストから搾取していると主張している。（MITテクノロジーレビュー）

中国は多くの種類のディープフェイクを禁止している。中国サイバースペース管理局（CAC）は、対象者の許可を得ずに作成されたディープフェイクや、社会主義的価値観に反していたり、「非合法で有害な情報」を広めたりするディープフェイクを禁止している。（ザ・レジスター）

チャットボットをサポートする人の仕事はどんなものか？ 学生の頃、ライターのローラ・プレストンは一風変わった仕事をしていた。不動産用AIチャットボット「ブレンダ」が台本を逸脱した時に介入する仕事だ。顧客に悟られないことが目的であった。現在のAIが現実のシチュエーションにおいて、いかに間抜けであるか、「知性を宿す機械」という幻想を維持するのに、人の手がどれほど多く介入しているかを示す話である。（ガーディアン紙）

人気の記事ランキング

メリッサ・ヘイッキラ [Melissa Heikkilä]米国版 AI担当上級記者: MITテクノロジーレビューの上級記者として、人工知能とそれがどのように社会を変えていくかを取材している。MITテクノロジーレビュー入社以前は『ポリティコ（POLITICO）』でAI政策や政治関連の記事を執筆していた。英エコノミスト誌での勤務、ニュースキャスターとしての経験も持つ。2020年にフォーブス誌の「30 Under 30」（欧州メディア部門）に選出された。