AI companies are finally being forced to cough up for training data

「訓練データはタダではない」音楽業界が問う生成AIの根本的問題

強力な生成AIモデルを訓練するには膨大な量の訓練データを必要とする。音楽生成AIスタートアップ2社に対して大手レコード会社が今回起こした訴訟は、これまでで最大のメッセージを伝えている。それは「高品質な訓練データは無料ではない」ということだ。 by Melissa Heikkilä2024.07.15

この記事の3つのポイント

生成AIブームを支える訓練データの大規模化に、データ所有者らが反発
大手レコード会社がAI音楽企業を訴えた訴訟が、AIの未来を左右する可能性
AI企業は高額な費用を支払うか、効率的なモデル構築を迫られている

summarized by Claude 3

この記事は米国版ニュースレターを一部再編集したものです。

生成AIブームは規模に支えられている。訓練データが多ければ多いほど、モデルはより強力になる。

しかし、問題がある。人工知能（AI）企業が訓練データ取得のためにインターネットを荒らすことから、多くのWebサイトやデータセットの所有者は、自社のWebサイトをスクレイピングする機能を制限し始めている。また、オンラインデータを無差別にスクレイピングするAI業界の慣行に対する反発も見られる。このような反発は、ユーザーが自分のデータが訓練に使用されることを拒否したり、アーティストや作家、ニューヨーク・タイムズ紙が、同意や補償なしに知的財産を盗用したとしてAI企業を相手取って訴訟を起こしたりするといった形で表れている。

6月24日には、ソニーミュージック、ワーナーミュージック・グループ、ユニバーサルミュージック・グループの大手レコード会社3社が、著作権侵害の疑いでAI音楽企業のスーノ（Suno）とユーディオ（Udio）を訴えると発表した。音楽会社側は、スーノとユーディオが「ほとんど想像を絶する規模で」著作権で保護された楽曲を訓練データに使用し、AIモデルが「本物の人間が作成する音源の質を模倣した」楽曲生成を可能にしたと主張している。本誌のジェームス・オドネル記者は、これらの訴訟を分析し、「これらの訴訟結果がAI音楽の未来を決定する可能性がある」と指摘する記事を公開した。

しかし今この瞬間は、生成AI開発業界全体にとっても興味深い前例となるだろう。つまり、高品質なデータ不足と、より大規模で優れたモデルを求める大きなプレッシャーおよび需要のおかげで、データ所有者が実際に影響力を手にしようとしている貴重な瞬間だ。音楽業界の訴訟は、これまでで最大のメッセージを伝えるものだ。それは「高品質な訓練データは無料ではない」ということだ。

著作権法、公正な使用、AI訓練データの法的明確化までには、少なくとも数年かかるだろう。しかし、これらの訴訟はすでに変化をもたらしている。オープンAI（OpenAI）は、ポリティコ（Politico）、アトランティック（Atlantic）、タイム、ファイナンシャル・タイムズなどのニュース出版社と契約を結び、出版社のニュースアーカイブを金銭や引用と交換している。ユーチューブ（YouTube）も6月下旬、訓練用の音楽データと引き換えに、大手レコード会社とライセンス契約を結ぶと発表した。

これらの変化には、良い面と悪い面が混在している。一つに、ニュース出版社がAIとファウスト的な取引をしているのではないかという懸念がある。たとえば、オープンAIと契約したメディア企業の大半は、オープンAIの情報源の引用に関して規定を設けたという。しかし、言語モデルは基本的に事実に基づくことはできず、ねつ造を得意とする。「チャットGPT（ChatGPT）」やAIを利用する検索エンジン「パープレキシティ（Perplexity）」は引用においてハルシネーション（幻覚）を頻繁に起こすことが報告されており、オープンAIが約束を守るのは困難だ。

AI企業にとっても、これは難しい問題だ。このような状況変化は、はるかに汚染の少ない、より小規模で効率的なモデル構築につながる可能性がある。あるいは、次の大規模モデル開発に必要なデータ量にアクセスするため、高額な費用を支払うことになるかもしれない。そのような費用を支払う余裕があるのは、最も潤沢な資金や独自の大規模既存データセットを有する企業（たとえば20年分のソーシャルメディアデータを所有するメタなど）だけだ。そのため、最新の動きにより、最大手だけに権力が集中するというリスクを伴う。

その一方で、プロセスに同意を導入するというアイデアは、AIブームから利益を得られる権利者だけでなく、我々全員にとっても良い結果をもたらすものだ。我々全員が自分のデータ使用方法を決定する権限を持つべきであり、より公平なデータ経済とは、我々全員が恩恵を受けられるようになることを意味するからだ。

AIビデオゲームが人間の心の謎の解明に役立つ方法

神経科学者や心理学者はずっと以前から、人間の心について学ぶための研究ツールとしてゲームを利用してきた。ビデオゲームは、たとえば人々がどのように学習したり、あちこち動き回ったり、他人と協力したりするかを研究するために取り入れられたり、特別に設計されたりしてきた。本誌のジェシカ・ヘンゼロー記者は、「AIビデオゲームは、キャラクターが台本を必要とせず、見ていない時もプレイしているように見えるため、脳と行動に関する長年の謎をより深く研究し、解明できる可能性がある」と指摘している。

この種の問題を研究してきた科学者たちは、プレイヤーがこれらのゲームでどのように行動したか、つまり、どのようにバーチャル環境を探索し、報酬を求め、決断を下したかを観察・研究できた。それに、研究ボランティアは研究室に出向く必要はない。彼らが自宅や図書館、あるいは磁気共鳴画像（MRI）スキャナー内など、どこでプレイしていても、研究者はゲーム行動を観察できるからだ。詳しくはこちら。

AI関連のその他のニュース

AIはすでに世界の電力システムに大混乱をもたらしている。AIが必要とする莫大な電力量と、それがエネルギー送電網をどのように変えているかを示す、よくできた視覚化データ。データセンターは、大半の国よりも多くの電力を消費しているという驚くべき統計だ。（ブルームバーグ）
AIブームの意外な最初の勝者：あてにならないコンサルタント。世の中のあらゆる企業は、AIの活用法を考えているようだ。しかし問題は、誰もその方法を正確に把握していないことだ。ここで登場するのが、AIに取り残されまいとする企業から利益を得ているコンサルタントだ。今年のマッキンゼーのビジネスのうち、生成AI関連事業が約40％を占める見込みだ。（ニューヨーク・タイムズ紙）
ディープフェイク作成者、性犯罪サイトの被害者を再び犠牲に。最大級のディープフェイク性的虐待サイトは、過去数カ月間にわたり、現在は閉鎖されている性売買組織「ガールズ・ドゥ・ポルノ（GirlsDoPorn）」の映像に基づくディープフェイク動画を投稿していた。（ワイアード）
365.63ドルを支払ってAIで「404 Media」を盗用する。あるジャーナリストは、ギグワーカーに料金を支払って、チャットGPTを使用してニュースを盗用させた。得られた記事は、文法的には正しいが、ナンセンスな内容だった。（404 Media）

人気の記事ランキング

メリッサ・ヘイッキラ [Melissa Heikkilä]米国版 AI担当上級記者: MITテクノロジーレビューの上級記者として、人工知能とそれがどのように社会を変えていくかを取材している。MITテクノロジーレビュー入社以前は『ポリティコ（POLITICO）』でAI政策や政治関連の記事を執筆していた。英エコノミスト誌での勤務、ニュースキャスターとしての経験も持つ。2020年にフォーブス誌の「30 Under 30」（欧州メディア部門）に選出された。

▼Promotion