KADOKAWA Technology Review
×
Innovators Under 35 Japan 2026 候補者募集開始!
動画はほぼユーチューブ、
大規模調査で分かった
AI訓練データの一極集中
Stephanie Arnett/MIT Technology Review | Adobe Stock
人工知能(AI) Insider Online限定
This is where the data to build AI comes from

動画はほぼユーチューブ、
大規模調査で分かった
AI訓練データの一極集中

AIの訓練に使用されるデータセットのほとんどは、インターネットから無差別に収集されている。研究者グループの大規模な調査から、現在のAIのデータ収集方法には、少数の大手テック企業に権力が圧倒的に集中する危険性があることが分かった。 by Stephanie Arnett2024.12.20

この記事の3つのポイント
  1. AIの訓練データの出所は不明瞭で少数の大手企業に集中している
  2. データの大部分はWebから無作為に収集されており多様性に欠ける
  3. データの偏りからAIには欧米中心のバイアスがかかる危険性がある
summarized by Claude 3

人工知能(AI)はデータがすべてだ。アルゴリズムを訓練して必要な処理を実行させるには、膨大なデータが必要となる。そして、AIモデルが導き出す結果は、AIモデルに入力するデータの内容によって決まる。

ここで問題がある。AIの開発者や研究者には、使用しているデータの出所に関する知識をほとんど持っていないのだ。AIのデータ収集方法は、高度なAIモデルの開発と比べるとまだ未熟な状態にある。巨大なデータセットは、その中身や出所がはっきりしないことも少なくない。

学術界と産業界から集まった50人以上の研究者で構成される団体「データ来歴イニシアチブ(Data Provenance Initiative)」は、この問題を解決しようと考えた。知りたかったのは、「AIの訓練データはどこから来たのか?」という非常にシンプルな問いの答えだ。同団体は、67か国・600言語を含む、過去30年間にわたる約4000件の公開データセットを調査した。このデータは、重複しない800のデータソースと約700の組織から収集されたものだ。

MITテクノロジーレビューに独占的に提供された調査結果は、憂慮すべき傾向を示している。それは、AIのデータ収集方法には、少数の大手テック企業に権力が圧倒的に集中する危険性があるというものだ。

調査に参加したMITの研究者であるシェイン・ロンプレによれば、2010年代初頭にはデータセットの出所は多様であったという。

データは、百科事典やWebだけでなく、議会の議事録、決算報告書、天気予報などの情報源からも収集されていた。ロンプレによると、当時のAIデータセットは、個々のタスクに合わせて、さまざまなソースから具体的な目的のもと収集されていたという。

その後、言語モデルの基盤となるアーキテクチャであるTransformer(トランスフォーマー)が2017年に発明され、AI分野ではモデルやデータセットが大きくなればなるほど性能が向上するようになった。現在、AIの訓練に使用されるデータセットのほとんどは、インターネットから無差別に収集された素材で構成されている。2018年以降、音声、画像、動画といったあらゆるメディアで使用されるデータセットの収集源はWebが主流となり、スクレイピングされたデータと具体的な目的のもとで厳選されたデータセットの間にギャップが生じ、そのギャップは拡大している。

「基礎モデルの開発において、データとWebのスケールと異質性ほど、モデルの性能にとって重要なものはないようです」とロンプレは考えている。スケールの必要性はまた、合成データの利用を大幅に増大させた。

ここ数年は、動画や画像を生成できるマルチモーダル生成AIモデルも台頭してきた。大規模言語モデルと同様に、これらの生成AIモデルも可能な限り多くのデータが必要であり、そのための最適なデータ収 …

こちらは有料会員限定の記事です。
有料会員になると制限なしにご利用いただけます。
有料会員にはメリットがいっぱい!
  1. 毎月120本以上更新されるオリジナル記事で、人工知能から遺伝子療法まで、先端テクノロジーの最新動向がわかる。
  2. オリジナル記事をテーマ別に再構成したPDFファイル「eムック」を毎月配信。
    重要テーマが押さえられる。
  3. 各分野のキーパーソンを招いたトークイベント、関連セミナーに優待価格でご招待。
人気の記事ランキング
  1. It’s time to address the looming crisis in entry-level work. 「コーディングを学べ」もう通用せず、AIが若者の雇用を奪い始めた
  2. Promotion Call for entries for Innovators Under 35 Japan 2026 「Innovators Under 35 Japan」2026年度候補者募集のお知らせ
  3. Anthropic’s Code with Claude showed off coding’s future—whether you like it or not 「Claudeに任せてしまおう」 たった1年で激変したソフトウェア開発
▼Promotion
社会実装都市「ひろしま」の魅力に迫る ローカル ✕ イノベーション
MITテクノロジーレビューが選んだ、AIの10大潮流 [2026年版]

AIをめぐる喧騒の中で、本当に目を向けるべきものは何か。この問いに対する答えとして、MITテクノロジーレビューはAIの重要なアイデア、潮流、新たな進展を整理したリストを発表する。

特集ページへ
MITテクノロジーレビューが選んだ、 世界を変える10大技術

MITテクノロジーレビューの記者と編集者は、未来を形作るエマージング・テクノロジーについて常に議論している。年に一度、私たちは現状を確認し、その見通しを読者に共有する。以下に挙げるのは、良くも悪くも今後数年間で進歩を促し、あるいは大きな変化を引き起こすと本誌が考えるテクノロジーである。

特集ページへ
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る