KADOKAWA Technology Review
×
【3/14】MITTR主催「アクセシビリティとテクノロジー 」開催 申込受付中
AIモデル評価用データセットに多数の誤り、実は優秀ではなかった?
Jeremy Lwanga/Unsplash
Error-riddled datasets are warping our sense of how good AI really is

AIモデル評価用データセットに多数の誤り、実は優秀ではなかった?

MITの研究者が、人工知能(AI)の機械学習モデルの評価に使われている有名なデータセットの中に、誤ってラベル付けされたデータが多数含まれていることを発見した。最も優れていると見なされていたAIモデルが、実はそうではなかったという事態が発生するかもしれない。 by Karen Hao2021.04.05

人工知能(AI)の研究で最も利用されている10種類のデータセットには、ラベル付けに多数の誤りがあることがマサチューセッツ工科大学(MIT)の新たな研究でわかった。AI分野の進歩に対する私たちの認識は正確なものではなかったということだ。

データセットはAI研究の中核となるものだが、そのデータセットの中でも特に重要度が高いものがある。AIの能力が時間を経るにつれてどう向上しているかを調べるために機械学習モデルの評価に使用される、核となるデータセットが存在するのだ。よく知られているものには、現代のAI革命のきっかけとなった画像認識データセットの代表格である「イメージネット(ImageNet)」がある。また、0から9までの手書きの数字の画像を収集した「エムニスト(MNIST)」というデータセットもある。その他にも、音声やテキスト、手書きの絵などを認識するように訓練されたモデルをテストするためのデータセットが存在する。

近年、これらのデータセットには重大な欠陥が含まれている可能性があることが研究により判明している。例えば、イメージネットには、人種差別的・性差別的なラベル同意なしに取得された顔写真が含まれている。今回の最新の研究では、別の問題に焦点が当てられている。それは、ラベルの多くが完全に間違っているということだ。キノコにはスプーン、カエルにはネコ、歌手のアリアナ・グランデの高音にはホイッスルというラベルが付けられてしまっている。推定によると、イメージネットのテストセットによるラベルエラー率は5.8%だ。一方、手書きの絵を収集した「クイック・ドロー(QuickDraw)」のテストセットによるエラー率は10.1%と推定されている。

モデルの評価に使用される10種類のデータセットにはそれぞれ、そのモデルを訓練するために使用されたデータセットがある。今回の研究をしたMIT大学院生のカーティス・G・ノースカット、アニッシュ・アタリー、ジョナス・ミューラーは、訓練用データセットを使って機械学習モデルを開発し、テストデータのラベル付けの予測に使用した。このモデルが元のラベルと一致しない場合は、そのデータポイントにフラグを立て、人による確認作業を実施した。具体的には、アマゾン・メカニカル・タークの5人のレビュアーが、このモデルの付けたラベルと元のラベルのどちらが正しいと思うかを投票した。人間のレビュアーの過半数がこのモデルのラベル付けに同意した場合、元のラベルは誤りとして集計され、その後修正された。

データセットのラベル付けに誤りがあることは、重大な問題だ。研究チームは、以前にイメージネットのテストセットに対する性能が測定された34種類のモデルを調査した。そして、データラベルが間違っていることが判明した約1500の例に対して各モデルを再評価した。その結果、元の 間違ったラベルではあまり良い評価が得られていなかったモデルが、ラベルを修正した後では最も良い評価を得られるようになった。特に、グーグルなどの大手テック企業が画像認識に使用し、最も優れていると見なされている複雑なモデルより、単純なモデルの方が、修正後のデータでは良い結果が得られるようであった。つまり、テストデータに欠陥があるために、より複雑なモデルの性能を実際よりも優れていると誤認識している可能性があるのだ。

ではどうすればよいのだろうか。ノースカットは、AI分野で、モデルの評価や同分野の進歩の調査に使用する、より欠陥の少ないデータセットを作成することを推奨している。また、研究者が自分のデータを扱う際には、データの正確性を改善することを勧めている。さもないと、「ノイズの多いデータセットを使って多くのモデルをテストし、実世界で導入しようとした場合」に間違ったモデルを選んでしまう可能性がある、とノースカットは言う。そのため、ノースカットは、今回の研究でラベルエラーを修正するために使用したコードをオープンソース化した。このコードは、すでにいくつかの大手テック企業で使われているとのことだ。

人気の記事ランキング
  1. The world’s most famous concert pianos got a major tech upgrade 自宅で巨匠の演奏を、スタインウェイ新技術が拓く未来の音楽体験
  2. Promotion MITTR Emerging Technology Nite #27 MITTR主催「アクセシビリティとテクノロジー 」開催のご案内
  3. Watch this robot as it learns to stitch up wounds AIロボットが縫合技術を習得、6針縫うことに成功
  4. OpenAI teases an amazing new generative video model called Sora 動画でも生成革命、オープンAIが新モデル「Sora」を発表
  5. People are worried that AI will take everyone’s jobs. We’ve been here before. 生成AIは雇用を奪うのか? MIT学長が書いた 85年前の記事に学べること
カーレン・ハオ [Karen Hao]米国版 AI担当記者
MITテクノロジーレビューの人工知能(AI)担当記者。特に、AIの倫理と社会的影響、社会貢献活動への応用といった領域についてカバーしています。AIに関する最新のニュースと研究内容を厳選して紹介する米国版ニュースレター「アルゴリズム(Algorithm)」の執筆も担当。グーグルX(Google X)からスピンアウトしたスタートアップ企業でのアプリケーション・エンジニア、クオーツ(Quartz)での記者/データ・サイエンティストの経験を経て、MITテクノロジーレビューに入社しました。
10 Breakthrough Technologies 2024

MITテクノロジーレビューは毎年、世界に真のインパクトを与える有望なテクノロジーを探している。本誌がいま最も重要だと考える進歩を紹介しよう。

記事一覧を見る
人気の記事ランキング
  1. The world’s most famous concert pianos got a major tech upgrade 自宅で巨匠の演奏を、スタインウェイ新技術が拓く未来の音楽体験
  2. Promotion MITTR Emerging Technology Nite #27 MITTR主催「アクセシビリティとテクノロジー 」開催のご案内
  3. Watch this robot as it learns to stitch up wounds AIロボットが縫合技術を習得、6針縫うことに成功
  4. OpenAI teases an amazing new generative video model called Sora 動画でも生成革命、オープンAIが新モデル「Sora」を発表
  5. People are worried that AI will take everyone’s jobs. We’ve been here before. 生成AIは雇用を奪うのか? MIT学長が書いた 85年前の記事に学べること
気候テック企業15 2023

MITテクノロジーレビューの「気候テック企業15」は、温室効果ガスの排出量を大幅に削減する、あるいは地球温暖化の脅威に対処できる可能性が高い有望な「気候テック企業」の年次リストである。

記事一覧を見る
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る