KADOKAWA Technology Review
×
AIモデル評価用データセットに多数の誤り、実は優秀ではなかった?
Jeremy Lwanga/Unsplash
Error-riddled datasets are warping our sense of how good AI really is

AIモデル評価用データセットに多数の誤り、実は優秀ではなかった?

MITの研究者が、人工知能(AI)の機械学習モデルの評価に使われている有名なデータセットの中に、誤ってラベル付けされたデータが多数含まれていることを発見した。最も優れていると見なされていたAIモデルが、実はそうではなかったという事態が発生するかもしれない。 by Karen Hao2021.04.05

人工知能(AI)の研究で最も利用されている10種類のデータセットには、ラベル付けに多数の誤りがあることがマサチューセッツ工科大学(MIT)の新たな研究でわかった。AI分野の進歩に対する私たちの認識は正確なものではなかったということだ。

データセットはAI研究の中核となるものだが、そのデータセットの中でも特に重要度が高いものがある。AIの能力が時間を経るにつれてどう向上しているかを調べるために機械学習モデルの評価に使用される、核となるデータセットが存在するのだ。よく知られているものには、現代のAI革命のきっかけとなった画像認識データセットの代表格である「イメージネット(ImageNet)」がある。また、0から9までの手書きの数字の画像を収集した「エムニスト(MNIST)」というデータセットもある。その他にも、音声やテキスト、手書きの絵などを認識するように訓練されたモデルをテストするためのデータセットが存在する。

近年、これらのデータセットには重大な欠陥が含まれている可能性があることが研究により判明している。例えば、イメージネットには、人種差別的・性差別的なラベル同意なしに取得された顔写真が含まれている。今回の最新の研究では、別の問題に焦点が当てられている。それは、ラベルの多くが完全に間違っているということだ。キノコにはスプーン、カエルにはネコ、歌手のアリアナ・グランデの高音にはホイッスルというラベルが付けられてしまっている。推定によると、イメージネットのテストセットによるラベルエラー率は5.8%だ。一方、手書きの絵を収集した「クイック・ドロー(QuickDraw)」のテストセットによるエラー率は10.1%と推定されている。

モデルの評価に使用される10種類のデータセットにはそれぞれ、そのモデルを訓練するために使用されたデータセットがある。今回の研究をしたMIT大学院生のカーティス・G・ノースカット、アニッシュ・アタリー、ジョナス・ミューラーは、訓練用データセットを使って機械学習モデルを開発し、テストデータのラベル付けの予測に使用した。このモデルが元のラベルと一致しない場合は、そのデータポイントにフラグを立て、人による確認作業を実施した。具体的には、アマゾン・メカニカル・タークの5人のレビュアーが、このモデルの付けたラベルと元のラベルのどちらが正しいと思うかを投票した。人間のレビュアーの過半数がこのモデルのラベル付けに同意した場合、元のラベルは誤りとして集計され、その後修正された。

データセットのラベル付けに誤りがあることは、重大な問題だ。研究チームは、以前にイメージネットのテストセットに対する性能が測定された34種類のモデルを調査した。そして、データラベルが間違っていることが判明した約1500の例に対して各モデルを再評価した。その結果、元の 間違ったラベルではあまり良い評価が得られていなかったモデルが、ラベルを修正した後では最も良い評価を得られるようになった。特に、グーグルなどの大手テック企業が画像認識に使用し、最も優れていると見なされている複雑なモデルより、単純なモデルの方が、修正後のデータでは良い結果が得られるようであった。つまり、テストデータに欠陥があるために、より複雑なモデルの性能を実際よりも優れていると誤認識している可能性があるのだ。

ではどうすればよいのだろうか。ノースカットは、AI分野で、モデルの評価や同分野の進歩の調査に使用する、より欠陥の少ないデータセットを作成することを推奨している。また、研究者が自分のデータを扱う際には、データの正確性を改善することを勧めている。さもないと、「ノイズの多いデータセットを使って多くのモデルをテストし、実世界で導入しようとした場合」に間違ったモデルを選んでしまう可能性がある、とノースカットは言う。そのため、ノースカットは、今回の研究でラベルエラーを修正するために使用したコードをオープンソース化した。このコードは、すでにいくつかの大手テック企業で使われているとのことだ。

人気の記事ランキング
  1. How to talk to vaccine-hesitant people 「陰謀論者」で片付けない、ワクチン未接種者との対話のヒント
  2. What are the ingredients of Pfizer’s covid-19 vaccine? ファイザーの新型コロナワクチンの成分は?専門家が解説
カーレン・ハオ [Karen Hao]米国版 AI担当記者
MITテクノロジーレビューの人工知能(AI)担当記者。特に、AIの倫理と社会的影響、社会貢献活動への応用といった領域についてカバーしています。AIに関する最新のニュースと研究内容を厳選して紹介する米国版ニュースレター「アルゴリズム(Algorithm)」の執筆も担当。グーグルX(Google X)からスピンアウトしたスタートアップ企業でのアプリケーション・エンジニア、クオーツ(Quartz)での記者/データ・サイエンティストの経験を経て、MITテクノロジーレビューに入社しました。
日本発「世界を変える」35歳未満のイノベーター

MITテクノロジーレビューが主催するグローバル・アワード「Innovators Under 35 」の日本版が候補者を募集している。特定の分野や業界だけでなく、世界全体の重要な課題を解決するイノベーターを発信していく。

記事一覧を見る
人気の記事ランキング
  1. How to talk to vaccine-hesitant people 「陰謀論者」で片付けない、ワクチン未接種者との対話のヒント
  2. What are the ingredients of Pfizer’s covid-19 vaccine? ファイザーの新型コロナワクチンの成分は?専門家が解説
MITテクノロジーレビュー[日本版] Vol.4/Summer 2021
MITテクノロジーレビュー[日本版] Vol.4/Summer 202110 Breakthrough Technologies

新型コロナウイルス・ワクチンの開発で脚光を浴びた「メッセンジャーRNA」技術から、人間並みの文章を自在に生成できる人工知能(AI)技術「GPT-3」、電気自動車(EV)普及の鍵を握る「次世代バッテリー」まで。MITテクノロジーレビューが選んだ「世界を変える10大テクノロジー」。

詳細を見る
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る