KADOKAWA Technology Review
×
発表!MITテクノロジーレビューが選ぶ
2022年のイノベーター14人。
【12/15 Summit開催】
AIモデル評価用データセットに多数の誤り、実は優秀ではなかった?
Jeremy Lwanga/Unsplash
Error-riddled datasets are warping our sense of how good AI really is

AIモデル評価用データセットに多数の誤り、実は優秀ではなかった?

MITの研究者が、人工知能(AI)の機械学習モデルの評価に使われている有名なデータセットの中に、誤ってラベル付けされたデータが多数含まれていることを発見した。最も優れていると見なされていたAIモデルが、実はそうではなかったという事態が発生するかもしれない。 by Karen Hao2021.04.05

人工知能(AI)の研究で最も利用されている10種類のデータセットには、ラベル付けに多数の誤りがあることがマサチューセッツ工科大学(MIT)の新たな研究でわかった。AI分野の進歩に対する私たちの認識は正確なものではなかったということだ。

データセットはAI研究の中核となるものだが、そのデータセットの中でも特に重要度が高いものがある。AIの能力が時間を経るにつれてどう向上しているかを調べるために機械学習モデルの評価に使用される、核となるデータセットが存在するのだ。よく知られているものには、現代のAI革命のきっかけとなった画像認識データセットの代表格である「イメージネット(ImageNet)」がある。また、0から9までの手書きの数字の画像を収集した「エムニスト(MNIST)」というデータセットもある。その他にも、音声やテキスト、手書きの絵などを認識するように訓練されたモデルをテストするためのデータセットが存在する。

近年、これらのデータセットには重大な欠陥が含まれている可能性があることが研究により判明している。例えば、イメージネットには、人種差別的・性差別的なラベル同意なしに取得された顔写真が含まれている。今回の最新の研究では、別の問題に焦点が当てられている。それは、ラベルの多くが完全に間違っているということだ。キノコにはスプーン、カエルにはネコ、歌手のアリアナ・グランデの高音にはホイッスルというラベルが付けられてしまっている。推定によると、イメージネットのテストセットによるラベルエラー率は5.8%だ。一方、手書きの絵を収集した「クイック・ドロー(QuickDraw)」のテストセットによるエラー率は10.1%と推定されている。

モデルの評価に使用される10種類のデータセットにはそれぞれ、そのモデルを訓練するために使用されたデータセットがある。今回の研究をしたMIT大学院生のカーティス・G・ノースカット、アニッシュ・アタリー、ジョナス・ミューラーは、訓練用データセットを使って機械学習モデルを開発し、テストデータのラベル付けの予測に使用した。このモデルが元のラベルと一致しない場合は、そのデータポイントにフラグを立て、人による確認作業を実施した。具体的には、アマゾン・メカニカル・タークの5人のレビュアーが、このモデルの付けたラベルと元のラベルのどちらが正しいと思うかを投票した。人間のレビュアーの過半数がこのモデルのラベル付けに同意した場合、元のラベルは誤りとして集計され、その後修正された。

データセットのラベル付けに誤りがあることは、重大な問題だ。研究チームは、以前にイメージネットのテストセットに対する性能が測定された34種類のモデルを調査した。そして、データラベルが間違っていることが判明した約1500の例に対して各モデルを再評価した。その結果、元の 間違ったラベルではあまり良い評価が得られていなかったモデルが、ラベルを修正した後では最も良い評価を得られるようになった。特に、グーグルなどの大手テック企業が画像認識に使用し、最も優れていると見なされている複雑なモデルより、単純なモデルの方が、修正後のデータでは良い結果が得られるようであった。つまり、テストデータに欠陥があるために、より複雑なモデルの性能を実際よりも優れていると誤認識している可能性があるのだ。

ではどうすればよいのだろうか。ノースカットは、AI分野で、モデルの評価や同分野の進歩の調査に使用する、より欠陥の少ないデータセットを作成することを推奨している。また、研究者が自分のデータを扱う際には、データの正確性を改善することを勧めている。さもないと、「ノイズの多いデータセットを使って多くのモデルをテストし、実世界で導入しようとした場合」に間違ったモデルを選んでしまう可能性がある、とノースカットは言う。そのため、ノースカットは、今回の研究でラベルエラーを修正するために使用したコードをオープンソース化した。このコードは、すでにいくつかの大手テック企業で使われているとのことだ。

人気の記事ランキング
  1. Here’s how a Twitter engineer says it will break in the coming weeks ツイッターで「非公式RT」が一時復活、崩壊の始まりか
  2. Former Twitter employees fear the platform might only last weeks 「ハードコア」大量離職で、元従業員らがツイッターに余命宣告
  3. When you lose weight, where does it go? 解説:ダイエットで減った体重はどこに行ったのか?
カーレン・ハオ [Karen Hao]米国版 AI担当記者
MITテクノロジーレビューの人工知能(AI)担当記者。特に、AIの倫理と社会的影響、社会貢献活動への応用といった領域についてカバーしています。AIに関する最新のニュースと研究内容を厳選して紹介する米国版ニュースレター「アルゴリズム(Algorithm)」の執筆も担当。グーグルX(Google X)からスピンアウトしたスタートアップ企業でのアプリケーション・エンジニア、クオーツ(Quartz)での記者/データ・サイエンティストの経験を経て、MITテクノロジーレビューに入社しました。
日本発「世界を変える」35歳未満のイノベーター

MITテクノロジーレビューが20年以上にわたって開催しているグローバル・アワード「Innovators Under 35 」。世界的な課題解決に取り組み、向こう数十年間の未来を形作る若きイノベーターの発掘を目的とするアワードの日本版の最新情報を発信する。

記事一覧を見る
人気の記事ランキング
  1. Here’s how a Twitter engineer says it will break in the coming weeks ツイッターで「非公式RT」が一時復活、崩壊の始まりか
  2. Former Twitter employees fear the platform might only last weeks 「ハードコア」大量離職で、元従業員らがツイッターに余命宣告
  3. When you lose weight, where does it go? 解説:ダイエットで減った体重はどこに行ったのか?
MITテクノロジーレビュー[日本版] Vol.8
MITテクノロジーレビュー[日本版] Vol.8脱炭素イノベーション

2050年のカーボンニュートラル(炭素中立)の実現に向けて、世界各国で研究開発が加速する脱炭素技術、社会実装が進む気候変動の緩和・適応策などGX(グリーン・トランスフォーメーション)の最新動向を丸ごと1冊取り上げる。

詳細を見る
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る