KADOKAWA Technology Review
×
AIの弱みを人間の力であぶり出す、FBがベンチマークを再発明
Yatheesh Gowda / Pixabay
Facebook wants to make AI better by asking people to break it

AIの弱みを人間の力であぶり出す、FBがベンチマークを再発明

フェイスブックが人工知能(AI)の新たな評価テストを発表した。ベンチマークでよい結果を出すことが目的となってしまい、実際に世の中に役立つAIの開発とはかけ離れた状況を改善することが狙いだ。 by Will Douglas Heaven2020.09.30

人工知能(AI)がこの10年ほどの間に爆発的な成功を遂げたのは、一般的には大量のデータとコンピューティング能力のおかげだとされている。だが、研究者がAIを比較して進歩の度合いを確認できるテスト、ベンチマークもまた、進歩を促進する上で重要な役割を果たしている。例えば、1400万枚の画像を公開しているデータセットのイメージネット(ImageNet)は、画像認識の目標となっている。手書き文字認識のMNISTデータベース(Modified National Institute of Standards and Technology database)も同様だ。自然処理言語のGLUE(General Language Understanding Evaluation)ベンチマークは、GPT-3といった画期的な言語モデルを生み出した。

しかし、固定された目標はすぐに追いついてしまう。イメージネットは画像を更新し、GLUEはより難しい言語タスクのセットである「スーパーGLUE(SuperGLUE)」に置き換えられた。それでも、遅かれ早かれ研究者は、自分たちのAIが超人的なレベルに達し、さまざまな課題において人を凌駕するようになった、と報告するだろう。そして、今後もベンチマークを使って進歩を促進したいと考えるならば、それは問題となる。

そこでフェイスブックは、ベンチマークをハックしようとする人々に対抗して、AIの競争を促す新たなテストをリリースした。ダイナベンチ(Dynabench)というこのテストは、相当難しいものになると予想される。

ベンチマークは多くの誤解を招きやすい、とダイナベンチの開発チームを率いたフェイスブックAIリサーチ(FAIR:Facebook AI Research)のダウ・キエラ博士は話す。ベンチマークでの好成績を目標にしすぎると、より広い目標を見失うことになりかねない。ベンチマークの結果が、目標になってしまう恐れがあるからだ。

「結果として、ベンチマークでは人よりも優れているが、全体的なタスクではそれほど秀でたシステムになっていないことがあります」とキエラ博士はいう。「大きな思い違いを生んでしまうのです。開発したAIが、実際の能力よりも、はるかに進んでいるように見せかけてしまうのです」。

キエラ博士は、今特に問題なのが自然言語処理(NLP)だと考えている。GPT-3といった言語モデルが知的に感じられるのは、言語模倣能力に大変優れているからだ。だが、こうしたシステムが実際にどの程度、言語を理解しているのかは分からない。

キエラ博士によると、人間の知能測定について考えるとよく分かるという。人間にIQテストをしても、その人が本当に出された課題について理解しているかどうかは分からない。それを知るためには、その人と話し、質問する必要がある。

ダイナベンチもこれと同様に、人間を使ってAIを詮索していくというものだ。9月24日に公開されたダイナベンチでは、Webサイト上でモデルに質問を出すように誘導される。例えば、言語モデルにウィキペディアのページを与えて、質問を出し、回答を採点する。

ある意味、人々がGPT-3にいろいろなテストを仕掛けたり、ローブナー賞(Loebner Prize:ボットが人として認められるかどうかを競うコンテスト)でチャットボットを評価したりといった、AIの限界をテストする方法に考え方としては近い。ただダイナベンチでは、テスト中に表面化した不具合は自動的に将来のモデルにフィードバックされ、常に改善されていく。

今のところ、ダイナベンチは言語モデルに特化している。人がAIとやり取りする上で、言語モデルは最も利用されやすい類のAIに属するからだ。「言語は誰もが話すものですから」 とキエラ博士は言う。「言語モデルに不具合を起こさせる方法について、本格的な知識は必要ないのです」。

だがこのアプローチは、音声や画像の認識システムといった他の種類のニューラル・ネットワークでも効果を発揮すると考えられる。テストに必要なのは、人々に自分の画像をアップロードしてもらったり、場合によっては絵を描いてもらったりする方法だけだ、とキアラ博士は話す。「こうしたテストの長期的なビジョンは、誰もが自分独自のテスト・モデルを作り、自分独自のデータを集め始められるようにするテスト自体のオープン化です」。

「開発したAIの進歩の度合いを測定するためのもっと良い方法があるとAIコミュニティに納得させたいのです」とキアラ博士はつけ加えた。「うまくいけばAIの進歩を促進し、いまだに機械学習モデルが失敗する理由を理解するのに役立つはずです」。

人気の記事ランキング
  1. This new image shows off magnetic fields swirling around a black hole 周囲の磁場くっきり、初撮影チームがブラックホール最新画像を公開
  2. What are the ingredients of Pfizer’s covid-19 vaccine? ファイザーの新型コロナワクチンの成分は?専門家が解説
  3. Error-riddled datasets are warping our sense of how good AI really is AIモデル評価用データセットに多数の誤り、実は優秀ではなかった?
  4. Google’s top security teams unilaterally shut down a counterterrorism operation グーグルが報告した手練れのハッキング集団、実は欧米の工作員
  5. Covid-19 immunity likely lasts for years 新型コロナ、免疫は長期間持続か=米新研究
ウィル・ダグラス・ヘブン [Will Douglas Heaven]米国版 AI担当上級編集者
AI担当上級編集者として、新研究や新トレンド、その背後にいる人々を取材しています。前職では、テクノロジーと政治に関するBBCのWebサイト「フューチャー・ナウ(Future Now)」の創刊編集長、ニュー・サイエンティスト(New Scientist)誌のテクノロジー統括編集長を務めていました。インペリアル・カレッジ・ロンドンでコンピュータサイエンスの博士号を取得しており、ロボット制御についての知識があります。
Innovators Under 35 Japan 2020

MITテクノロジーレビューが主催するグローバル・アワード「Innovators Under 35」が2020年、日本に上陸する。特定の分野や業界だけでなく、世界全体にとって重要かつ独創的なイノベーターを発信していく取り組みを紹介しよう。

記事一覧を見る
人気の記事ランキング
  1. This new image shows off magnetic fields swirling around a black hole 周囲の磁場くっきり、初撮影チームがブラックホール最新画像を公開
  2. What are the ingredients of Pfizer’s covid-19 vaccine? ファイザーの新型コロナワクチンの成分は?専門家が解説
  3. Error-riddled datasets are warping our sense of how good AI really is AIモデル評価用データセットに多数の誤り、実は優秀ではなかった?
  4. Google’s top security teams unilaterally shut down a counterterrorism operation グーグルが報告した手練れのハッキング集団、実は欧米の工作員
  5. Covid-19 immunity likely lasts for years 新型コロナ、免疫は長期間持続か=米新研究
MITテクノロジーレビュー[日本版] Vol.3/Spring 2021
MITテクノロジーレビュー[日本版] Vol.3/Spring 2021Innovation Issue

AI/ロボット工学、コンピューター/電子機器、輸送、ソフトウェア、インターネット分野で活躍する13人の日本発のイノベーターを紹介。併せて、グローバルで活躍する35人のイノベーターの紹介と、注目のイノベーション分野の動向解説も掲載しました。
日本と世界のイノベーションの最新情報がまとめて読める1冊です。

詳細を見る
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る