KADOKAWA Technology Review
×
AIの弱みを人間の力であぶり出す、FBがベンチマークを再発明
Yatheesh Gowda / Pixabay
Facebook wants to make AI better by asking people to break it

AIの弱みを人間の力であぶり出す、FBがベンチマークを再発明

フェイスブックが人工知能(AI)の新たな評価テストを発表した。ベンチマークでよい結果を出すことが目的となってしまい、実際に世の中に役立つAIの開発とはかけ離れた状況を改善することが狙いだ。 by Will Douglas Heaven2020.09.30

人工知能(AI)がこの10年ほどの間に爆発的な成功を遂げたのは、一般的には大量のデータとコンピューティング能力のおかげだとされている。だが、研究者がAIを比較して進歩の度合いを確認できるテスト、ベンチマークもまた、進歩を促進する上で重要な役割を果たしている。例えば、1400万枚の画像を公開しているデータセットのイメージネット(ImageNet)は、画像認識の目標となっている。手書き文字認識のMNISTデータベース(Modified National Institute of Standards and Technology database)も同様だ。自然処理言語のGLUE(General Language Understanding Evaluation)ベンチマークは、GPT-3といった画期的な言語モデルを生み出した。

しかし、固定された目標はすぐに追いついてしまう。イメージネットは画像を更新し、GLUEはより難しい言語タスクのセットである「スーパーGLUE(SuperGLUE)」に置き換えられた。それでも、遅かれ早かれ研究者は、自分たちのAIが超人的なレベルに達し、さまざまな課題において人を凌駕するようになった、と報告するだろう。そして、今後もベンチマークを使って進歩を促進したいと考えるならば、それは問題となる。

そこでフェイスブックは、ベンチマークをハックしようとする人々に対抗して、AIの競争を促す新たなテストをリリースした。ダイナベンチ(Dynabench)というこのテストは、相当難しいものになると予想される。

ベンチマークは多くの誤解を招きやすい、とダイナベンチの開発チームを率いたフェイスブックAIリサーチ(FAIR:Facebook AI Research)のダウ・キエラ博士は話す。ベンチマークでの好成績を目標にしすぎると、より広い目標を見失うことになりかねない。ベンチマークの結果が、目標になってしまう恐れがあるからだ。

「結果として、ベンチマークでは人よりも優れているが、全体的なタスクではそれほど秀でたシステムになっていないことがあります」とキエラ博士はいう。「大きな思い違いを生んでしまうのです。開発したAIが、実際の能力よりも、はるかに進んでいるように見せかけてしまうのです」。

キエラ博士は、今特に問題なのが自然言語処理(NLP)だと考えている。GPT-3といった言語モデルが知的に感じられるのは、言語模倣能力に大変優れているからだ。だが、こうしたシステムが実際にどの程度、言語を理解しているのかは分からない。

キエラ博士によると、人間の知能測定について考えるとよく分かるという。人間にIQテストをしても、その人が本当に出された課題について理解しているかどうかは分からない。それを知るためには、その人と話し、質問する必要がある。

ダイナベンチもこれと同様に、人間を使ってAIを詮索していくというものだ。9月24日に公開されたダイナベンチでは、Webサイト上でモデルに質問を出すように誘導される。例えば、言語モデルにウィキペディアのページを与えて、質問を出し、回答を採点する。

ある意味、人々がGPT-3にいろいろなテストを仕掛けたり、ローブナー賞(Loebner Prize:ボットが人として認められるかどうかを競うコンテスト)でチャットボットを評価したりといった、AIの限界をテストする方法に考え方としては近い。ただダイナベンチでは、テスト中に表面化した不具合は自動的に将来のモデルにフィードバックされ、常に改善されていく。

今のところ、ダイナベンチは言語モデルに特化している。人がAIとやり取りする上で、言語モデルは最も利用されやすい類のAIに属するからだ。「言語は誰もが話すものですから」 とキエラ博士は言う。「言語モデルに不具合を起こさせる方法について、本格的な知識は必要ないのです」。

だがこのアプローチは、音声や画像の認識システムといった他の種類のニューラル・ネットワークでも効果を発揮すると考えられる。テストに必要なのは、人々に自分の画像をアップロードしてもらったり、場合によっては絵を描いてもらったりする方法だけだ、とキアラ博士は話す。「こうしたテストの長期的なビジョンは、誰もが自分独自のテスト・モデルを作り、自分独自のデータを集め始められるようにするテスト自体のオープン化です」。

「開発したAIの進歩の度合いを測定するためのもっと良い方法があるとAIコミュニティに納得させたいのです」とキアラ博士はつけ加えた。「うまくいけばAIの進歩を促進し、いまだに機械学習モデルが失敗する理由を理解するのに役立つはずです」。

人気の記事ランキング
  1. Singapore’s police now have access to contact tracing data シンガポールの接触追跡アプリが方針転換、犯罪捜査でも利用可に
  2. The winners of Innovators under 35 Japan 2020 have been announced MITTRが選ぶ、日本発の35歳未満のイノベーターを発表
  3. Don’t panic about the latest coronavirus mutations, say drug companies 新型コロナ「変異種」を過度に恐れる必要がないこれだけの理由
  4. Don’t worry, the earth is doomed 人類を滅亡に導く、15の破壊的リスク
  5. The kitchen of the future is here, it’s just not evenly distributed 電子レンジ、真空調理器超える「キッチン・テクノロジー」の未来
ウィル・ダグラス・ヘブン [Will Douglas Heaven]米国版 AI担当上級編集者
AI担当上級編集者として、新研究や新トレンド、その背後にいる人々を取材しています。前職では、テクノロジーと政治に関するBBCのWebサイト「フューチャー・ナウ(Future Now)」の創刊編集長、ニュー・サイエンティスト(New Scientist)誌のテクノロジー統括編集長を務めていました。インペリアル・カレッジ・ロンドンでコンピュータサイエンスの博士号を取得しており、ロボット制御についての知識があります。
Innovators Under 35 Japan 2020

MITテクノロジーレビューが主催するグローバル・アワード「Innovators Under 35」が2020年、日本に上陸する。特定の分野や業界だけでなく、世界全体にとって重要かつ独創的なイノベーターを発信していく取り組みを紹介しよう。

記事一覧を見る
人気の記事ランキング
  1. Singapore’s police now have access to contact tracing data シンガポールの接触追跡アプリが方針転換、犯罪捜査でも利用可に
  2. The winners of Innovators under 35 Japan 2020 have been announced MITTRが選ぶ、日本発の35歳未満のイノベーターを発表
  3. Don’t panic about the latest coronavirus mutations, say drug companies 新型コロナ「変異種」を過度に恐れる必要がないこれだけの理由
  4. Don’t worry, the earth is doomed 人類を滅亡に導く、15の破壊的リスク
  5. The kitchen of the future is here, it’s just not evenly distributed 電子レンジ、真空調理器超える「キッチン・テクノロジー」の未来
MITテクノロジーレビュー[日本版] Vol.2/Winter 2020
MITテクノロジーレビュー[日本版] Vol.2/Winter 2020SDGs Issue

今、世界中の企業や機関の技術者・研究者たちが各地で抱える社会課題を解決し、持続可能な世界の実現へ向けて取り組んでいる「SDGs(持続可能な開発目標)」。
気候変動や貧困といった地球規模の課題の解決策としての先端テクノロジーに焦点を当て、解決に挑む人々の活動や、日本企業がSDGsを経営にどう取り入れ、取り組むべきか、日本が国際社会から期待される役割について、専門家の提言を紹介します。

詳細を見る
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る