KADOKAWA Technology Review
×
来たれ、世界を変える若きイノベーター
「Innovators Under 35」日本初開催!
AIの弱みを人間の力であぶり出す、FBがベンチマークを再発明
Yatheesh Gowda / Pixabay
Facebook wants to make AI better by asking people to break it

AIの弱みを人間の力であぶり出す、FBがベンチマークを再発明

フェイスブックが人工知能(AI)の新たな評価テストを発表した。ベンチマークでよい結果を出すことが目的となってしまい、実際に世の中に役立つAIの開発とはかけ離れた状況を改善することが狙いだ。 by Will Douglas Heaven2020.09.30

人工知能(AI)がこの10年ほどの間に爆発的な成功を遂げたのは、一般的には大量のデータとコンピューティング能力のおかげだとされている。だが、研究者がAIを比較して進歩の度合いを確認できるテスト、ベンチマークもまた、進歩を促進する上で重要な役割を果たしている。例えば、1400万枚の画像を公開しているデータセットのイメージネット(ImageNet)は、画像認識の目標となっている。手書き文字認識のMNISTデータベース(Modified National Institute of Standards and Technology database)も同様だ。自然処理言語のGLUE(General Language Understanding Evaluation)ベンチマークは、GPT-3といった画期的な言語モデルを生み出した。

しかし、固定された目標はすぐに追いついてしまう。イメージネットは画像を更新し、GLUEはより難しい言語タスクのセットである「スーパーGLUE(SuperGLUE)」に置き換えられた。それでも、遅かれ早かれ研究者は、自分たちのAIが超人的なレベルに達し、さまざまな課題において人を凌駕するようになった、と報告するだろう。そして、今後もベンチマークを使って進歩を促進したいと考えるならば、それは問題となる。

そこでフェイスブックは、ベンチマークをハックしようとする人々に対抗して、AIの競争を促す新たなテストをリリースした。ダイナベンチ(Dynabench)というこのテストは、相当難しいものになると予想される。

ベンチマークは多くの誤解を招きやすい、とダイナベンチの開発チームを率いたフェイスブックAIリサーチ(FAIR:Facebook AI Research)のダウ・キエラ博士は話す。ベンチマークでの好成績を目標にしすぎると、より広い目標を見失うことになりかねない。ベンチマークの結果が、目標になってしまう恐れがあるからだ。

「結果として、ベンチマークでは人よりも優れているが、全体的なタスクではそれほど秀でたシステムになっていないことがあります」とキエラ博士はいう。「大きな思い違いを生んでしまうのです。開発したAIが、実際の能力よりも、はるかに進んでいるように見せかけてしまうのです」。

キエラ博士は、今特に問題なのが自然言語処理(NLP)だと考えている。GPT-3といった言語モデルが知的に感じられるのは、言語模倣能力に大変優れているからだ。だが、こうしたシステムが実際にどの程度、言語を理解しているのかは分からない。

キエラ博士によると、人間の知能測定について考えるとよく分かるという。人間にIQテストをしても、その人が本当に出された課題について理解しているかどうかは分からない。それを知るためには、その人と話し、質問する必要がある。

ダイナベンチもこれと同様に、人間を使ってAIを詮索していくというものだ。9月24日に公開されたダイナベンチでは、Webサイト上でモデルに質問を出すように誘導される。例えば、言語モデルにウィキペディアのページを与えて、質問を出し、回答を採点する。

ある意味、人々がGPT-3にいろいろなテストを仕掛けたり、ローブナー賞(Loebner Prize:ボットが人として認められるかどうかを競うコンテスト)でチャットボットを評価したりといった、AIの限界をテストする方法に考え方としては近い。ただダイナベンチでは、テスト中に表面化した不具合は自動的に将来のモデルにフィードバックされ、常に改善されていく。

今のところ、ダイナベンチは言語モデルに特化している。人がAIとやり取りする上で、言語モデルは最も利用されやすい類のAIに属するからだ。「言語は誰もが話すものですから」 とキエラ博士は言う。「言語モデルに不具合を起こさせる方法について、本格的な知識は必要ないのです」。

だがこのアプローチは、音声や画像の認識システムといった他の種類のニューラル・ネットワークでも効果を発揮すると考えられる。テストに必要なのは、人々に自分の画像をアップロードしてもらったり、場合によっては絵を描いてもらったりする方法だけだ、とキアラ博士は話す。「こうしたテストの長期的なビジョンは、誰もが自分独自のテスト・モデルを作り、自分独自のデータを集め始められるようにするテスト自体のオープン化です」。

「開発したAIの進歩の度合いを測定するためのもっと良い方法があるとAIコミュニティに納得させたいのです」とキアラ博士はつけ加えた。「うまくいけばAIの進歩を促進し、いまだに機械学習モデルが失敗する理由を理解するのに役立つはずです」。

人気の記事ランキング
  1. There might be even more underground reservoirs of liquid water on Mars 火星の南極に新たな地下湖、生命体が見つかる可能性も
  2. The deadline for IU35 Japan entries is approaching Innovators Under 35 Japan、候補者の応募・推薦締切迫る
  3. Satellite mega-constellations risk ruining astronomy forever 増え続ける人工衛星群で天体観測が台無し、解決策はあるか?
  4. Room-temperature superconductivity has been achieved for the first time 世界初、15°C「室温超伝導」達成 夢の新技術へ突破口
  5. Astronauts on the ISS are hunting for the source of another mystery air leak ISSで再び原因不明の空気漏れ、乗組員が発生場所を調査中
ウィル・ダグラス・ヘブン [Will Douglas Heaven]米国版 AI担当上級編集者
AI担当上級編集者として、新研究や新トレンド、その背後にいる人々を取材しています。前職では、テクノロジーと政治に関するBBCのWebサイト「フューチャー・ナウ(Future Now)」の創刊編集長、ニュー・サイエンティスト(New Scientist)誌のテクノロジー統括編集長を務めていました。インペリアル・カレッジ・ロンドンでコンピュータサイエンスの博士号を取得しており、ロボット制御についての知識があります。
Innovators Under 35 Japan 2020

MITテクノロジーレビューが主催するグローバル・アワード「Innovators Under 35」が2020年、日本に上陸する。特定の分野や業界だけでなく、世界全体にとって重要かつ独創的なイノベーターを発信していく取り組みを紹介しよう。

記事一覧を見る
人気の記事ランキング
  1. There might be even more underground reservoirs of liquid water on Mars 火星の南極に新たな地下湖、生命体が見つかる可能性も
  2. The deadline for IU35 Japan entries is approaching Innovators Under 35 Japan、候補者の応募・推薦締切迫る
  3. Satellite mega-constellations risk ruining astronomy forever 増え続ける人工衛星群で天体観測が台無し、解決策はあるか?
  4. Room-temperature superconductivity has been achieved for the first time 世界初、15°C「室温超伝導」達成 夢の新技術へ突破口
  5. Astronauts on the ISS are hunting for the source of another mystery air leak ISSで再び原因不明の空気漏れ、乗組員が発生場所を調査中
MITテクノロジーレビュー[日本版] Vol.1/Autumn 2020
MITテクノロジーレビュー[日本版] Vol.1/Autumn 2020AI Issue

技術動向から社会実装の先進事例、倫理・ガバナンスまで、
AI戦略の2020年代のあたらしい指針。

詳細を見る
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る