KADOKAWA Technology Review
×
AIの弱みを人間の力であぶり出す、FBがベンチマークを再発明
Yatheesh Gowda / Pixabay
Facebook wants to make AI better by asking people to break it

AIの弱みを人間の力であぶり出す、FBがベンチマークを再発明

フェイスブックが人工知能(AI)の新たな評価テストを発表した。ベンチマークでよい結果を出すことが目的となってしまい、実際に世の中に役立つAIの開発とはかけ離れた状況を改善することが狙いだ。 by Will Douglas Heaven2020.09.30

人工知能(AI)がこの10年ほどの間に爆発的な成功を遂げたのは、一般的には大量のデータとコンピューティング能力のおかげだとされている。だが、研究者がAIを比較して進歩の度合いを確認できるテスト、ベンチマークもまた、進歩を促進する上で重要な役割を果たしている。例えば、1400万枚の画像を公開しているデータセットのイメージネット(ImageNet)は、画像認識の目標となっている。手書き文字認識のMNISTデータベース(Modified National Institute of Standards and Technology database)も同様だ。自然処理言語のGLUE(General Language Understanding Evaluation)ベンチマークは、GPT-3といった画期的な言語モデルを生み出した。

しかし、固定された目標はすぐに追いついてしまう。イメージネットは画像を更新し、GLUEはより難しい言語タスクのセットである「スーパーGLUE(SuperGLUE)」に置き換えられた。それでも、遅かれ早かれ研究者は、自分たちのAIが超人的なレベルに達し、さまざまな課題において人を凌駕するようになった、と報告するだろう。そして、今後もベンチマークを使って進歩を促進したいと考えるならば、それは問題となる。

そこでフェイスブックは、ベンチマークをハックしようとする人々に対抗して、AIの競争を促す新たなテストをリリースした。ダイナベンチ(Dynabench)というこのテストは、相当難しいものになると予想される。

ベンチマークは多くの誤解を招きやすい、とダイナベンチの開発チームを率いたフェイスブックAIリサーチ(FAIR:Facebook AI Research)のダウ・キエラ博士は話す。ベンチマークでの好成績を目標にしすぎると、より広い目標を見失うことになりかねない。ベンチマークの結果が、目標になってしまう恐れがあるからだ。

「結果として、ベンチマークでは人よりも優れているが、全体的なタスクではそれほど秀でたシステムになっていないことがあります」とキエラ博士はいう。「大きな思い違いを生んでしまうのです。開発したAIが、実際の能力よりも、はるかに進んでいるように見せかけてしまうのです」。

キエラ博士は、今特に問題なのが自然言語処理(NLP)だと考えている。GPT-3といった言語モデルが知的に感じられるのは、言語模倣能力に大変優れているからだ。だが、こうしたシステムが実際にどの程度、言語を理解しているのかは分からない。

キエラ博士によると、人間の知能測定について考えるとよく分かるという。人間にIQテストをしても、その人が本当に出された課題について理解しているかどうかは分からない。それを知るためには、その人と話し、質問する必要がある。

ダイナベンチもこれと同様に、人間を使ってAIを詮索していくというものだ。9月24日に公開されたダイナベンチでは、Webサイト上でモデルに質問を出すように誘導される。例えば、言語モデルにウィキペディアのページを与えて、質問を出し、回答を採点する。

ある意味、人々がGPT-3にいろいろなテストを仕掛けたり、ローブナー賞(Loebner Prize:ボットが人として認められるかどうかを競うコンテスト)でチャットボットを評価したりといった、AIの限界をテストする方法に考え方としては近い。ただダイナベンチでは、テスト中に表面化した不具合は自動的に将来のモデルにフィードバックされ、常に改善されていく。

今のところ、ダイナベンチは言語モデルに特化している。人がAIとやり取りする上で、言語モデルは最も利用されやすい類のAIに属するからだ。「言語は誰もが話すものですから」 とキエラ博士は言う。「言語モデルに不具合を起こさせる方法について、本格的な知識は必要ないのです」。

だがこのアプローチは、音声や画像の認識システムといった他の種類のニューラル・ネットワークでも効果を発揮すると考えられる。テストに必要なのは、人々に自分の画像をアップロードしてもらったり、場合によっては絵を描いてもらったりする方法だけだ、とキアラ博士は話す。「こうしたテストの長期的なビジョンは、誰もが自分独自のテスト・モデルを作り、自分独自のデータを集め始められるようにするテスト自体のオープン化です」。

「開発したAIの進歩の度合いを測定するためのもっと良い方法があるとAIコミュニティに納得させたいのです」とキアラ博士はつけ加えた。「うまくいけばAIの進歩を促進し、いまだに機械学習モデルが失敗する理由を理解するのに役立つはずです」。

人気の記事ランキング
  1. The problems with Elon Musk’s plan to open source the Twitter algorithm Eマスクがツイッター買収でぶち上げたオープンソース化が危うい理由
  2. Meta has built a massive new language AI—and it’s giving it away for free メタ、「GPT-3並み」の大規模言語モデルを研究者向けに無償提供
  3. How EnChroma’s Glasses Correct Color-Blindness 色覚補正メガネ エンクロマの仕組み
  4. These hackers showed just how easy it is to target critical infrastructure 発電所も使う通信プロトコルのハッキング、わずか2日で攻略
ウィル・ダグラス・ヘブン [Will Douglas Heaven]米国版 AI担当上級編集者
AI担当上級編集者として、新研究や新トレンド、その背後にいる人々を取材しています。前職では、テクノロジーと政治に関するBBCのWebサイト「フューチャー・ナウ(Future Now)」の創刊編集長、ニュー・サイエンティスト(New Scientist)誌のテクノロジー統括編集長を務めていました。インペリアル・カレッジ・ロンドンでコンピュータサイエンスの博士号を取得しており、ロボット制御についての知識があります。
日本発「世界を変える」35歳未満のイノベーター

MITテクノロジーレビューが20年以上にわたって開催しているグローバル・アワード「Innovators Under 35 」。世界的な課題解決に取り組み、向こう数十年間の未来を形作る若きイノベーターの発掘を目的とするアワードの日本版の最新情報を発信する。

記事一覧を見る
人気の記事ランキング
  1. The problems with Elon Musk’s plan to open source the Twitter algorithm Eマスクがツイッター買収でぶち上げたオープンソース化が危うい理由
  2. Meta has built a massive new language AI—and it’s giving it away for free メタ、「GPT-3並み」の大規模言語モデルを研究者向けに無償提供
  3. How EnChroma’s Glasses Correct Color-Blindness 色覚補正メガネ エンクロマの仕組み
  4. These hackers showed just how easy it is to target critical infrastructure 発電所も使う通信プロトコルのハッキング、わずか2日で攻略
MITテクノロジーレビュー[日本版] Vol.6
MITテクノロジーレビュー[日本版] Vol.6世界を変えるイノベーター50人

mRNAがん治療の事業化を目指す起業家、日本発の量子コンピューター技術を提唱する研究者、グーグルが採用した人工音声を開発した技術者、中国の次世代人工太陽の理論モデルを確立した科学者——。
MITテクノロジーレビューが選んだ、世界のイノベーター35人と日本発のイノベーター15人を一挙紹介。

詳細を見る
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る