KADOKAWA Technology Review
×
AIの弱みを人間の力であぶり出す、FBがベンチマークを再発明
Yatheesh Gowda / Pixabay
Facebook wants to make AI better by asking people to break it

AIの弱みを人間の力であぶり出す、FBがベンチマークを再発明

フェイスブックが人工知能(AI)の新たな評価テストを発表した。ベンチマークでよい結果を出すことが目的となってしまい、実際に世の中に役立つAIの開発とはかけ離れた状況を改善することが狙いだ。 by Will Douglas Heaven2020.09.30

人工知能(AI)がこの10年ほどの間に爆発的な成功を遂げたのは、一般的には大量のデータとコンピューティング能力のおかげだとされている。だが、研究者がAIを比較して進歩の度合いを確認できるテスト、ベンチマークもまた、進歩を促進する上で重要な役割を果たしている。例えば、1400万枚の画像を公開しているデータセットのイメージネット(ImageNet)は、画像認識の目標となっている。手書き文字認識のMNISTデータベース(Modified National Institute of Standards and Technology database)も同様だ。自然処理言語のGLUE(General Language Understanding Evaluation)ベンチマークは、GPT-3といった画期的な言語モデルを生み出した。

しかし、固定された目標はすぐに追いついてしまう。イメージネットは画像を更新し、GLUEはより難しい言語タスクのセットである「スーパーGLUE(SuperGLUE)」に置き換えられた。それでも、遅かれ早かれ研究者は、自分たちのAIが超人的なレベルに達し、さまざまな課題において人を凌駕するようになった、と報告するだろう。そして、今後もベンチマークを使って進歩を促進したいと考えるならば、それは問題となる。

そこでフェイスブックは、ベンチマークをハックしようとする人々に対抗して、AIの競争を促す新たなテストをリリースした。ダイナベンチ(Dynabench)というこのテストは、相当難しいものになると予想される。

ベンチマークは多くの誤解を招きやすい、とダイナベンチの開発チームを率いたフェイスブックAIリサーチ(FAIR:Facebook AI Research)のダウ・キエラ博士は話す。ベンチマークでの好成績を目標にしすぎると、より広い目標を見失うことになりかねない。ベンチマークの結果が、目標になってしまう恐れがあるからだ。

「結果として、ベンチマークでは人よりも優れているが、全体的なタスクではそれほど秀でたシステムになっていないことがあります」とキエラ博士はいう。「大きな思い違いを生んでしまうのです。開発したAIが、実際の能力よりも、はるかに進んでいるように見せかけてしまうのです」。

キエラ博士は、今特に問題なのが自然言語処理(NLP)だと考えている。GPT-3といった言語モデルが知的に感じられるのは、言語模倣能力に大変優れているからだ。だが、こうしたシステムが実際にどの程度、言語を理解しているのかは分からない。

キエラ博士によると、人間の知能測定について考えるとよく分かるという。人間にIQテストをしても、その人が本当に出された課題について理解しているかどうかは分からない。それを知るためには、その人と話し、質問する必要がある。

ダイナベンチもこれと同様に、人間を使ってAIを詮索していくというものだ。9月24日に公開されたダイナベンチでは、Webサイト上でモデルに質問を出すように誘導される。例えば、言語モデルにウィキペディアのページを与えて、質問を出し、回答を採点する。

ある意味、人々がGPT-3にいろいろなテストを仕掛けたり、ローブナー賞(Loebner Prize:ボットが人として認められるかどうかを競うコンテスト)でチャットボットを評価したりといった、AIの限界をテストする方法に考え方としては近い。ただダイナベンチでは、テスト中に表面化した不具合は自動的に将来のモデルにフィードバックされ、常に改善されていく。

今のところ、ダイナベンチは言語モデルに特化している。人がAIとやり取りする上で、言語モデルは最も利用されやすい類のAIに属するからだ。「言語は誰もが話すものですから」 とキエラ博士は言う。「言語モデルに不具合を起こさせる方法について、本格的な知識は必要ないのです」。

だがこのアプローチは、音声や画像の認識システムといった他の種類のニューラル・ネットワークでも効果を発揮すると考えられる。テストに必要なのは、人々に自分の画像をアップロードしてもらったり、場合によっては絵を描いてもらったりする方法だけだ、とキアラ博士は話す。「こうしたテストの長期的なビジョンは、誰もが自分独自のテスト・モデルを作り、自分独自のデータを集め始められるようにするテスト自体のオープン化です」。

「開発したAIの進歩の度合いを測定するためのもっと良い方法があるとAIコミュニティに納得させたいのです」とキアラ博士はつけ加えた。「うまくいけばAIの進歩を促進し、いまだに機械学習モデルが失敗する理由を理解するのに役立つはずです」。

人気の記事ランキング
  1. These scientists used CRISPR to put an alligator gene into catfish ワニの遺伝子を組み込んだ「CRISPRナマズ」が米国で誕生
  2. People are already using ChatGPT to create workout plans チャットGPTはパーソナルトレーナーになるか? 実際に試してみた
  3. Why EVs won’t replace hybrid cars anytime soon トヨタの賭け、EV一辺倒ではなくハイブリッド車を売り続ける理由
  4. What’s next for batteries リチウムイオン以外の選択肢は台頭するか? 23年の電池業界を占う
  5. Inside Japan’s long experiment in automating elder care 高齢者介護を「自動化」する 日本の長い実験
ウィル・ダグラス・ヘブン [Will Douglas Heaven]米国版 AI担当上級編集者
AI担当上級編集者として、新研究や新トレンド、その背後にいる人々を取材しています。前職では、テクノロジーと政治に関するBBCのWebサイト「フューチャー・ナウ(Future Now)」の創刊編集長、ニュー・サイエンティスト(New Scientist)誌のテクノロジー統括編集長を務めていました。インペリアル・カレッジ・ロンドンでコンピュータサイエンスの博士号を取得しており、ロボット制御についての知識があります。
2023年のテクノロジー大予測

2023年のテクノロジーはどう動くのか? AIから量子コンピューター、宇宙開発、mRNAワクチンまで、重要トレンドをMITテクノロジーレビューが徹底予測。各分野の専門家や有力プレイヤーへの取材をもとに、技術・資金・政策などの多角的な視点で解説する。

記事一覧を見る
人気の記事ランキング
  1. These scientists used CRISPR to put an alligator gene into catfish ワニの遺伝子を組み込んだ「CRISPRナマズ」が米国で誕生
  2. People are already using ChatGPT to create workout plans チャットGPTはパーソナルトレーナーになるか? 実際に試してみた
  3. Why EVs won’t replace hybrid cars anytime soon トヨタの賭け、EV一辺倒ではなくハイブリッド車を売り続ける理由
  4. What’s next for batteries リチウムイオン以外の選択肢は台頭するか? 23年の電池業界を占う
  5. Inside Japan’s long experiment in automating elder care 高齢者介護を「自動化」する 日本の長い実験
MITテクノロジーレビュー[日本版] Vol.9
MITテクノロジーレビュー[日本版] Vol.9量子時代のコンピューティング

グーグルやIBMなどの巨大テック企業からベンチャーまで、世界的な開発競争が加速する「量子コンピューター」を中心に、コンピューティングの動向を取り上げる。

詳細を見る
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る