バイドゥの言語モデル、「中国語」応用でグーグル、MS抜く

中国のある大手テック企業が昨年末、継続中の人工知能（AI）コンペで、マイクロソフトとグーグルをひっそりと王座から引きずり下ろした。その企業とは、中国においてグーグルに近い企業の筆頭とされるバイドゥ（百度）。「グルー（GLUE、一般言語理解評価：General Language Understanding Evaluation）」として知られているコンペでの出来事だった。

グルーは広く受け入れられているベンチマークであり、AIシステムが人間の言語をどれだけよく理解しているかを評価するのに使われる。文章中から人名や組織名を選び出したり、複数の先行詞がある際に「それ」のような代名詞が何を指すのかを特定するなど、9種のテストで構成されている。つまり、グルーで高得点を取る言語モデルは、読解が必要なさまざまなタスクを扱えるわけだ。100点満点中、平均的な人間の得点は87点付近だ。バイドゥは同社のモデル「アーニー（ERNIE）」を使用することで、90点を上回った初のチームである。

グルーの公開スコアボードは絶えず変化しており、おそらくすぐに別のチームがバイドゥを抜いてトップになるだろう（日本版注：1月22日時点ではグーグルのチームが首位を奪回している）。しかし、バイドゥの成果に関して注目に値するのは、貢献する要素の多様性がいかにAI研究に恩恵をもたらすか、ということだ。バイドゥの研究者たちは、「アーニー（ERNIE、知識統合による拡張表現：Enhanced Representation through kNowledge IntEgration）」を構築するために、中国語に特化した技術を開発しなければならなかった。しかし偶然にも、同じ技術のおかげで「アーニー」の英語の理解が改善しているのだ。

「アーニー」の前身

「アーニー」を正しく理解するため、アーニーの基となったモデルを検討してみよう。グーグルの「バート（BERT）」だ（そう、両方とも『セサミストリート』のキャラクターから名付けられている）。

「バート（BERT、トランスフォーマーによる双方向的エンコード表現：Bidirectional Encoder Representations from Transformers）」が2018年後半に作られる以前は、自然言語モデルはあまり優れたものではなかった。文中の次の単語を予測することには長けており、したがってオートコンプリートのような応用には適していた。しかし、短い文においてでさえ、一連の思考のつながりを持続できな …

こちらは有料会員限定の記事です。 有料会員になると制限なしにご利用いただけます。

有料会員にはメリットがいっぱい！

毎月120本以上更新されるオリジナル記事で、人工知能から遺伝子療法まで、先端テクノロジーの最新動向がわかる。
オリジナル記事をテーマ別に再構成したPDFファイル「eムック」を毎月配信。
重要テーマが押さえられる。
各分野のキーパーソンを招いたトークイベント、関連セミナーに優待価格でご招待。

有料プランの詳細を見る

Baidu has a new trick for teaching AI the meaning of language バイドゥの言語モデル、 「中国語」応用で グーグル、MS抜く

Baidu has a new trick for teaching AI the meaning of language バイドゥの言語モデル、
「中国語」応用で
グーグル、MS抜く