リー・ジーウェイ(シャノン、浙江大学)

Jiwei Li リー・ジーウェイ(シャノン、浙江大学)

グーグルとフェイスブックの両企業がリリースした新しいチャットボットでは、リーの手法が中核となっている。 by MIT Technology Review Editors2021.02.08

リー・ジーウェイ(Jiwei Li)は、自然言語処理(NLP)に、ニューラル・ネットワークが試行錯誤で学習する比較的新しい手法である深層強化学習を利用している。NLPは、人間の言語を操作するためのプログラムを作るコンピューター科学の一分野だ。

リーは深層強化学習を使って大量の文章の統語構造を識別することで、意味情報の抽出に優れた機械を開発した。統語(Syntax)とは単語間の文法的な規則を指し、意味(Semantics)とはそれらの意味を指す。

文語(書き言葉)では、意味的に近い関係の単語がページ上の近い場所にあるとは限らない。例えば、動詞と目的語は一連の形容詞や従属節によって区切られることもある。従来、機械で自然言語を解析する場合、明らかな間違いにつながる近接性の重要度を過大評価することが多かった。リーの機械学習アルゴリズムは、文の文法構造を把握し、より高い精度で意味を理解する。リーのNLPシステムは、こうした手法が基礎になっている。

リーは中国で育ち、北京大学で生物学を学んだ後、米国に渡り、コーネル大学で生物物理学の博士過程に進学した。しかし、すぐに専攻分野をNLPに切り替え、最初にカーネギーメロン大学、次にスタンフォード大学で学び、3年足らずでコンピューター科学の博士号を取得した初めての学生となった。

リーはまた、人工知能(AI)に言語データ内のパターンの見つけ方を教える別の方法も模索した。2014年、リーは同僚と共に、ツイッターの投稿と米国の気象データの関係を比較し、天気がユーザーの気分にどのような影響を与えるかを調べた。まず、600件のツイートに手作業で「幸せ」「怒り」「悲しみ」などのラベルづけをした。次に、このラベルつきデータを用いてニューラル・ネットワークを訓練し、ツイート時の感情を識別させた。そして、2010年及び2011年に公開されたすべてのツイートの約2%の感情と地理的位置情報データを相互参照した。

その結果は、意外なものではなかった。雨が降れば気分が落ち込み、暑いと怒りを表現していた。しかし、リーはこの研究によって、大量の文章から隠れた情報を抽出する方法を学んだ。

2017年に研究を終えると、リーは北京に戻り、シャノン(Shannon.ai/香侬科技)というNLPのスタートアップ企業を設立した。シャノンは現在、数十人の従業員を抱え、ベンチャー投資家から2000万ドルの資金提供を受けている。ツイートと天気の研究で実証されたパターンマッチングを基にして、ビジネス・レポートやソーシャルメディアの投稿などの文章から経済予測を引き出す機械学習アルゴリズムを開発している。

リーはまた、自然言語生成という課題に対しても、深層強化学習を適用している。リーにとって、これは当然進むべき次のステップなのだ。一度読めるようになったら、次は書けるようになる、とリーは言う。

優れたチャットボットでさえ、明らかに愚かな間違いをする。不合理な推測をしたり、世界に関する基本的な常識の欠如が明らかになったりする。会話が長くなるほど、AIが発言内容を追跡するのは困難だ。だが、リーの手法によって、AIは言語構造をきちんと把握できる。会話では、発言の統語構造が明示的な場合、主語と目的語の追跡は簡単なのだ。例えば、「Shall we get started?(始めましょうか?)」という質問に対してチャットボットは「Of course!(もちろん)」と答えるかもしれないが、この回答はどのような質問にも使える。一方、リーの手法を使うと「Yes. We’ve got a lot of work to do here(はい、ここでするべきことが、たくさんありますから)」などのように、元の質問の内容に言及した返答ができる。

写真: David Vintiner