KADOKAWA Technology Review
×
フェイスブック、100言語間で翻訳できる言語モデルを公開
Edurne Chopeitia / Unsplash
Facebook’s new polyglot AI can translate between 100 languages

フェイスブック、100言語間で翻訳できる言語モデルを公開

ファイスブックは、英語を中間言語とせずにさまざまな組み合わせの言語間で直接翻訳が可能な言語モデルを開発した。オープンソースとして公開されている。 by Karen Hao2020.10.22

フェイスブックは、新しい人工知能(AI)の言語モデル「M2M-100」をオープンソース化している。このモデルは、100言語の中からどのペアでも翻訳でき、4950にわたる言語の組み合わせのうち、1100を直接翻訳する。今回のモデルは、中間言語として英語に大きく依存していた旧多言語モデルとは異なる。例えば、中国語からフランス語へ翻訳する場合は通常、中国語から英語に訳し、その後英語からフランス語に訳すため、間違いが発生しやすくなる。

このモデルは75億の文章ペアで訓練された。これほどの大規模なデータセットを集めるために主に使われたのが「自動キュレーション」だ。研究者らはWebクローラーを使用してWeb上から何十億もの文章を集め、別の言語モデルである「ファストテキスト(FastText)」に何の言語であるかを判定させた(フェイスブックのデータは一切使用しなかった)。その後、フェイスブックのAI研究所が以前開発したプログラムである「レーザー(LASER) 2.0」を使って、教師なし学習(手動のラベル付きデータを必要としない機械学習)で多言語間の文章の意味を一致させた。

レーザー2.0は、大規模で構造化されていない文のデータセットから「埋め込み」と呼ばれるものを作成する。各言語内の使用可能な文例で訓練し、それらがどれだけの頻度で、どれほど近くに位置して使用されるかに基づき、相互の関係を対応付けしたものだ。こうした埋め込みは、機械学習モデルが各文の意味を近似するのに役立ち、レーザー2.0は別の言語で同じ意味を持つ文章を自動的にペアリングできるようになる。

フェイスブックの研究者らは、最も要求される頻度が高そうな言語の組み合わせに焦点を絞った。同じ地域に住む人はコミュニケーションをとる機会が多いと考え、言語学的、地理的、文化的類似性に応じて言語を分類した。例えば、ある言語グループにはベンガル語、ヒンディー語、タミル語、ウルドゥー語など、インドで最も一般的に話される言語が含まれる。その後、レーザー2.0は各グループ内の全言語ペアにおける文章ペアを検索の対象とした。

アフリカや東南アジアなどの地域で話される言語は、Webから集められる言語データが少なすぎるため、まだ翻訳の質に問題があるとプロジェクト主任研究員のアンジェラ・ファンはいう。Webのデータを使用しているため、文章に含まれている性差別、人種差別などの差別的偏見を特定し、排除する手法を見つけ出す必要もある。現時点では、不適切な表現を検知するフィルターを使用し、あまりにひどい言葉は一掃しているが、それはほぼ英語に限られている。

現在のところ、フェイスブックは自社のサービスにこのモデルを使用することは考えていない。ファンによると、M2M-100は研究に限った目的で作られたという。だが最終的には、このモデルがフェイスブックの既存の翻訳能力を向上、拡張させることが目標である。ユーザーとのコミュニケーション(例えば投稿を母国語に翻訳できるようにする機能)や、コンテンツ・モデレーションに使われる可能性もある。

人気の記事ランキング
  1. What are the ingredients of Pfizer’s covid-19 vaccine? ファイザーの新型コロナワクチンの成分は?専門家が解説
  2. The first black hole ever discovered is more massive than we thought 白鳥座X-1ブラックホール、従来推定よりはるかに巨大だった
  3. Covid-19 immunity likely lasts for years 新型コロナ、免疫は長期間持続か=米新研究
  4. There’s a tantalizing sign of a habitable-zone planet in Alpha Centauri ケンタウルス座アルファ星のハビタブルゾーンに惑星が存在か
  5. So you got the vaccine. Can you still infect people? Pfizer is trying to find out. ワクチンを打っても マスクを外せない理由
カーレン・ハオ [Karen Hao]米国版 AI担当記者
MITテクノロジーレビューの人工知能(AI)担当記者。特に、AIの倫理と社会的影響、社会貢献活動への応用といった領域についてカバーしています。AIに関する最新のニュースと研究内容を厳選して紹介する米国版ニュースレター「アルゴリズム(Algorithm)」の執筆も担当。グーグルX(Google X)からスピンアウトしたスタートアップ企業でのアプリケーション・エンジニア、クオーツ(Quartz)での記者/データ・サイエンティストの経験を経て、MITテクノロジーレビューに入社しました。
Innovators Under 35 Japan 2020

MITテクノロジーレビューが主催するグローバル・アワード「Innovators Under 35」が2020年、日本に上陸する。特定の分野や業界だけでなく、世界全体にとって重要かつ独創的なイノベーターを発信していく取り組みを紹介しよう。

記事一覧を見る
人気の記事ランキング
  1. What are the ingredients of Pfizer’s covid-19 vaccine? ファイザーの新型コロナワクチンの成分は?専門家が解説
  2. The first black hole ever discovered is more massive than we thought 白鳥座X-1ブラックホール、従来推定よりはるかに巨大だった
  3. Covid-19 immunity likely lasts for years 新型コロナ、免疫は長期間持続か=米新研究
  4. There’s a tantalizing sign of a habitable-zone planet in Alpha Centauri ケンタウルス座アルファ星のハビタブルゾーンに惑星が存在か
  5. So you got the vaccine. Can you still infect people? Pfizer is trying to find out. ワクチンを打っても マスクを外せない理由
MITテクノロジーレビュー[日本版] Vol.2/Winter 2020
MITテクノロジーレビュー[日本版] Vol.2/Winter 2020SDGs Issue

今、世界中の企業や機関の技術者・研究者たちが各地で抱える社会課題を解決し、持続可能な世界の実現へ向けて取り組んでいる「SDGs(持続可能な開発目標)」。
気候変動や貧困といった地球規模の課題の解決策としての先端テクノロジーに焦点を当て、解決に挑む人々の活動や、日本企業がSDGsを経営にどう取り入れ、取り組むべきか、日本が国際社会から期待される役割について、専門家の提言を紹介します。

詳細を見る
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る