KADOKAWA Technology Review
×
フェイスブック、100言語間で翻訳できる言語モデルを公開
Edurne Chopeitia / Unsplash
Facebook’s new polyglot AI can translate between 100 languages

フェイスブック、100言語間で翻訳できる言語モデルを公開

ファイスブックは、英語を中間言語とせずにさまざまな組み合わせの言語間で直接翻訳が可能な言語モデルを開発した。オープンソースとして公開されている。 by Karen Hao2020.10.22

フェイスブックは、新しい人工知能(AI)の言語モデル「M2M-100」をオープンソース化している。このモデルは、100言語の中からどのペアでも翻訳でき、4950にわたる言語の組み合わせのうち、1100を直接翻訳する。今回のモデルは、中間言語として英語に大きく依存していた旧多言語モデルとは異なる。例えば、中国語からフランス語へ翻訳する場合は通常、中国語から英語に訳し、その後英語からフランス語に訳すため、間違いが発生しやすくなる。

このモデルは75億の文章ペアで訓練された。これほどの大規模なデータセットを集めるために主に使われたのが「自動キュレーション」だ。研究者らはWebクローラーを使用してWeb上から何十億もの文章を集め、別の言語モデルである「ファストテキスト(FastText)」に何の言語であるかを判定させた(フェイスブックのデータは一切使用しなかった)。その後、フェイスブックのAI研究所が以前開発したプログラムである「レーザー(LASER) 2.0」を使って、教師なし学習(手動のラベル付きデータを必要としない機械学習)で多言語間の文章の意味を一致させた。

レーザー2.0は、大規模で構造化されていない文のデータセットから「埋め込み」と呼ばれるものを作成する。各言語内の使用可能な文例で訓練し、それらがどれだけの頻度で、どれほど近くに位置して使用されるかに基づき、相互の関係を対応付けしたものだ。こうした埋め込みは、機械学習モデルが各文の意味を近似するのに役立ち、レーザー2.0は別の言語で同じ意味を持つ文章を自動的にペアリングできるようになる。

フェイスブックの研究者らは、最も要求される頻度が高そうな言語の組み合わせに焦点を絞った。同じ地域に住む人はコミュニケーションをとる機会が多いと考え、言語学的、地理的、文化的類似性に応じて言語を分類した。例えば、ある言語グループにはベンガル語、ヒンディー語、タミル語、ウルドゥー語など、インドで最も一般的に話される言語が含まれる。その後、レーザー2.0は各グループ内の全言語ペアにおける文章ペアを検索の対象とした。

アフリカや東南アジアなどの地域で話される言語は、Webから集められる言語データが少なすぎるため、まだ翻訳の質に問題があるとプロジェクト主任研究員のアンジェラ・ファンはいう。Webのデータを使用しているため、文章に含まれている性差別、人種差別などの差別的偏見を特定し、排除する手法を見つけ出す必要もある。現時点では、不適切な表現を検知するフィルターを使用し、あまりにひどい言葉は一掃しているが、それはほぼ英語に限られている。

現在のところ、フェイスブックは自社のサービスにこのモデルを使用することは考えていない。ファンによると、M2M-100は研究に限った目的で作られたという。だが最終的には、このモデルがフェイスブックの既存の翻訳能力を向上、拡張させることが目標である。ユーザーとのコミュニケーション(例えば投稿を母国語に翻訳できるようにする機能)や、コンテンツ・モデレーションに使われる可能性もある。

人気の記事ランキング
  1. Forget dating apps: Here’s how the net’s newest matchmakers help you find love 出会い系アプリはもううんざり、「運命の人」探す新ネット文化
  2. NIHONBASHI SPACE WEEK 2021  アジア最大級の宇宙ビジネスイベントが東京・日本橋で開催
  3. Laptops alone can’t bridge the digital divide そしてそれはゴミになった 「一人1台のパソコン」の 失敗から得られた教訓
  4. How tackling tech’s diversity challenges can spur innovation デューク大のコンピューター科学者はなぜ「DEI」を学ばせるのか?
カーレン・ハオ [Karen Hao]米国版 AI担当記者
MITテクノロジーレビューの人工知能(AI)担当記者。特に、AIの倫理と社会的影響、社会貢献活動への応用といった領域についてカバーしています。AIに関する最新のニュースと研究内容を厳選して紹介する米国版ニュースレター「アルゴリズム(Algorithm)」の執筆も担当。グーグルX(Google X)からスピンアウトしたスタートアップ企業でのアプリケーション・エンジニア、クオーツ(Quartz)での記者/データ・サイエンティストの経験を経て、MITテクノロジーレビューに入社しました。
日本発「世界を変える」35歳未満のイノベーター

MITテクノロジーレビューが主催するグローバル・アワード「Innovators Under 35 」の日本版が候補者を募集している。特定の分野や業界だけでなく、世界全体の重要な課題を解決するイノベーターを発信していく。

記事一覧を見る
人気の記事ランキング
  1. Forget dating apps: Here’s how the net’s newest matchmakers help you find love 出会い系アプリはもううんざり、「運命の人」探す新ネット文化
  2. NIHONBASHI SPACE WEEK 2021  アジア最大級の宇宙ビジネスイベントが東京・日本橋で開催
  3. Laptops alone can’t bridge the digital divide そしてそれはゴミになった 「一人1台のパソコン」の 失敗から得られた教訓
  4. How tackling tech’s diversity challenges can spur innovation デューク大のコンピューター科学者はなぜ「DEI」を学ばせるのか?
MITテクノロジーレビュー[日本版] Vol.5
MITテクノロジーレビュー[日本版] Vol.5Cities Issue

新型コロナのパンデミックによって激変した都市生活は、ポストコロナでどう変わるのか? 都市部への人口集中が世界で加速する中、環境、災害、貧困といった負の側面をテクノロジーは解決できるのか? 多様な人々が集まり、化学反応が起きるイノベーションの集積地としての役割を都市は今後も果たし続けるのか? 世界の豊富な事例と識者への取材を通して、新しい都市の未来像を描く。

詳細を見る
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る