KADOKAWA Technology Review
×
ひと月あたり1000円で購読できる春のキャンペーン実施中!
フェイスブック、100言語間で翻訳できる言語モデルを公開
Edurne Chopeitia / Unsplash
Facebook’s new polyglot AI can translate between 100 languages

フェイスブック、100言語間で翻訳できる言語モデルを公開

ファイスブックは、英語を中間言語とせずにさまざまな組み合わせの言語間で直接翻訳が可能な言語モデルを開発した。オープンソースとして公開されている。 by Karen Hao2020.10.22

フェイスブックは、新しい人工知能(AI)の言語モデル「M2M-100」をオープンソース化している。このモデルは、100言語の中からどのペアでも翻訳でき、4950にわたる言語の組み合わせのうち、1100を直接翻訳する。今回のモデルは、中間言語として英語に大きく依存していた旧多言語モデルとは異なる。例えば、中国語からフランス語へ翻訳する場合は通常、中国語から英語に訳し、その後英語からフランス語に訳すため、間違いが発生しやすくなる。

このモデルは75億の文章ペアで訓練された。これほどの大規模なデータセットを集めるために主に使われたのが「自動キュレーション」だ。研究者らはWebクローラーを使用してWeb上から何十億もの文章を集め、別の言語モデルである「ファストテキスト(FastText)」に何の言語であるかを判定させた(フェイスブックのデータは一切使用しなかった)。その後、フェイスブックのAI研究所が以前開発したプログラムである「レーザー(LASER) 2.0」を使って、教師なし学習(手動のラベル付きデータを必要としない機械学習)で多言語間の文章の意味を一致させた。

レーザー2.0は、大規模で構造化されていない文のデータセットから「埋め込み」と呼ばれるものを作成する。各言語内の使用可能な文例で訓練し、それらがどれだけの頻度で、どれほど近くに位置して使用されるかに基づき、相互の関係を対応付けしたものだ。こうした埋め込みは、機械学習モデルが各文の意味を近似するのに役立ち、レーザー2.0は別の言語で同じ意味を持つ文章を自動的にペアリングできるようになる。

フェイスブックの研究者らは、最も要求される頻度が高そうな言語の組み合わせに焦点を絞った。同じ地域に住む人はコミュニケーションをとる機会が多いと考え、言語学的、地理的、文化的類似性に応じて言語を分類した。例えば、ある言語グループにはベンガル語、ヒンディー語、タミル語、ウルドゥー語など、インドで最も一般的に話される言語が含まれる。その後、レーザー2.0は各グループ内の全言語ペアにおける文章ペアを検索の対象とした。

アフリカや東南アジアなどの地域で話される言語は、Webから集められる言語データが少なすぎるため、まだ翻訳の質に問題があるとプロジェクト主任研究員のアンジェラ・ファンはいう。Webのデータを使用しているため、文章に含まれている性差別、人種差別などの差別的偏見を特定し、排除する手法を見つけ出す必要もある。現時点では、不適切な表現を検知するフィルターを使用し、あまりにひどい言葉は一掃しているが、それはほぼ英語に限られている。

現在のところ、フェイスブックは自社のサービスにこのモデルを使用することは考えていない。ファンによると、M2M-100は研究に限った目的で作られたという。だが最終的には、このモデルがフェイスブックの既存の翻訳能力を向上、拡張させることが目標である。ユーザーとのコミュニケーション(例えば投稿を母国語に翻訳できるようにする機能)や、コンテンツ・モデレーションに使われる可能性もある。

人気の記事ランキング
  1. The way whales communicate is closer to human language than we realized クジラの言語構造、想像以上に人間の言語に近かった
  2. Why EV charging needs more than Tesla EVシフト、充電部門閉鎖で明らかになった「テスラ頼み」の危うさ
  3. Three takeaways about the current state of batteries エネルギー革命の主役に躍り出た蓄電池、押さえておきたいデータ3つ
  4. Almost every Chinese keyboard app has a security flaw that reveals what users type 人気の中国語キーボード・アプリ、ほぼすべてに脆弱性が存在
カーレン・ハオ [Karen Hao]米国版 AI担当記者
MITテクノロジーレビューの人工知能(AI)担当記者。特に、AIの倫理と社会的影響、社会貢献活動への応用といった領域についてカバーしています。AIに関する最新のニュースと研究内容を厳選して紹介する米国版ニュースレター「アルゴリズム(Algorithm)」の執筆も担当。グーグルX(Google X)からスピンアウトしたスタートアップ企業でのアプリケーション・エンジニア、クオーツ(Quartz)での記者/データ・サイエンティストの経験を経て、MITテクノロジーレビューに入社しました。
10 Breakthrough Technologies 2024

MITテクノロジーレビューは毎年、世界に真のインパクトを与える有望なテクノロジーを探している。本誌がいま最も重要だと考える進歩を紹介しよう。

記事一覧を見る
人気の記事ランキング
  1. The way whales communicate is closer to human language than we realized クジラの言語構造、想像以上に人間の言語に近かった
  2. Why EV charging needs more than Tesla EVシフト、充電部門閉鎖で明らかになった「テスラ頼み」の危うさ
  3. Three takeaways about the current state of batteries エネルギー革命の主役に躍り出た蓄電池、押さえておきたいデータ3つ
  4. Almost every Chinese keyboard app has a security flaw that reveals what users type 人気の中国語キーボード・アプリ、ほぼすべてに脆弱性が存在
気候テック企業15 2023

MITテクノロジーレビューの「気候テック企業15」は、温室効果ガスの排出量を大幅に削減する、あるいは地球温暖化の脅威に対処できる可能性が高い有望な「気候テック企業」の年次リストである。

記事一覧を見る
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る