KADOKAWA Technology Review
×
来れ、若きイノベーター! Innovators Under 35 Japan 2022 応募受付開始。
フェイスブック、100言語間で翻訳できる言語モデルを公開
Edurne Chopeitia / Unsplash
Facebook’s new polyglot AI can translate between 100 languages

フェイスブック、100言語間で翻訳できる言語モデルを公開

ファイスブックは、英語を中間言語とせずにさまざまな組み合わせの言語間で直接翻訳が可能な言語モデルを開発した。オープンソースとして公開されている。 by Karen Hao2020.10.22

フェイスブックは、新しい人工知能(AI)の言語モデル「M2M-100」をオープンソース化している。このモデルは、100言語の中からどのペアでも翻訳でき、4950にわたる言語の組み合わせのうち、1100を直接翻訳する。今回のモデルは、中間言語として英語に大きく依存していた旧多言語モデルとは異なる。例えば、中国語からフランス語へ翻訳する場合は通常、中国語から英語に訳し、その後英語からフランス語に訳すため、間違いが発生しやすくなる。

このモデルは75億の文章ペアで訓練された。これほどの大規模なデータセットを集めるために主に使われたのが「自動キュレーション」だ。研究者らはWebクローラーを使用してWeb上から何十億もの文章を集め、別の言語モデルである「ファストテキスト(FastText)」に何の言語であるかを判定させた(フェイスブックのデータは一切使用しなかった)。その後、フェイスブックのAI研究所が以前開発したプログラムである「レーザー(LASER) 2.0」を使って、教師なし学習(手動のラベル付きデータを必要としない機械学習)で多言語間の文章の意味を一致させた。

レーザー2.0は、大規模で構造化されていない文のデータセットから「埋め込み」と呼ばれるものを作成する。各言語内の使用可能な文例で訓練し、それらがどれだけの頻度で、どれほど近くに位置して使用されるかに基づき、相互の関係を対応付けしたものだ。こうした埋め込みは、機械学習モデルが各文の意味を近似するのに役立ち、レーザー2.0は別の言語で同じ意味を持つ文章を自動的にペアリングできるようになる。

フェイスブックの研究者らは、最も要求される頻度が高そうな言語の組み合わせに焦点を絞った。同じ地域に住む人はコミュニケーションをとる機会が多いと考え、言語学的、地理的、文化的類似性に応じて言語を分類した。例えば、ある言語グループにはベンガル語、ヒンディー語、タミル語、ウルドゥー語など、インドで最も一般的に話される言語が含まれる。その後、レーザー2.0は各グループ内の全言語ペアにおける文章ペアを検索の対象とした。

アフリカや東南アジアなどの地域で話される言語は、Webから集められる言語データが少なすぎるため、まだ翻訳の質に問題があるとプロジェクト主任研究員のアンジェラ・ファンはいう。Webのデータを使用しているため、文章に含まれている性差別、人種差別などの差別的偏見を特定し、排除する手法を見つけ出す必要もある。現時点では、不適切な表現を検知するフィルターを使用し、あまりにひどい言葉は一掃しているが、それはほぼ英語に限られている。

現在のところ、フェイスブックは自社のサービスにこのモデルを使用することは考えていない。ファンによると、M2M-100は研究に限った目的で作られたという。だが最終的には、このモデルがフェイスブックの既存の翻訳能力を向上、拡張させることが目標である。ユーザーとのコミュニケーション(例えば投稿を母国語に翻訳できるようにする機能)や、コンテンツ・モデレーションに使われる可能性もある。

人気の記事ランキング
  1. How China’s biggest online influencers fell from their thrones 桁外れの中国トップ・インフルエンサー、一夜にして転落
  2. How censoring China’s open-source coders might backfire 中国版ギットハブ、コードを検閲・遮断か? OSS開発者に衝撃
  3. Scientists hacked a locust’s brain to sniff out human cancer バッタの脳を改造、人間のがんの「嗅ぎ分け」に成功
  4. What impact will DeepMind’s scientific AI have on our society? アルファフォールド2が社会に与える「アルファ碁」以上のインパクト
  5. These materials were meant to revolutionize the solar industry. Why hasn’t it happened? 参入相次ぐ「ペロブスカイト太陽光電池」、実用化はいつ?
カーレン・ハオ [Karen Hao]米国版 AI担当記者
MITテクノロジーレビューの人工知能(AI)担当記者。特に、AIの倫理と社会的影響、社会貢献活動への応用といった領域についてカバーしています。AIに関する最新のニュースと研究内容を厳選して紹介する米国版ニュースレター「アルゴリズム(Algorithm)」の執筆も担当。グーグルX(Google X)からスピンアウトしたスタートアップ企業でのアプリケーション・エンジニア、クオーツ(Quartz)での記者/データ・サイエンティストの経験を経て、MITテクノロジーレビューに入社しました。
日本発「世界を変える」35歳未満のイノベーター

MITテクノロジーレビューが20年以上にわたって開催しているグローバル・アワード「Innovators Under 35 」。世界的な課題解決に取り組み、向こう数十年間の未来を形作る若きイノベーターの発掘を目的とするアワードの日本版の最新情報を発信する。

記事一覧を見る
人気の記事ランキング
  1. How China’s biggest online influencers fell from their thrones 桁外れの中国トップ・インフルエンサー、一夜にして転落
  2. How censoring China’s open-source coders might backfire 中国版ギットハブ、コードを検閲・遮断か? OSS開発者に衝撃
  3. Scientists hacked a locust’s brain to sniff out human cancer バッタの脳を改造、人間のがんの「嗅ぎ分け」に成功
  4. What impact will DeepMind’s scientific AI have on our society? アルファフォールド2が社会に与える「アルファ碁」以上のインパクト
  5. These materials were meant to revolutionize the solar industry. Why hasn’t it happened? 参入相次ぐ「ペロブスカイト太陽光電池」、実用化はいつ?
MITテクノロジーレビュー[日本版] Vol.7
MITテクノロジーレビュー[日本版] Vol.7世界を変える10大技術 2022年版

パンデミック収束の切り札として期待される「新型コロナウイルス感染症(COVID-19)飲み薬」、アルファ碁の開発企業が作った「タンパク質構造予測AI」、究極のエネルギー技術として期待が高まる「実用的な核融合炉」など、2022年に最も注目すべきテクノロジー・トレンドを一挙解説。

詳細を見る
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る