KADOKAWA Technology Review
×
2024年を代表する若きイノベーターたちに会える!【11/30】はIU35 Japan Summitへ
フェイスブック、100言語間で翻訳できる言語モデルを公開
Edurne Chopeitia / Unsplash
Facebook’s new polyglot AI can translate between 100 languages

フェイスブック、100言語間で翻訳できる言語モデルを公開

ファイスブックは、英語を中間言語とせずにさまざまな組み合わせの言語間で直接翻訳が可能な言語モデルを開発した。オープンソースとして公開されている。 by Karen Hao2020.10.22

フェイスブックは、新しい人工知能(AI)の言語モデル「M2M-100」をオープンソース化している。このモデルは、100言語の中からどのペアでも翻訳でき、4950にわたる言語の組み合わせのうち、1100を直接翻訳する。今回のモデルは、中間言語として英語に大きく依存していた旧多言語モデルとは異なる。例えば、中国語からフランス語へ翻訳する場合は通常、中国語から英語に訳し、その後英語からフランス語に訳すため、間違いが発生しやすくなる。

このモデルは75億の文章ペアで訓練された。これほどの大規模なデータセットを集めるために主に使われたのが「自動キュレーション」だ。研究者らはWebクローラーを使用してWeb上から何十億もの文章を集め、別の言語モデルである「ファストテキスト(FastText)」に何の言語であるかを判定させた(フェイスブックのデータは一切使用しなかった)。その後、フェイスブックのAI研究所が以前開発したプログラムである「レーザー(LASER) 2.0」を使って、教師なし学習(手動のラベル付きデータを必要としない機械学習)で多言語間の文章の意味を一致させた。

レーザー2.0は、大規模で構造化されていない文のデータセットから「埋め込み」と呼ばれるものを作成する。各言語内の使用可能な文例で訓練し、それらがどれだけの頻度で、どれほど近くに位置して使用されるかに基づき、相互の関係を対応付けしたものだ。こうした埋め込みは、機械学習モデルが各文の意味を近似するのに役立ち、レーザー2.0は別の言語で同じ意味を持つ文章を自動的にペアリングできるようになる。

フェイスブックの研究者らは、最も要求される頻度が高そうな言語の組み合わせに焦点を絞った。同じ地域に住む人はコミュニケーションをとる機会が多いと考え、言語学的、地理的、文化的類似性に応じて言語を分類した。例えば、ある言語グループにはベンガル語、ヒンディー語、タミル語、ウルドゥー語など、インドで最も一般的に話される言語が含まれる。その後、レーザー2.0は各グループ内の全言語ペアにおける文章ペアを検索の対象とした。

アフリカや東南アジアなどの地域で話される言語は、Webから集められる言語データが少なすぎるため、まだ翻訳の質に問題があるとプロジェクト主任研究員のアンジェラ・ファンはいう。Webのデータを使用しているため、文章に含まれている性差別、人種差別などの差別的偏見を特定し、排除する手法を見つけ出す必要もある。現時点では、不適切な表現を検知するフィルターを使用し、あまりにひどい言葉は一掃しているが、それはほぼ英語に限られている。

現在のところ、フェイスブックは自社のサービスにこのモデルを使用することは考えていない。ファンによると、M2M-100は研究に限った目的で作られたという。だが最終的には、このモデルがフェイスブックの既存の翻訳能力を向上、拡張させることが目標である。ユーザーとのコミュニケーション(例えば投稿を母国語に翻訳できるようにする機能)や、コンテンツ・モデレーションに使われる可能性もある。

人気の記事ランキング
  1. The winners of Innovators under 35 Japan 2024 have been announced MITTRが選ぶ、 日本発U35イノベーター 2024年版
  2. Promotion The winners of Innovators under 35 Japan 2024 have been announced MITTRが選ぶ、
    日本発U35イノベーター
    2024年版
  3. AI will add to the e-waste problem. Here’s what we can do about it. 30年までに最大500万トン、生成AIブームで大量の電子廃棄物
  4. Kids are learning how to make their own little language models 作って学ぶ生成AIモデルの仕組み、MITが子ども向け新アプリ
  5. OpenAI brings a new web search tool to ChatGPT チャットGPTに生成AI検索、グーグルの牙城崩せるか
カーレン・ハオ [Karen Hao]米国版 AI担当記者
MITテクノロジーレビューの人工知能(AI)担当記者。特に、AIの倫理と社会的影響、社会貢献活動への応用といった領域についてカバーしています。AIに関する最新のニュースと研究内容を厳選して紹介する米国版ニュースレター「アルゴリズム(Algorithm)」の執筆も担当。グーグルX(Google X)からスピンアウトしたスタートアップ企業でのアプリケーション・エンジニア、クオーツ(Quartz)での記者/データ・サイエンティストの経験を経て、MITテクノロジーレビューに入社しました。
日本発「世界を変える」U35イノベーター

MITテクノロジーレビューが20年以上にわたって開催しているグローバル・アワード「Innovators Under 35 」。2024年受賞者決定!授賞式を11/20に開催します。チケット販売中。 世界的な課題解決に取り組み、向こう数十年間の未来を形作る若きイノベーターの発掘を目的とするアワードの日本版の最新情報を随時発信中。

特集ページへ
MITTRが選んだ 世界を変える10大技術 2024年版

「ブレークスルー・テクノロジー10」は、人工知能、生物工学、気候変動、コンピューティングなどの分野における重要な技術的進歩を評価するMITテクノロジーレビューの年次企画だ。2024年に注目すべき10のテクノロジーを紹介しよう。

特集ページへ
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る