KADOKAWA Technology Review
×
ニュース Insider Online限定
New Software Program Translates Thousands of Rare Languages

機械翻訳の進化を加速する計算言語学の新しいアプローチ

世界中の7000の言語のうち、Google翻訳が対応している言語は100にもみたない。新しい機械翻訳の手法はこうした状況を変えられるかもしれない。 by Emerging Technology from the arXiv2017.09.05

有力な説によると、人類は現在およそ6900種類の言語を使用している。ところが世界人口の半分以上は、中国語、英語、ヒンディー語、スペイン語、ロシア語といったごく一部の言語を使用しているに過ぎない。実に95%の人が、わずか100種類の言語でコミュニケーションをとっているのだ。

中国語、英語、ヒンディー語、スペイン語、ロシア語以外の言語を使うのは非常に稀なのだ。実際、言語学者の推定によると、世界の言語の約3分の1は話者が1000人に満たず、今後100年程度で絶滅してしまう危機に瀕している。ある言語が絶滅すれば、物語や名言、ジョークから、薬草療法、さらには独自の感情表現といった、その言語によって表現されている文化も消え去ってしまうだろう。

文化の消滅を防ぐために機械学習を使う、という考えはすぐ思い浮かぶ。しかし、ここで問題になるのが、機械翻訳に頑張ってもらうためには、膨大な注釈付きのデータセットが必要だということだ。データセットは、人力で翻訳された膨大な書籍、記事、Webサイトで構成されている。データセットは機械学習アルゴリズムではロゼッタストーンのように作用し、データセットが充実すればするだけ学習成績も向上するのだ。

しかし、充実したデータセットがある言語は少ない。 そのため、機械翻訳は、話者の多いごくわずかな言語でしか使用できない。たとえば、Google翻訳で使用できるのはたった90言語だ。

だから、希少言語を自動で分析し、よりよく理解するのは、言語学者にとって重要な課題なのだ。

このほど、ドイツ・ルートヴィヒ・マクシミリアン大学ミュンヘンのエザネディン・アスガリ研究員とハインリック・シュッツェ教授が、希少言語の自動分析を実現したと発表した。2人の新しいアプローチは、ほぼすべての言語において重要な要素を解き明かし、機械翻訳を進化させる手段として利用できる。

アスガリとシュッツェの手法は、少なくとも2000種類の言語に翻訳された1つのテキストをベースにしている。つまり、聖書である。言語学者は古くから、聖書の重要性を認識してきた。

結果的に、アスガリとシュッツェは「比較聖書全集(Parallel Bible Corpus)」と呼ぶデータベースを作成した。データベースは1169言語に翻訳された新約聖書で構成されているが、グーグルなどが機械学習に使うには不十分な量だ。そこで2人は、さまざまな言語における時制の表し方に注目した、別のアプローチを考案した。

ほとんどの言語において、時制を示すためには特別な単語あるいは …

こちらは有料会員限定の記事です。
有料会員になると制限なしにご利用いただけます。
有料会員にはメリットがいっぱい!
  1. 毎月120本以上更新されるオリジナル記事で、人工知能から遺伝子療法まで、先端テクノロジーの最新動向がわかる。
  2. オリジナル記事をテーマ別に再構成したPDFファイル「eムック」を毎月配信。
    重要テーマが押さえられる。
  3. 各分野のキーパーソンを招いたトークイベント、関連セミナーに優待価格でご招待。
【春割】実施中! ひと月あたり1,000円で読み放題
10 Breakthrough Technologies 2024

MITテクノロジーレビューは毎年、世界に真のインパクトを与える有望なテクノロジーを探している。本誌がいま最も重要だと考える進歩を紹介しよう。

記事一覧を見る
気候テック企業15 2023

MITテクノロジーレビューの「気候テック企業15」は、温室効果ガスの排出量を大幅に削減する、あるいは地球温暖化の脅威に対処できる可能性が高い有望な「気候テック企業」の年次リストである。

記事一覧を見る
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る