KADOKAWA Technology Review
×
無料の会員登録で、記事閲覧数が増えます
New Software Program Translates Thousands of Rare Languages

機械翻訳の進化を加速する計算言語学の新しいアプローチ

世界中の7000の言語のうち、Google翻訳が対応している言語は100にもみたない。新しい機械翻訳の手法はこうした状況を変えられるかもしれない。 by Emerging Technology from the arXiv2017.09.05

有力な説によると、人類は現在およそ6900種類の言語を使用している。ところが世界人口の半分以上は、中国語、英語、ヒンディー語、スペイン語、ロシア語といったごく一部の言語を使用しているに過ぎない。実に95%の人が、わずか100種類の言語でコミュニケーションをとっているのだ。

中国語、英語、ヒンディー語、スペイン語、ロシア語以外の言語を使うのは非常に稀なのだ。実際、言語学者の推定によると、世界の言語の約3分の1は話者が1000人に満たず、今後100年程度で絶滅してしまう危機に瀕している。ある言語が絶滅すれば、物語や名言、ジョークから、薬草療法、さらには独自の感情表現といった、その言語によって表現されている文化も消え去ってしまうだろう。

文化の消滅を防ぐために機械学習を使う、という考えはすぐ思い浮かぶ。しかし、ここで問題になるのが、機械翻訳に頑張ってもらうためには、膨大な注釈付きのデータセットが必要だということだ。データセットは、人力で翻訳された膨大な書籍、記事、Webサイトで構成されている。データセットは機械学習アルゴリズムではロゼッタストーンのように作用し、データセットが充実すればするだけ学習成績も向上するのだ。

しかし、充実したデータセットがある言語は少ない。 そのため、機械翻訳は、話者の多いごくわずかな言語でしか使用できない。たとえば、Google翻訳で使用できるのはたった90言語だ。

だから、希少言語を自動で分析し、よりよく理解するのは、言語学者にとって重要な課題なのだ。

このほど、ドイツ・ルートヴィヒ・マクシミリアン大学ミュンヘンのエザネディン・アスガリ研究員とハインリック・シュッツェ教授が、希少言語の自動分析を実現したと発表した。2人の新しいアプローチは、ほぼすべての言語において重要な要素を解き明かし、機械翻訳を進化させる手段として利用できる。

アスガリとシュッツェの手法は、少なくとも2000種類の言語に翻訳された1つのテキストをベースにしている。つまり、聖書である。言語学者は古くから、聖書の重要性を認識してきた。

結果的に、アスガリとシュッツェは「比較聖書全集(Parallel Bible Corpus)」と呼ぶデータベースを作成した。データベースは1169言語に翻訳された新約聖書で構成されているが、グーグルなどが機械学習に使うには不十分な量だ。そこで2人は、さまざまな言語における時制の表し方に注目した、別のアプローチを考案した。

ほとんどの言語において、時制を示すためには特別な単語あるいは …

こちらは会員限定の記事です。
無料登録すると1カ月10本までご利用いただけます。
こちらは有料会員限定の記事です。
有料会員になると制限なしにご利用いただけます。
ザ・デイリー重要なテクノロジーとイノベーションのニュースを平日毎日お届けします。
公式アカウント