KADOKAWA Technology Review
×
Skype’s Gone Multilingual

Skype翻訳
使えないマルチリンガル

何十年もの間、機械学習の専門家は、言語の完璧な翻訳を試みてきた。マイクロソフトはその成果をスカイプに実装した。 by George Anders2016.03.29

ドイツ生まれのカトリーナ・リッペルはすべて文法通りに丁寧に話す。中国生まれのハオ・チェンはもっと奔放で話し上手。そして米国人の私はノンストップなトラブルメーカーで、頭に浮かんだことを絶えず口走ってしまう。3月のある朝、私たち3人はネット上で、ドイツ語、標準中国語、英語が入り交じった状態でどれくらいまともな(もしくはひどい)会話になるのかを試してみた。3人とも母国語しか話せない。

ヘッドフォンを着けて、私たちはマイクロソフトの研究チームが開発したSkype翻訳に参加した(チャット相手の2人はパートタイムでマイクロソフトのコンサルタントをしていて、私のいる西海岸のオフィスから何千kmも離れたところにいた)。私がチェンにどこで育ったのかを尋ねると、チェンは「我在中国的家乡在东北,辽宁省,鞍山市」と言ったのを聞こえたが、ほんの数秒後に、優しい口調の音声合成が「My hometown is in the northeast in China, Liaoning Province, Anshan.(私の故郷は中国東北部にある遼寧省の鞍山市です)」と話したので困惑することはなかった。

残りの会話も同様にスムーズならよかったが、チェンが自分の米国旅行について説明しようとしたとき、Skypeは標準中国語の多義的な名詞を取り違えて、チェンが「ニューヨークの幹部」へ旅したと私にいった。チェンが他の言い回しにするとSkypeは「ニューヨーク州」と訳せた。私がリッペルのドイツの故郷について尋ねたとき、Skypeは私がドイツ語でなく英語を話すことを予期し、私が「ドレスデン(Dresden)」と話したのを「着飾った(dressed)」と認識し、ドイツ語のbekleide(「着飾った」の意味)がリッペルの故郷になり、訳のわからない文章になった。

この種の誤訳が示すように、30年に及ぶ努力にもかかわらず、日常会話の機械翻訳はまだ実現していない。ただし、原因の一端は人間だ。もし私たちが国連の外交官のように明解で正確な話し方なら、人工知能は定まったパターンからすべてを解釈できるだろう。しかし、私たちが考えを伝えようとして、意味の定まっていない単語や構文を使ってしまうと、翻訳ソフトは補助なしにはすべてを正しく解釈できなくなってしまう。

だが、マイクロソフトやグーグル、バイドゥ、フェイスブック、IBMなど、数多くの企業がこの難しい分野で優位に立とうとして競い合っている。最高性能の音声認識や翻訳サービスを提供すれば、見栄えのするパンフレットになり、他の多くのサービスにユーザーを囲い込める。その範囲は、インターネット検索から、リモートサーバーとインターネット接続を通じて提供されるデータの保管や処理などのクラウド・コンピューティングにまで及ぶ。

シナジーリサーチによれば、2015年、世界中で利用されたクラウドとサーバーインフラの総額は1150億ドルにもなり、年率で28%成長している。リアルタイム翻訳はクラウドサビースを競合の中で際立たせ、企業間の差別化が難しいビジネスに陥ったり、価格競争にならないようにしてくれるだろう。今のところ、ほとんどの翻訳サービスは無料で利用できるが、もっと精度の高い、カスタマイズされた翻訳ツールを目指している有料サービスが実現すれば、世界的な企業として抜け出せるかもしれない。

特にマイクロソフトは、私とリッペル、チェンが試用したSkype翻訳の基本的エンジン上に、企業ユーザーがより優れた翻訳機能を構築できる方法を研究している。たとえば、顧客が何千もの専門用語、参考文書、会話サンプル、癖のある話し方の事前予測などを投入できるようにすれば、「ドレスデン」が「着飾った」になるような問題は起きにくそうだ。

マイクロソフトのヴィクラム・デンディ役員(研究戦略担当)は、翻訳ソフトは、特定の話し手が使っていそうな言語パターンを巨大データベースに投入すればさらに改善される、と説明する。経営コンサルタントは「デルタ」や「粒度」など、普通の人が想像もできないような用語を使うことがある。工業科学者は何十種類もあるフタル酸類について冗談をいうし、あらゆる大企業の内部では、プロジェクトや手続き、重役などに付けられるニックネームが無数にある。

最高性能の音声認識や翻訳サービスを提供すれば、インターネット検索やクラウド・コンピューティングにまで及ぶ、その他多くのサービスにユーザーを囲い込める。

2011年から、マイクロソフトは大手の顧客に対して、所有する語彙集や文書資料を専門化したテキスト翻訳データベースに投入するのを許可した。これは、特に難解な技術資料においては、マイクロソフトのBingの基本的翻訳サービスより信頼性の高い翻訳結果を生成できることを意味している。10万以上のユーザーがカスタマイズを選択した、とデンディ役員はいう。ライトユーザーの料金は最低月40ドル。アドビやツイッターなどの上客はもっと払っている。

1990年代の半ば、創業者のビル・ゲイツが今後10年以内に音声認識が幅広く使われると予測して以来、マイクロソフトは機械翻訳の実現に広範な戦略を試みてきた。初期のアプローチでは、文法や語法の特定のルールをカタログ化することにだいぶ頼っていた。2009年にマイクロソフトはその重点を広げ始めた。統計の技術が、人間の脳の構造と自己学習の性質に基づいた機械学習システムであるニューラル・ネットワークと組み合わされたのだ。

マイクロソフトの研究部門のリーダーであるピーター・リーによれば、現在マイクロソフトでは言葉の解析に5層のニューラルネットを使っている。最下層のレイヤーは、画像解析ソフトウェアが、物体が何であるかを全く判別しようとすることなくエッジと表面を探すのと同程度の、初期段階のレベルで音を解析する。多くの最先端の人工知能の手法がそうであるように、研究者が参加していてもなお、ニューラルネットがどのように機能しているのかには少し謎の部分がある。

「ニューラルネットは単語や音素には関係ありません。あるものを他のものと区別することに関して、最下層のレイヤーが一体何を見ているのか、我々は誰も正確には理解していないと思います。でもそれは驚くほどよく機能しています」

マイクロソフトの研究者はまた、「長期短期記憶」として知られている脳の機能を活用している。言葉を解析したり翻訳したりするとき、ニューラルネットは、新しくやってくる情報に合わせて見直され続ける一連の推測を作成する。時々、予期されたパターンが突然うまくいかなくなる。このような場合、いくつかの推測する価値のある単語を導き出す仮説を再検討できるなら、ニューラルネットはよりよく再グルーピングできる。システムの短期記憶内に長く痕跡を残すことは、このような再トレースとその後の訂正を可能にする。

それぞれの新しい言語において、Skype翻訳のニューラルネットを訓練するには、少なくとも4000時間の会話のサンプル(何百万ものテキスト)が必要だ。マイクロソフトの機械翻訳チームのリーダーであるアルル・メネゼスは、アラビア語のような話し手のアクセントに幅広い違いがある言語における困難を予想していたという。しかし、異なる話し手の声のサンプルを十分に集めることで、方言が問題とならない程度にイントネーションの違いに対応したSkype翻訳の「耳」を開発できた、とメネゼスはいう。これは男女間の違いにも同様に適用できる。

違いに非常に敏感なのだ。人間はノイズと言葉の違いに気付くのが得意だが、機械がそれをマスターするのは大変難しい。言葉の途切れもまた問題になる。メネゼスがいうように、「人々は普通、文の終わりで途切れさせない。他のどこかで途切れさせる。途切れは最終的に、文の開始や終了を検出するときの役には立たなくなる。単語自体でする必要がある」

多義的な単語の正しい翻訳を選び出すのも、終わりなきチャレンジだとメネゼスは認める。ドイツ語を話している間、リッペルは状況によって「彼女」、「あなた」、「彼ら」のどの意味にもなる単語「Sie」を頻繁に使った。Skype翻訳はそのうちの約80%は正しく翻訳できた。

同じように、Skype翻訳はチェンが中国における世帯人数について話していたとき、少しだけ間違った。中国では政府の政策の有無に関係なく、子育ての費用が莫大なため、「多くの人がある子ども(a childしか作りたがらない」とチェンは私に話した。

数分後、マイクロソフト本社のビルディング99で、メネゼスと私は会話の記録をレビューしたとき、メネゼスは悲しげに「ここは『1人の子ども(one child)』というべきです。でも中国語では、”one”と”a”の区別がありません。英語ではその区別があるが、中国語では完全に文脈によって判断する必要があるのです」と子育ての会話部分を指摘した。

メネゼスは微笑を浮かべて「私たちがしていることで、プロの通訳が恐怖を感じるとは現時点では思えません。通訳の仕事はしばらく安泰でしょう」と述べた。

プロの通訳であるリッペルは、それほど批判的ではない。ユーザーがゆっくり話し、話を短く保ってさえいれば、Skype翻訳のような自動化されたサービスは言葉の壁を乗り越える助けになる、とリッペルはいう。

「このツールが存在することはとても重要なんです。今日では、あらゆるコミュニティの人々にとって、互いに話せることがかつてより重要なんです」

人気の記事ランキング
  1. A tiny new open-source AI model performs as well as powerful big ones 720億パラメーターでも「GPT-4o超え」、Ai2のオープンモデル
  2. The coolest thing about smart glasses is not the AR. It’s the AI. ようやく物になったスマートグラス、真価はARではなくAIにある
  3. Geoffrey Hinton, AI pioneer and figurehead of doomerism, wins Nobel Prize in Physics ジェフリー・ヒントン、 ノーベル物理学賞を受賞
  4. Why OpenAI’s new model is such a big deal GPT-4oを圧倒、オープンAI新モデル「o1」に注目すべき理由
ジョージ アンダース [George Anders]米国版 寄稿者
ジョージ・アンダースは北カリフォルニア在住のライター。1997年にウォール・ストリート・ジャーナル紙に与えられたピューリッツァー賞米国内部門の共同受賞者です。
日本発「世界を変える」U35イノベーター

MITテクノロジーレビューが20年以上にわたって開催しているグローバル・アワード「Innovators Under 35 」。2024年受賞者は11月発表予定です。 世界的な課題解決に取り組み、向こう数十年間の未来を形作る若きイノベーターの発掘を目的とするアワードの日本版の最新情報を随時発信中。

特集ページへ
MITTRが選んだ 世界を変える10大技術 2024年版

「ブレークスルー・テクノロジー10」は、人工知能、生物工学、気候変動、コンピューティングなどの分野における重要な技術的進歩を評価するMITテクノロジーレビューの年次企画だ。2024年に注目すべき10のテクノロジーを紹介しよう。

特集ページへ
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る