KADOKAWA Technology Review
×
AI翻訳のゴミに汚染された
ウィキペディア、
マイナー言語にとどめ
Raven Jiang
人工知能(AI) Insider Online限定
How AI and Wikipedia have sent vulnerable languages into a doom spiral

AI翻訳のゴミに汚染された
ウィキペディア、
マイナー言語にとどめ

「ゴミを入れればゴミが出る」——。機械翻訳の誤りがAI学習データを汚染し、さらに悪い翻訳を生む「悪循環」が少数言語を脅かしている。誤りだらけのグリーンランド語版ウィキペディアはついに閉鎖が決まった。 by Jacob Judah2025.10.08

この記事の3つのポイント
  1. グリーンランド語版ウィキペディアが機械翻訳による低品質記事の蔓延を理由に閉鎖決定された
  2. マイナー言語版ウィキペディアでAI翻訳記事が急増し言語データの汚染が深刻化している
  3. 消滅危機言語の正確な保存と継承が時間との競争になっている現状が浮き彫りになった
summarized by Claude 3

4年前にグリーンランド語版ウィキペディアの管理者になったケネス・ヴェールが最初にしたのは、記事の大半を削除することだった。そうしなければ存続は不可能に近いと考えたからだ。

26歳のヴェールの故郷はグリーンランドではない。ドイツ出身の彼は、10代の頃に訪れたことをきっかけに、デンマーク自治領のその島に夢中になった。グリーンランドに関するほぼすべての事柄について母国語で執筆し、目立たないウィキペディア記事を投稿することに何年も費やした。グリーンランド語の勉強のために、最終的にはコペンハーゲンに引っ越すことまでした。グリーンランド語は、広範囲に散在する数十の北極の村々に散らばって暮らす、5万7000人ほどの先住民イヌイットが使用する言語だ。

ウィキペディアにグリーンランド語版が追加されたのは、英語版の立ち上げからわずか数年後、2003年頃のことだ。そのおよそ20年後にヴェールが責任者に就任するまでに、数百人のウィキペディアンが作業に貢献していた。彼らの投稿は総計で数万語を超え、記事数は約1500件に及んでいた。その数は、クラウドソーシング手法の素晴らしい正当性を証明しているようだった。ウィキペディアをオンラインにおける主要な情報源にしたクラウドソーシングの手法は、思いもつかないような場面でも有効性を示していた。

ところが、一つ問題があった。グリーンランド語版ウィキペディアは幻影だったのだ。

実際にはほぼすべての記事が、この言語の話者ではない人々によって投稿されていた。現在はデンマークでグリーンランド語を教えているヴェールは、サイトに貢献したことのあるグリーンランド人は1人か2人しかいないのでは、と推測している。しかし、彼を最も悩ませたのは別の事だ。時間が経つにつれて、機械翻訳ユーザーによってウィキペディアへコピーペーストされている記事が増加していることに気づいたのである。それらの記事は、文法的なミスから意味のない言葉まで、初歩的な誤りだらけだった。カナダの人口がわずか41人と主張するなどの重大な間違いもあった。他のページには、グリーンランド語で正しい表現を見つけられなかった機械が吐き出した、ランダムな文字列も含まれていた。

「記事を書いた人にはグリーンランド語に見えたかもしれませんが、知る術がなかったのでしょう」とヴェールは言う。

「文章は、まったく意味をなしていなかったり、明らかな誤りを含んでいたりしました」と 彼は付け加える。 「人工知能(AI)翻訳は、グリーンランド語が本当に下手なのです」。

ヴェールが述べていることは、グリーンランド語版だけの問題ではない。

ウィキペディアは、聖書に次いで最も野心的な多言語プロジェクトだ。340以上の言語版が存在し、さらに400もの、よりマイナーな言語版の開発と試験が進んでいる。そうした小規模な言語版の多くは、AIが普及するにつれ、自動翻訳コンテンツの山を抱えるようになっている。たとえば、4つのアフリカ言語に取り組んでいるボランティア・スタッフは、担当のウィキペディア言語版にある記事のうち、40〜60%が未修正の機械翻訳であると推定しているとMITテクノロジーレビューの取材に語った。MITテクノロジーレビューは、カナダで使用されているグリーンランド語に近い先住民族言語のイヌクティトゥット語版ウィキペディアを調べた結果、その3分の2以上のページに機械翻訳の文章がいくつか含まれていると見積もっている。

このことは、とんでもない問題を引き起こしつつある。グーグル翻訳からChatGPT(チャットGPT)まで、AIシステムは、インターネットから大量のテキストをスクレイピングすることで新しい言語を「話す」方法を習得する。話者の少ない言語に関して、ウィキペディアはオンライン上最大の言語データソースになりうる。したがって、文法であれなんであれ、それらソースページの誤りは、AIが汲み上げるであろう井戸を汚染する可能性がある。それらの言語をAIモデルが翻訳する場合、特に誤りが生じやすくなる。このツールを使って翻訳した不適切なウィキペディア・ページを人々が追加し続ければ、AIモデルには不適切な翻訳ページから学習し続けるという一種の言語的悪循環が生まれることになる。複雑な問題だが、詰まるところは単純で、ゴミを入れれば、出てくるものもゴミなのだ。

「こうしたモデルは、生データに基づいて構築されています」 とケビン・スキャネル博士は言う。セント・ルイス大学でコンピューター科学の教授を務めた経歴を持ち、現在は消滅危機言語に合わせたコンピューター・ソフトウェアを開発している人物だ。「モデルは、言語に関するすべてをゼロから学ぼうとします。他のインプットはありません。 文法の教科書はなく、辞書もありません。入力されたテキスト以外の学習ソースは存在しないのです」。

この問題の規模についての完璧なデータはない。特に、AI訓練用データの多くが機密扱いとされ、この分野が急速に進化し続けているためだ。しかし2020年には、アフリカ全域で数百万人が話す言語(マダガスカル語、ヨルバ語、ショナ語など)を翻訳し、訓練用としてAIモデルへ投入したデータの半分以上が、ウィキペディアをソースにしたと推定された。2022年、ドイツのある研究チームがWebスクレイピングで取得可能なデータを調査した。すると、リソース不足の27言語では、インターネット上で簡単に利用できる唯一の言語データソースがウィキペディアであることも判明した。

ウィキペディアの文章が不十分な場合、大きな波紋を起こしかねない。将来世代が、深刻な地球上からの消滅危機にある言語から目をそらす中で、それらが崖っぷちへと追いやりかねない事態なのだ。

「これらの言語に対するAIモデルには、ウィキペディアが反映されるでしょう」。ノルウェーにあるトロムソー大学の計算言語学者、トロン・トロステルド教授は言う。同教授は長年、不適切に運営されているウィキペディア言語版が有害な結果をもたらす可能性に警告を発してきた。「影響が何もないと考えるのは難しいでしょう。当然ながら、データソースとしてのウィキペディアの支配的地位が強まるほど事態は悪化するはずです」  。

責任ある使用

ウィキペディアには、ごく初期の頃から自動化が組み込まれている。プラットフォームの運用を維持しているのはボットだ。壊れたリンクを修復し、誤ったフォーマットを修正し、スペルミスの訂正さえもこなす。反復的で単調なそれらのタスクは、ほとんど問題なく自動化できる。定型的な言い回しに名称を当てはめ、川や都市、動物に関する短い記事を生成して回る大量のボットさえ存在する。ほとんどの場合、それらはプラットフォームの改善を担ってきた。

しかし、AIは違う。 数回のクリックで、誰でも大規模な損害を引き起こすことができるのだ。

ウィキペディアは、AI時代の到来を、他の多くのWebサイトよりうまく乗り切ってきた。ソーシャルメディアのように、AIボットやデマで溢れかえる事態にはなっていない。インターネットの初期を特徴づける素朴さを大部分で維持している。ウィキペディアは、誰もが自由に利用、編集、引用できる開かれたプラットフォームであり、それを運営しているのは、サービス先と全く同じコミュニティだ。透明性があり、簡単に利用できる。ただし、コミュニティが運営するプラットフォームの存続は、そのコミュニティの規模に依存する。英語版が勝利した一方で、グリーンランド語版は敗北したのだ。

「優秀なウィキペディアンが必要です。人々はその重要性を軽んじていますが、運営は魔法では成り立ちません」と、語学ボランティア委員であり、ウィキペディア言語版の開設や閉鎖に関する要望を監督するアミール・アハロニはいう。「責任を持って使用すれば、機械翻訳は効率的かつ有益なツールになりえます。しかし残念ながら、責任ある使用を全員に期待することはできません」。

トロステルド教授は、小規模版ウィキペディアにおけるユーザーの行動を調査した結果、「ウィキペディアのハイジャック犯」と彼が呼ぶユーザー集団をAIが助長していると指摘する。この集団を構成するのは、幅広いユーザーだ。自分の出身地やお気に入りのユーチューバーについてのページを作成する素朴なティーンエイジャーもいれば、少数言語での記事の作成が、それらのコミュニティに対する何らかの「支援」になると考える善意のウィキペディアンもいる。

「現代における彼らの問題点はグーグル翻訳を扱えることです」とトロステルド教授は言い、それによってかつてないほど長く、もっともらしいコンテンツの作成が可能になっていと付け加える。「初期には、彼らが使えたのは辞書だけでした」。

それは、ウィキペディアの破壊行為を実質的に産業化した。その影響を最も受けるのが消滅危機言語である。それらの言語では一般的に、AI翻訳の信頼性が極めて低い。数々の理由が考えられるが、この問題において重要なのは、インターネット上で利用可能なソーステキストが比較的少ないことである。類似言語が存在したり、機械翻訳システムの仕組みに全く適さない言語構造であったりするため、モデルが言語の識別に苦労 …

こちらは有料会員限定の記事です。
有料会員になると制限なしにご利用いただけます。
有料会員にはメリットがいっぱい!
  1. 毎月120本以上更新されるオリジナル記事で、人工知能から遺伝子療法まで、先端テクノロジーの最新動向がわかる。
  2. オリジナル記事をテーマ別に再構成したPDFファイル「eムック」を毎月配信。
    重要テーマが押さえられる。
  3. 各分野のキーパーソンを招いたトークイベント、関連セミナーに優待価格でご招待。
人気の記事ランキング
  1. It’s surprisingly easy to stumble into a relationship with an AI chatbot ChatGPTと親密関係、9割超が意図せず発展=MIT調査
  2. Fusion power plants don’t exist yet, but they’re making money anyway 稼働ゼロでも巨額調達、なぜ「核融合」に資金が集まるのか?
  3. Microsoft says AI can create “zero day” threats in biology AIが危険タンパク質を「再設計」、DNA検査すり抜け=MSが警鐘
日本発「世界を変える」U35イノベーター

MITテクノロジーレビューが20年以上にわたって開催しているグローバル・アワード「Innovators Under 35 」。世界的な課題解決に取り組み、向こう数十年間の未来を形作る若きイノベーターの発掘を目的とするアワードの日本版の最新情報を発信する。

特集ページへ
MITTRが選んだ 世界を変える10大技術 2025年版

本当に長期的に重要となるものは何か?これは、毎年このリストを作成する際に私たちが取り組む問いである。未来を完全に見通すことはできないが、これらの技術が今後何十年にもわたって世界に大きな影響を与えると私たちは予測している。

特集ページへ
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る