中国テック事情:英語が支配するコンピューターの世界は変わるか
コンピューターは完全に、ラテン語圏のユーザー向けに設計されている。このひとつの仕組みで全ての言語に対応するための努力が、それ以外の国々、特に中国において数十年にわたってなされてきた。 by Zeyi Yang2024.06.10
この記事は米国版ニュースレターを一部再編集したものです。
言語には無数の違いがあるにもかかわらず、事実上誰もが同じQWERTY配列のキーボードを使用しているという奇跡的な事実について考えたことはあるだろうか?多くの言語ではアルファベットの文字数が26文字より多い言語もあれば少ない言語もある。あるいは、中国語のように「アルファベット」が存在せず、何万もの文字がある言語も存在する。しかし、どういうわけか、誰もが同じキーボードを使ってコミュニケーションしている。
MITテクノロジーレビューは先日、新刊「The Chinese Computer: A Global History of the Information Age(中国のコンピューター:情報時代のグローバルな歴史)」(MITプレス発行)からの抜粋を掲載した。この書籍は、中国でこの問題がいかに解決されたかについて語っている。何世代にもわたる漢字の分類、コンピューター部品の改良、次の文字を自動的に予測するキーボードアプリの開発を経て、ついに中国語話者なら誰でもQWERTYキーボードを使用できるようになった。
しかし、この書籍はそれで終わらない。このすべては何を意味するのかという、より大きな問いで締めくくられている。「非ラテン語話者が現代のテクノロジーを使用するために、適応する必要があるのはなぜか。そして非ラテン語話者の努力はコンピューティング技術に何をもたらすのか?」
私はこの書籍の著者であるスタンフォード大学のトーマス・マラニー教授(歴史学)に取材した。キーボード、コンピューター、コンピューティングのあらゆる基盤となっている英語中心の設計、さらにはキーボードが実質現実(VR)のような新しいテクノロジーに与える影響について、私たちは夢中になって議論した。以下は、こうした問いに対するマラニー教授の興味深い回答である(わかりやすく簡潔にするために、少し編集を加えている)。
◆
マラニー教授の著書は、QWERTY配列のキーボードで中国語の入力を可能にし、さらには、効率的に入力できるようにした数十年間にわたる多くの実験について述べている。だが、同じようなプロセスは世界中で展開されてきた。非ラテン語圏の多くの国々は、西洋のコンピューターを使って自国の言語を入力し、処理する方法を編み出さなければならなかった。
マラニー教授:中国語の場合、そして日本語や韓国語、その他多くの非西洋文字体系の場合も、これは遊びで実施されたわけではありません。必然性に迫られて実施されたのです。というのも、英語圏で生まれ育ったキーボードベースのコンピューティングの支配的なモデルは、中国語と互換性がありません。キーボードに必要なスペースがないため、上手くいかないです。そして、次のような疑問が生じました。キーボードには数十個のキーしかないのに、10万もの文字がある。どうやって文字を対応させるのか?
簡単に言えば、地球上の人口の半分は、元々、全く意図してされていない方法でQWERTY配列のキーボードを使用して、コンピューターとやり取りするための根本的に違う方法を生み出しています。
これらの問題の根本的な原因は、英語をデフォルト言語としてコンピューターが設計されていることにある。つまり、英語が機能する方法は、今日のコンピューターの機能の仕方と同じなのだ。
マラニー教授:地球上のあらゆる文字体系は、歴史を通して、モジュール式、つまり小さなパーツの組み合わせで構成されています。しかし、コンピューティングは、1つの非常に特殊なモジュール性、つまり英語で機能する時のモジュール性に基づいて、入念に、巧みに、そして理解しやすい形で開発されてきました。
そして、他の言語の人は皆、そのモジュール性に適応しなければならなりませんでした。アラビア文字はつながっているため、コンピューターに合うように修正する必要があります。南アジアの文字では、子音と母音の組み合わせによって文字全体の形が変わりますが、これは英語で機能するモジュール性とは異なります。
英語のモジュール性は、コンピューティングにおいて非常に基本的である。そのため、非ラテン語話者は、それを変えようと何十年も必死に取り組んできたにもかかわらず、今日でもその影響と格闘している。
マラニー教授は、2022年にアラビア語話者たちがアドビの「インデザイン(InDesign)」について抱いた不満について語った。インデザインは、最も普及しているデスクトップ・パブリッシング(DTP)ソフトだ。つい2年前までは、このソフトウェアにアラビア語のテキストを貼り付けると、テキストが乱れて、テキストの音韻的特徴を示すのに不可欠なダイアクリティカルマークが誤った位置に配置される問題が生じた。この問題を回避するには、中東版のソフトウェアをインストールし、いくつかの回避策を慎重に適用する必要があることが判明した。
マラニー教授:ラテン語系のアルファベットが優勢であることは今も変わっておらず、その地位は揺るぎません。そして、それをいつか覆すことができるのかという厄介な問題もあります。紆余曲折を経て、特定の文字体系が深い構造的なレベルで有利になり、他の文字体系が不利になったのです。
英語中心の設計が深く根付いているからこそ、主流の入力方法は、誰もが知っていて、これを愛する人もいれば嫌う人もいるキーボード配列から大きく外れることはないのだ。英語圏では、テキスト入力の仕組みを再考する試みが数多くなされてきた。T9入力方式の携帯電話のキーボードやパーム・パイロット(Palm Pilot)の手書きアルファベットなどのテクノロジーは、一時期は採用されたものの、ほとんどの開発者がすぐにQWERTYキーボードに戻ってしまうため、長続きしなかった。
マラニー教授:T9は障害者向けのテクノロジーとして誕生し、最初の携帯電話に組み込まれました。ボタン配置が大きな問題だったからです(これはブラックベリー(BlackBerry)がQWERTYキーボードを再導入する前のことだ)。これは必要不可欠なことでした。開発者は、実際に異なる方法で考える必要がありました。しかし、十分なスペース、例えば、12インチ×14インチのスペースがあれば、私はQWERTYキーボードをデフォルトにするでしょう。
10年ごとくらいに、欧米のテック企業や発明家が「みんな!QWERTYキーボードよりもはるかに高速で、より高度な英語入力方法をついに見つけた」と発表します。しかし、そのたびに市場の反応はゼロでした。
QWERTYキーボードは永遠に残るのだろうか? この会話を終えて、私はそうならないことを密かに願っている。今こそ変える時なのかもしれない。VRヘッドセットやその他のガジェットが登場する中で、QWERTYキーボードが第一選択肢ではなくなり、非ラテン語圏の言語が、人間とコンピューターのやり取りの新たな標準規範を形作るチャンスがついに訪れるかもしれない。
マラニー教授:面白いことに、拡張現実(AR)やVRの世界に足を踏み入れる今、シリコンバレーの企業は「どうすればインターフェースの問題を解決できるか」と頭を悩ませています。というのも、QWERTYキーボード以外はすべて縮小できるからです。欧米のエンジニアたちが理解できていないのは、これはテクノロジーの問題ではなく、テクノロジー文化の問題だということです。そしてエンジニアたちはそれを理解していません。テクノロジーさえ発明すれば、それが普及すると思っているのです。しかし、そんなことはこれまで一度も実現していません。
もし私がソフトウェアやハードウェアの開発者だったら、オンライン・ロールプレイングゲームのチャット機能に注目するでしょう。人々がテレビのリモコンを使って見たい映画のタイトルを検索している様子を見たり、「ロブロックス(Roblox)」ゲームのプレイヤーたちがどのようにチャットをしているのかを見るでしょう。新しい入力方法は、主流ではない分野から生まれます。なぜなら、主流はQWERTYが支配的であるからです。
中国関連の最新ニュース
1. 6月4日は、北京の天安門広場で起きた学生デモとそれに続く虐殺事件から35年になる。
- 数十年もの間、香港は天安門事件追悼イベントの拠点となってきた。しかし、もはやそうではない。2019年の抗議運動以降、中国政府による香港政治への統制が強まっているためだ。(ニューヨーカー)
- 天安門事件の学生抗議活動家の遺産を保存するためには、今年、米国の大学や司法当局が大学生の抗議活動家をどのように扱ってきたかに関する倫理的な問いにも取り組むことが重要だ。 (ザ・ネイション)
2. レーザーセンサーを製造する中国企業が、米国政府により、安全保障上の懸念がある企業として指定された。数カ月後、同社は「アメリカン・ライダー(American Lidar)」というミシガン州で登記された企業として、ひっそりとブランド名を変更した。 (ウォール・ストリート・ジャーナル)
3. 中国でセレブであることは大変だ。インターネット規制当局が「目立ちたがり屋」を一掃する取り組みを発表して、贅沢な富を誇示して「中国のキム・カーダシアン」と呼ばれたインフルエンサーが、複数のソーシャルメディア・プラットフォームから追放されたところだ。(フィナンシャル・タイムズ)
- 一方、中国でも多くのフォロワーを持つ台湾のセレブは、ますます政治的な対立に巻き込まれるようになっている。(CNN)
4. 中国人留学生が米国への入国を拒否される事例が相次いでいることは、バイデン政権内の対立を浮き彫りにしている。米国国土安全保障省に勤務する税関職員が、国務省が承認済みの多くの学生ビザをどんどん取り消している。(ブルームバーグ )
5. 太平洋に浮かぶ小さな島国パラオは、台湾を主権国家として承認している世界でも数少ない国のひとつだが、中国によるサイバー攻撃を受けていると主張している。(ニューヨーク・タイムズ)
6. 月の裏側からサンプルを採取する初の宇宙ミッションとなった中国の月探査機「嫦娥(じょうが)6号」が、地球への帰還を開始した。 (BBC)
7. 中国政府は、国内の半導体産業を強化するため、第3期に最大規模の半導体投資ファンドを設立した。このファンドは475億ドル規模だ。 (ブルームバーグ )
- 2022年、このファンドは汚職疑惑に揺れた。 (MITテクノロジーレビュー)
LLM盗用疑惑が波紋
中国のメディアであるピング・ウェスト(PingWest)によると、中国の生成AI(ジェネレーティブAI)コミュニティが、欧米の大規模言語モデルが中国のモデルを盗用していることを初めて見つけたとして揉めている。
スタンフォード大学のコンピューター科学専攻の2人の大学生は先日、オープンAI(OpenAI)とグーグルが開発した大規模言語モデルよりも強力で、コストも低く抑えられるという「ラマ(Llama)3-V」というオープンソースモデルを公開した。しかし、中国のAI研究者はまもなく、Llama 3-Vが中国の清華大学と中国のスタートアップ企業、モデルベスト(ModelBest)が開発した別のオープンソース大規模言語モデルである「MiniCPM-Llama3-V 2.5」の構造、設定ファイル、コードをコピーしていたことを発見した。
盗用を証明したのは、中国チームが2000年前の竹簡に書かれた中国語の文章を集めて使ってモデルを秘密裏に訓練していたこと、また、他の大規模言語モデルはこのような古代の文体を正確に認識できないということだった。しかし、Llama 3-VはMiniCPMと同様に、これらの文字を認識できたうえ、中国モデルと同じ間違いを犯していた。Llama 3-Vを公開した学生たちは、このモデルを削除し、中国チームに謝罪したが、この事件は、中国の人工知能(AI)コミュニティによって、国産大規模言語モデルの能力が急速に高まっていることの証拠と見なされている。
- 人気の記事ランキング
-
- The coolest thing about smart glasses is not the AR. It’s the AI. ようやく物になったスマートグラス、真価はARではなくAIにある
- Sorry, AI won’t “fix” climate change サム・アルトマンさん、AIで気候問題は「解決」できません
- Two Nobel Prize winners want to cancel their own CRISPR patents in Europe クリスパー特許紛争で新展開 ノーベル賞受賞者が 欧州特許の一部取り下げへ
- Space travel is dangerous. Could genetic testing and gene editing make it safer? 遺伝子編集が出発の条件に? 知られざる宇宙旅行のリスク
- ヤン・ズェイ [Zeyi Yang]米国版 中国担当記者
- MITテクノロジーレビューで中国と東アジアのテクノロジーを担当する記者。MITテクノロジーレビュー入社以前は、プロトコル(Protocol)、レスト・オブ・ワールド(Rest of World)、コロンビア・ジャーナリズム・レビュー誌、サウスチャイナ・モーニング・ポスト紙、日経アジア(NIKKEI Asia)などで執筆していた。