英語は世界人口の20%未満が話すが、一部の専門家は、それが大規模言語モデル(LLM)を構築するために使用される訓練データの90%以上を占めると推定している。その結果、世界中で話されている約7000の非英語言語でのパフォーマンスが悪く、英語言語データで支持されている文化的規範や価値観を強化し、検出困難な害を作り出す人工知能(AI)モデルが生まれている。
グーグル・リサーチ(Google Research)の上級研究科学者である32歳のスニパ・デヴは、AIを訓練・評価するためのより包括的で多言語的、多文化的なデータセットでそれを変えようとしている。
2023年から、デヴらはステレオタイプに関する多言語・多地域のデータセットを発表した。「SeeGULL」と呼ばれる一連の論文で、当時この種のデータセットとしては最大規模だった。合成データとコミュニティ提供データの結合手法を用いて、178の英語圏の国々に加え、23の地域の20の非英語言語からの例を含んでいる。
生成AIの出力が地域ユーザーにとって関連性があることを保証するため、彼女のチームは中東を含む世界中の個別データ・アノテーターと協力した。インド全域、ラテンアメリカ、サハラ以南アフリカなどの代表性が低い地域では、地域の非営利団体、UXデザイナー、その他と提携して追加の知見を取り入れた。
グーグルはすでに、自社のLLMが有害なステレオタイプの再生産をどの程度回避できるかを評価するためにSeeGULLデータセットを使用している。また、より広範囲なAI安全評価にも使用されている。SeeGULLはオープンソースであるため、デヴらは非西洋コミュニティの懸念がAI安全テストに含まれることを期待している。
デヴは、同志のAI実践者のコミュニティを育成することで、自分の使命の範囲を拡大しようとしている。理想は、今後5年間で、世界の主要言語の話者の90%が一貫性があり、関連性があり、安全で、最終的に有益なAIにアクセスできるようになることだ。そしていつの日か、その数が100%に近づくということだという。「人工知能はグローバルな知能でなければなりません。一部の文脈だけでの知能であってはダメなのです」とデヴは言う。
- 人気の記事ランキング
-
- It’s time to address the looming crisis in entry-level work. 「コーディングを学べ」もう通用せず、AIが若者の雇用を奪い始めた
- Promotion Call for entries for Innovators Under 35 Japan 2026 「Innovators Under 35 Japan」2026年度候補者募集のお知らせ
- Anthropic’s Code with Claude showed off coding’s future—whether you like it or not 「Claudeに任せてしまおう」 たった1年で激変したソフトウェア開発
- A reality check on the AI jobs hysteria 「ホワイトカラー消滅」 まだデータに兆候なし ——ただし若者に警戒信号
- Inside the stealthy startup that pitched brainless human clones 「臓器袋」から全身置換へ ステルス企業R3が隠す 「脳なし」クローン計画
