アニメ絵に強いバイドゥの画像生成AI、中国ならではの弱み
バイドゥが開発したテキストから画像を生成するAI「ERNIE-ViLG」は、中国固有の文化に基づく物やアニメキャラ風の画像生成において、既存のAIよりも優れている。しかし、検閲機能によって、政治的にセンシティブな言葉は排除される。 by Zeyi Yang2022.09.26
テキストから画像を生成する新たな人工知能(AI)が登場した。中国のテック企業であるバイドゥが開発した画像生成AI「ERNIE-ViLG(アーニーViLG)」 は、中国特有の文化に根ざした画像を生成できるうえ、アニメ風キャラの画像生成においても、オープンAI(OpenAI)の「DALL-E 2(ダリー2)」をはじめとする欧米の画像生成AIを凌ぐ。
だが、中国第2の都市である北京にあり、政治の象徴的な中心地となっている天安門広場など、AIが画像を生成しない題材もたくさんある。
今年8月下旬にERNIE-ViLGのデモが公開されると、ユーザーたちはすぐに、特定の言葉が「センシティブ」とされ、画像が生成されないことに気づいた。政治指導者の名前が直接的に使われている言葉や、政治的な文脈でのみ話題になり得る言葉などだ。中国の高度なオンライン検閲システムは、どうやらAIの最新トレンドにも及んでいるようだ。
もっとも、特定のコンテンツを生成できないように制限している画像生成AIはめずしくない。DALL-E 2では、性的コンテンツ、公人の顔、医療行為の画像の生成は禁止されている。しかし、ERNIE-ViLGの場合は、モデレーションと政治的検閲の正確な境界線がどこにあるのかという問題を浮き彫りにしている。
ERNIE-ViLGのモデルは、バイドゥの自然言語処理の大規模プロジェクト「ウェン・シン(Wenxin)」の成果の一部を利用している。1億4500万組の画像とテキストのデータセットで訓練され、コンセプトやアートスタイルの微妙な違いを見分けるために、100億個のパラメーター(ニューラル・ネットワークが学習する際に調整する値)を組み込んでいる。ERNIE-ViLGの訓練用データセットは、DALL-E 2の6億5000万組や「ステーブル・フュージョン(Stable Diffusion)」の23億組よりも少ないが、パラメーターは両者よりも多い(DALL-E 2のパラメーターは35億、Stable Diffusionは8億9000万)。バイドゥは8月下旬に自社プラットフォームでデモ版を公開し、のちに国際的なAIコミュニティとして人気の高いハギング・フェイス(Hugging Face)で公開した。
ERNIE-ViLGと欧米のモデルの主な違いは、バイドゥが開発したモデルは中国語で書かれたプロンプトを理解し、文化的に特異な単語に関しては間違いが少ないということだ。
例えば、中国の映像クリエイターは、中国の歴史上の人物、ポップカルチャーの有名人、食品を含むプロンプトについて、さまざまなモデルが生成した画像を比較した。その結果、ERNIE-ViLGは、DALL-E 2やステーブル・ディフュージョンよりも正確な画像を生成するこ …
- 人気の記事ランキング
-
- These AI Minecraft characters did weirdly human stuff all on their own マイクラ内に「AI文明」、 1000体のエージェントが 仕事、宗教、税制まで作った
- 3 things that didn’t make the 10 Breakthrough Technologies of 2025 list 2025年版「世界を変える10大技術」から漏れた候補3つ
- The startup trying to turn the web into a database Webをデータベースに変える、新発想のLLM検索エンジン
- OpenAI’s new defense contract completes its military pivot オープンAIが防衛進出、「軍事利用禁止」から一転