GPT-4oの中国語に異常
ポルノ、ギャンブルで
トークンが汚染されていた
オープンAIの最新の大規模言語モデル「GPT-4o」の中国語トークナイザーに、ポルノやギャンブル関連の用語が大量に含まれ、ハルシネーション(幻覚)が発生していることが分かった。訓練データのクリーニング不足が原因と見られる。 by Zeyi Yang2024.05.28
オープンAI(OpenAI)が5月13日にチャットボットの最新バージョン「GPT-4o」をリリースした直後、一部の中国語話者は、何かがおかしいことに気づき始めた。テキストを解析するために使われるトークン(モデルが取り扱う言葉の単位)がスパムやポルノフレーズであふれていたのだ。
チャットボットなどで使われている大規模言語モデル(LLM)の推論効率を研究しているプリンストン大学の博士課程学生、ティアンラ・サイは5月14日、GPT-4oのパブリックトークン・ライブラリにアクセスし、中国語のプロンプト(指示テキスト)を解析・圧縮するためにモデルが使用する最も長い100個の中国語のトークンのリストを取得した。
人間は単語を使って文章を読むが、LLMはトークンを使って読む。トークンとは、一貫した重要な意味を持つ、文中の明確な単位である。トークンには、辞書に載っている単語だけでなく、接尾辞、慣用句、名前なども含まれる。モデルがエンコードするトークンの数が多ければ多いほど、モデルはより速く文章を「読む」ことができ、消費するコンピューティングパワーも少なくなるため、レスポンスのコストを下げられる。
サイの調査によると、100個のトークンのうち、日常会話でよく使われる一般的なものは3つだけで、他はすべてギャンブルかポルノの文脈でのみ使われる単語や表現だった。最も長いトークンは10.5漢字で、文字どおり「_無料で見られる日本人のポルノビデオ」を意味するものであった。
「これは少し馬鹿げています」とサイは書き、トークンのリストをGitHubに投稿した。
MIT テクノロジーレビューはオープンAIに質問を送ったが、本記事公開までに回答は得られなかった。
GPT-4oは、前バージョンに比べて多言語タスクの処理に優れているとされる。特に、英語以外の言語のテキストをよりうまく圧縮する新たなトークナイザー(文章をトークンに分割するツール)によってそれが達成されているという。
しかし、少なくとも中国語に関しては、GPT-4oが使用する新しいトークナイザーは、不釣り合いなほど多くの無意味なフレーズを導入している。トークナイザーを訓練する前のデータのクリーニングとフィルタリングが不十分だったことが原因である可能性が高いと専門家らは指摘している。
そして、それによってGPT-4oのパフォーマンスにも影響が出ている。これらのトークンは、実際によく使われる単語やフレーズではないため、GPT-4oがトークンの意味を把握できないことがあるのだ。研究者はこれらのトークンを使って、GPT-4oにハルシネーション(幻覚、もっともらしい誤った回答を生成する現象)を起こさせたり、モデルによって設定された安全ガードレールを回避させたりすることもできた。
英語以外のトークンが重要な理由
モデルがテキストを処理する最も簡単な方法は一文字ずつ処理することだ。しかし、「c-r-y-p-t-o-c-u-r-r-e-n-c-y」が常に「cryptocurrency(暗号通貨)」を意味するというように、特定の文字列が常に同じことを意味するとモデルが理解できる場合よりも、明らかに時間と手間がかかる。これらの文字列は、モデルがプロンプトを処理するための「トークン」としてエンコードされる。そのため、より多くの、より長いトークンを含めることで、通常、LLMはより効率的になり、多くの場合トークン単位で課金されるユーザーにとって手頃な価格で利用できるようになる。
オープンAIは5月13日にGPT-4oをリリースした際、以前のバージョンであるGPT-3.5とGPT-4で使用していたものに代わる新しいトークナイザーもリリースした。オープンAIのWebサイトによると、新しいトークナイザーは特に英語以外の言語のサポートを強化するものだという。
新しいトークナイザーには全部で20万個のトークンが含まれ、その約25%が英語以外の言語である、とメンロ・ベンチャーズ(Menlo Ventures)の人工知能(AI)投資家であるディーディ・ダスは言う。ダスが言語フィルターを使ってさまざまな言語のトークン数を数えたところ、英語以外の上位言語はロシア語、アラビア語、ベトナム語だった。
「私の考えでは、トークナイザーの主な効果は、これらの言語のトークンコストを下げることであり、これらの言語の質が劇的に向上することではありません」とダスは言う。LLMが英語以外の言語でより良質な、より長いトークンを持っていれば、プロンプトをより速く分析し、同じ回答に対してユーザーに請求する料金を低くすることができる。新しいトークナイザーを使えば、「ほぼ4倍のコスト削減が見込めます」とダスは話す。
ヒンディー語とベン …
- 人気の記事ランキング
-
- These AI Minecraft characters did weirdly human stuff all on their own マイクラ内に「AI文明」、 1000体のエージェントが 仕事、宗教、税制まで作った
- Promotion MITTR Emerging Technology Nite #31 MITTR主催「再考ゲーミフィケーション」開催のご案内
- The startup trying to turn the web into a database Webをデータベースに変える、新発想のLLM検索エンジン
- 3 things that didn’t make the 10 Breakthrough Technologies of 2025 list 2025年版「世界を変える10大技術」から漏れた候補3つ
- OpenAI’s new defense contract completes its military pivot オープンAIが防衛進出、「軍事利用禁止」から一転