A Chinese firm has just launched a constantly changing set of AI benchmarks

中国VC、実用性重視のAIベンチマークを一部無料公開

中国のベンチャーキャピタル企業は、AIモデルの学術的な能力だけでなく、実世界のタスクを遂行する能力について評価できるベンチマークテストを作成した。一部は無料で公開され、定期的に更新される予定だ。 by Caiwei Chen2025.07.01

AIモデルをテストする際、それが推論しているのか、それとも単に訓練データから答えをオウム返ししているだけなのかを判断するのは困難である。中国のベンチャーキャピタル企業である「紅杉中国（HongShan Capital Group、HSG）」が開発した新しいベンチマークである「Xベンチ（Xbench）」は、この問題を回避するのに役立つかもしれない。その理由は、他の多くのベンチマークのように任意のテストに合格する能力だけでなく、珍しいことに実世界のタスクを実行する能力についてもモデルを評価するからだ。このベンチマークは、常に最新の状態を保つため、定期的に更新される予定となっている。

紅杉中国は先日、質問セットの一部をオープンソース化し、誰でも無料で使用できるようにした。同社はさらに、主要なAIモデルをXベンチでテストした結果を比較したリーダーボードも公開した。オープンAI（OpenAI）の「 o3」が全カテゴリーで1位にランクインしたが、バイトダンス（ByteDance）の「豆包（Doubao）」、グーグルの「Gemini 2.5 Pro（ジェミニ2.5プロ）」、Xの「Grok（グロック）」もすべて非常に良好な結果を示し、「Claude Sonnet（クロード・ソネット）」も同様であった。

このベンチマークは、チャットGPT（ChatGPT）の大成功を受けて、どのモデルに投資する価値があるか評価するための内部ツールとして2022年に開発が始まった。それ以来、パートナーのゴン・ユアンが主導するチームは、外部の研究者や専門家の協力を得てシステムを改良し、着実に拡張してきた。プロジェクトがより洗練されるにつれ、チームはベンチマークを一般に公開することを決定した。

Xベンチは2つの異なるシステムで、従来のベンチマークが抱える問題にアプローチした。1つは従来のベンチマークに類似した、さまざまな科目におけるモデルの適性を測る学術的なテストである。もう1つは就職のための技術面接のようなもので、モデルがどの程度の実世界での経済的価値を提供できるかを評価するものである。

「生」の知能を評価するXベンチの手法は現在、「Xベンチ-サイエンスQA（Xbench-ScienceQA）」と「「Xベンチ-ディープリサーチ（Xbench-DeepResearch）」の2つで構成されている。サイエンスQAは、GPQAやスーパーGPQA（SuperGPQA）のような既存の大学院レベルのSTEMベンチマークから根本的に逸脱するものではない。生化学から軌道力学まで幅広い分野にわたる問題を含み、大学院生によって起草され、教授によって二重チェックされている。採点では正解だけでなく、それに至る推論の連鎖も評価される。

対照的に、ディープリサーチは、中国語のWebをナビゲートするモデルの能力に焦点を当てている。10人の専門家が音楽、歴史、金融、文学の分野で100の質問を作成した。これらの質問は単にグーグル検索で答えられるものではなく、回答するために重要な調査を必要とするものである。採点は情報源の幅広さ、事実の一貫性、そして十分なデータがない場合にそれを認めるモデルの意欲を重視している。公開されたコレクションの質問の一つは「中国の北西部3省において、外国と国境を接している中国の都市はいくつあるか？」である（答えは12であり、テストされたモデルのうち正解したのはわずか33%であった）。

同社のWebサイトにおいて、研究チームはテストにより多くの次元を追加したいと述べている。例えば、モデルが問題解決においてどの程度創造的であるか、他のモデルと協働する際にどの程度協調的であるか、そしてどの程度信頼性があるかといった側面である。

研究チームは四半期に一度テスト問題を更新し、半分を公開、半分を非公開のデータセットとして維持することを約束している。

モデルが実世界にどの程度対応できるか評価するため、同チームは専門家と協力して実際のワークフローをモデル化したタスクを開発した。最初は採用とマーケティング分野である。例えば、あるタスクではモデルに対して5人の適格なバッテリーエンジニア候補者を採用し、それぞれの選択を理由を求める。別のタスクでは、800人以上のインフルエンサーのデータプールから、広告主に合ったショート動画クリエイターをマッチングするよう求める。

Webサイトでは、金融、法務、会計、デザインを含むカテゴリーのタスクも今後提供すると予告している。これらのカテゴリーの問題セットはまだオープンソース化されていない。

o3は、現在の専門分野カテゴリーの両方で再び首位にランクされている。採用分野では、パープレキシティ・サーチ（Perplexity Search）とClaude 3.5 Sonneがそれぞれ2位と3位を占めている。マーケティング分野では、Claude、Grok、Geminiがすべて良好なパフォーマンスを示している。

「定量化が非常に困難なものをベンチマークに含めることは本当に難しいです」と、ニューヨーク大学の学生であるジハン・ジェンは述べる。ジェンはライブコードベンチプロ（LiveCodeBench Pro）という新しいベンチマークの主任研究者だ。「しかし、エックスベンチは有望なスタートを切っています」。

人気の記事ランキング

ツァイウェイ・チェン [Caiwei Chen]米国版中国担当記者: MITテクノロジーレビューの中国担当記者として、グローバルなテクノロジー業界における中国に関するあらゆるトピックを取材。これまで、ワイアード（Wired）、プロトコル（Protocol）、サウスチャイナ・モーニング・ポスト（South China Morning Post）、レスト・オブ・ワールド（Rest of World ）などのメディアで、テクノロジー、インターネット、文化に関する記事を執筆してきた。ニューヨークのブルックリンを拠点に活動している。