AIベンチマークはもはや限界、新たなテスト手法の登場相次ぐ

AIの性能を測るための従来のベンチマークはもはや限界に達しつある。研究者たちは、AIをテストするための新しい、より良い方法を考え出そうとしている。 by Caiwei Chen2025.07.02

技術記者として、私はよく「ディープシーク（DeepSeek）は実際にチャットGPT（ChatGPT）よりも良いのですか？」とか、「アンソロピック（Anthropic）のモデルは優れているのですか？」といった質問を受ける。1時間のセミナーにしたくない場合、通常は外交的な答えを返す。「どちらもそれぞれ異なる方法で優秀ですよ」といった具合だ。

質問する大半の人々は「良い」を厳密に定義していないが、それは当然だ。新しく強力に見える何かを理解したいと思うのは人間として自然なことだ。しかし、このモデルは良いのか？という単純な質問は、実際にははるかに複雑な技術的問題の日常版に過ぎない。

これまで私たちは、固定された質問セットをモデルに与え、正解の数に基づいて採点するベンチマークを通じて、その質問に答えようとしてきた。しかし、多くの米国の大学が使用する入学試験であるSATと同様に、これらのベンチマークは必ずしもより深い能力を反映するものではない。最近では毎週のように新しい人工知能（AI）モデルが登場しているように感じられ、企業が新モデルを発表するたびに、前モデルの能力を上回ることを示す新たなスコアが伴っている。書面上では、すべてが常に向上しているように見える。

実際には、それほど単純ではない。SAT対策の詰め込み勉強が批判的思考力を向上させることなくスコアを押し上げる可能性があるのと同様に、モデルは実際に賢くなることなく、ベンチマーク結果を最適化するように訓練される可能性があると、ラッセル・ブランダムが本誌への寄稿で説明している。オープンAI（OpenAI）とテスラAI（Tesla AI）のベテランであるアンドレイ・カルパシーが最近述べたように、私たちは評価の危機を生きている。AIのスコアボードはもはや、私たちが本当に測定したいものを反映していない。

ベンチマークがいくつかの主要な理由で陳腐化している。第一に、業界は「テスト対策」を学習し、真に改善するのではなく、良いスコアを取るようにAIモデルを訓練している。第二に、広範囲にわたるデータ汚染により、モデルは訓練データのどこかでベンチマークの問題、あるいは答えさえもすでに見ている可能性がある。そして最後に、多くのベンチマークは単純に上限に達している。「スーパーグルー（SuperGLUE）」のような人気のテストでは、モデルはすでに90%の正答率に達するか、それを上回っており、さらなる向上は意味のある改善というよりも統計的ノイズのように感じられる。その時点で、スコアは私たちに有用な情報を何も教えなくなる。これは特に、コーディング、推論、複雑なSTEM問題解決のような高技能領域において当てはまる。

しかし、AI評価の危機に対処しようとする研究チームが世界中で増えつつある。

その結果の一つが、「ライブコードベンチ・プロ（LiveCodeBench Pro）」と呼ばれる新しいベンチマークである。これは国際的なアルゴリズム・オリンピックから問題を抽出している。エリート高校生や大学生プログラマーのための競技会で、参加者は外部ツールを使わずに難問を解決するものだ。現在のトップAIモデルは、中程度の難易度の問題で初回通過率がわずか約53%しか達成できておらず、最高難度の問題では0%だ。これらは人間の専門家が日常的に優秀な成績を収める課題である。

ニューヨーク大学の3年生で競技プログラミングの世界決勝進出者であるジハン・ジェンは、オリンピック入賞者のチームと共にライブコードベンチ・プロの開発プロジェクトを主導した。彼らはベンチマークと詳細な研究の両方を発表し、GPT-4oミニ（GPT-4o mini）やグーグル（Google）のジェミニ2.5（Gemini 2.5）などのトップクラスのモデルが、人間の競技者の上位10%に匹敵するレベルで性能を発揮することを示した。全体を通して、ジェンはあるパターンを観察した。AIは計画立案とタスク実行に優れているが、微妙なアルゴリズム推論に苦戦するのである。「AIは依然として最高の人間のコーダーに匹敵するには程遠いことを示しています」と彼は述べる。

ライブコードベンチ・プロは新たな上限を定義するかもしれない。しかし下限はどうだろうか？ 6月初めの論文で、複数の大学の研究者グループは、LLMエージェントは単にどれだけ良いパフォーマンスを示すかではなく、主にそのリスクの高さに基づいて評価されるべきであると主張した。現実世界のアプリケーション駆動環境、特にAIエージェントにおいては、信頼性の欠如、ハルシネーション（幻覚）、脆弱性は致命的である。金銭や安全性が関わる場合、一つの間違った動作が悲惨な結果を招く可能性がある。

この問題に対処する別の新たな試みもある。ARC-AGIのような一部のベンチマークは、AIモデルがテストに対して過度に最適化される問題、いわゆる「過学習」を防ぐため、データセットの一部を非公開にしている。メタ（Meta）のヤン・ルカンは、6カ月ごとに質問が進化する動的ベンチマークである「ライブベンチ（LiveBench）」を作成した。目標は、知識だけでなく適応性についてもモデルを評価することである。

こうした取り組みの一つに、中国のベンチマーク・プロジェクトである「エックスベンチ（Xbench）」がある。エックスベンチは紅杉中国（HongShan Capital Group、旧セコイア・チャイナ）が開発したもので、私はこれについて記事を書いたばかりだ。エックスベンチは2022年、チャットGPTが発表された直後に、投資調査のためのモデル評価をする内部ツールとして最初に構築された。時間が経つにつれて、チームはシステムを拡張し、外部の協力者を招き入れた。先日、質問セットの一部を公開したばかりである。

エックスベンチは、研究室ベースのテストと実世界での有用性の間のギャップを埋めようとするデュアルトラック設計で注目される。第1のトラックは、モデルのSTEM知識と中国語での研究実行能力をテストすることで、技術的推論スキルを評価する。第2のトラックは実用的な有用性、つまり採用やマーケティングなどの分野でのタスクにおいてモデルがどの程度うまく機能するかを評価することを目的とする。例えば、あるタスクではエージェントに5人の適格なバッテリー技術者候補者を特定することを求め、別のタスクでは800人以上のクリエイターのプールから関連するインフルエンサーとブランドをマッチングさせる。

エックスベンチの開発チームは大きな野望を抱いている。金融、法律、デザインなどの分野にテスト機能を拡張する計画であり、停滞を避けるためにテストセットを四半期ごとに更新する予定である。

これは私がよく疑問に思うことである。なぜなら、モデルのハードコアな推論能力が必ずしも楽しく、有益で、創造的な体験に結びつくとは限らないからだ。一般的なユーザーからの問い合わせの大部分は、おそらくロケット科学のようなものではないだろう。モデルの創造性を効果的に評価する方法についてはまだ多くの研究がないが、創作活動やアートプロジェクトに最適なモデルがどれなのかを知りたいと思う。

人間の好み評価テストもベンチマークの代替手段として登場している。人気が高まっているプラットフォームの一つがLMアリーナ（LMarena）である。これはユーザーが質問を投稿し、異なるモデルからの回答を並べて比較し、最も気に入ったものを選ぶことができるものである。しかし、この手法にも欠陥がある。ユーザーは時として、間違っていても、より心地よく聞こえたり同意しやすかったりする回答を高く評価してしまう。これは「甘い言葉」を使うモデルを助長し、迎合に有利な結果に偏らせる可能性がある。

AI研究者たちは、AIテストの現状がこのまま続くべきではないことを理解し始め、そして認め始めている。最近のCVPR（Computer Vision and Pattern Recognition、コンピュータービジョンとパターン認識）会議において、ニューヨーク大学（NYU）のサイニン・シエ教授は、歴史学者ジェームズ・カースの「有限と無限のゲーム」を引用して、AI研究の過度に競争的な文化を批判し、無限ゲームは終わりがなく、目標はゲームを続けることであると指摘した。しかしAIにおいては、支配的なプレイヤーがしばしば大きな結果を発表し、同じ狭いトピックを追いかける後続論文の波を引き起こしている。この出版競争文化は研究者に甚大な圧力をかけ、深さよりもスピードを、長期的な洞察よりも短期的な勝利を報いている。「もし学界が有限ゲームをプレイすることを選択するなら、すべてを失うことになるでしょう」とシエ教授は警告する。

私は同教授のフレーミングが力強いものであると感じた。そして、それはベンチマークにも当てはまるかもしれない。では、私たちはモデルがどれほど優秀であるかを示す真に包括的なスコアボードを持っているのだろうか。実際のところ、持っていない。社会的、感情的、学際的といった多くの次元は、いまだに評価を逃れている。しかし、新しいベンチマークの波は変化を示唆している。この分野の進化において、少しの懐疑主義は恐らく健全である。

人気の記事ランキング

チェン・ツァイウェイ [Caiwei Chen]米国版中国担当記者: MITテクノロジーレビューの中国担当記者として、グローバルなテクノロジー業界における中国に関するあらゆるトピックを取材。これまで、ワイアード（Wired）、プロトコル（Protocol）、サウスチャイナ・モーニング・ポスト（South China Morning Post）、レスト・オブ・ワールド（Rest of World ）などのメディアで、テクノロジー、インターネット、文化に関する記事を執筆してきた。ニューヨークのブルックリンを拠点に活動している。