人工知能（AI） Insider Online限定

AIの実力、どう測る？
時代遅れのベンチマーク、
信頼できる評価方法とは

シリコンバレーのAI企業が熱狂するベンチマークテスト。だが、その評価方法には深刻な欠陥があることが明らかになってきた。高得点を競う企業は「テスト対策」に走り、本来測るべき能力が正確に評価されていない現状が「評価の危機」を引き起こしている。 by Russell Brandom2025.05.15

この記事の3つのポイント

シリコンバレーで人気のAIベンチマークの限界が明らかになっている
AIの実際の能力評価とベンチマークの結果にズレが生じており問題視されている
妥当性を重視し特定のタスクに特化した小規模な評価への移行が提案されている

summarized by Claude 3

シリコンバレーのお気に入りのベンチマークの1つになることは、簡単ではない。

2024年11月に公開されたSWE-Bench（「スウィーベンチ」と読む）は、12種類のPythonベースのプロジェクトの公開ギットハブ（GitHub）リポジトリから収集した2000件以上の実際のプログラミング課題を用いて、AIモデルのコーディング能力を評価するベンチマークである。

公開から数カ月で、SWE-Benchは人工知能（AI）分野でもっとも広く使われるテストの1つとなった。オープンAI（OpenAI）、アンソロピック（Anthropic）、グーグルといった企業の主要モデルの発表において、SWE-Benchのスコアは不可欠な指標となっている。また、基盤モデル以外でも、AI企業の開発者たちは他社を凌駕しようと激しく競い合っている。ランキング上位には、アンソロピックの「Claude Sonnet（クロード・ソネット）」モデルを利用した複数のシステムや、アマゾンの開発者向けエージェント「Q Developer（デベロッパー）」が名を連ねている。Claudeを基盤モデルとして利用する「AutoCodeRover」は、2024年11月に2位を獲得し、そのわずか3カ月後に買収された。

これほど激しい争いが繰り広げられているにもかかわらず、SWE-Benchは本質的に、どのモデルが「より優れている」かを厳密に評価できているわけではない。このベンチマークが注目されるにつれて、「企業が本気でトップの座を狙っていることが明らかになってきました」と語るのは、SWE-Benchの開発に関わったプリンストン大学の研究者、ジョン・ヤンだ。その結果、参加企業はSWE-Benchで高得点を取ることに特化したAIの開発に乗り出しており、それが多くの人々に「AIの能力をもっと正確に測る方法があるのではないか」と考えさせるきっかけになっている。

こうしたコーディング・エージェントの開発者は、必ずしもあからさまな不正行為をしているわけではないが、このベンチマークの仕様にあまりに特化した手法を用いている。初期のSWE-BenchテストセットはPythonで書かれたプログラムに限定されていたため、開発者はPythonのコードだけに特化してモデルを訓練することで有利に立てた。やがてヤンは、高得点を記録したモデルが他のプログラミング言語ではまったく機能しないことに気づいた。彼が「金めっき」と呼ぶベンチマーク特化型の対策が明らかになったのだ。

「一見すると良さそうですが、異なる言語で実行しようとするとまったく機能しません。もはやソフトウェア・エンジニアリング用のエージェントを作っているのではなく、SWE-Bench専用のエージェントを作っているだけです。それでは意味がありません」。

SWE-Benchを巡る問題は、AI評価におけるより広範で複雑な問題の一端であり、激しい議論を巻き起こしている。業界が開発指針として用いるベンチマークが、AIの実際の能力評価からかけ離れてきており、その根本的な価値が問われている。さらに、「FrontierMath（フロンティアマス）」や「Chatbot Arena（チャットボット・アリーナ）」など、いくつかのベンチマークが透明性の欠如を理由に非難を浴びていることも、状況を悪化させている。それでもなお、多くの専門家がベンチマークの結果を額面通りに受け取ることはなくとも、モデル開発においてベンチマークが中心的な役割を果たしていることに変わりはない。オープンAI共同創業者のアンドレイ・カルパシーは、現在の状況を「評価の危機」と呼んでいる。つまり、AI業界には信頼できる評価手法が少なくなり、より良い手段への道筋も見えていないということだ。

「これまでベンチマークはAIシステムを評価する手段でした」と語るのは、スタンフォード大学人間中心のAI研究所（Human-Centered AI Institute）のヴァネッサ・パーリ研究部長だ。「でも、それが今後も望ましい評価方法なのでしょうか？もし違うとしたら、どんな方法があるのでしょうか？」

学術界やAI研究者の間では、大規模な目標を掲げるのではなく、社会科学から着想を得て、より小規模かつ妥当性に重点を置いた評価へとシフトするべきだという声が高まっている。量的社会科学の分野では、妥当性とは、ある質問が主張通りの内容をどれだけ正確に測定できているか、さらには、その測定対象に明確な定義があるかを意味する。この考え方は、「推論（reasoning）」や「科学的知識」など定義が曖昧な概念を測定するベンチマーク、あるいはAGI（汎用人工知能）といった誇張された目標を追求する開発にとっては障害となるかもしれない。しかし、それによって個々のモデルの価値を証明しようとする産業に、より確かな基盤がもたらされるだろう。

「妥当性を真剣に考えるとは、学界であれ産業界であれ、自分たちのシステムが本当に主張通りに機能しているかを証明するよう求めることです」。こう語るのは、妥当性重視の新たな動きの中心人物であるミシガン大学のアビゲイル・ジェイコブズ教授だ。「もし企業が自らの主張を裏付けることを避けようとするなら、それはAI業界における弱点を露呈していると思います」。

従来のテストの限界

AI企業がベンチマークの不備に対する対応に出遅れたのは、部分的には、このスコアベースの評価手法が長年にわたり非常に効果的だったからである。

現代のAIの初期における最大の成功例のひとつが、イメージネット・チャレンジ（ImageNet challenge）であった。これは現代のベンチマークの前身ともいえる存在だ。2010年に研究者向けの公開課題としてリリースされたこのデータベースには、AIシステムが1000種類に分類すべき300万枚以上の画像が格納されていた。

このテストが非常に効果的だった理由の1つは、評価手法に一切依存しないという点だった。どのような方法であれ、この課題を突破したアルゴリズムは即座に信頼を得ることができた。2012年、当時としては型破りだったGPU（画像処理装置）を使った訓練によって、「AlexNet（アレックスネット）」というアルゴリズムがブレークスルーを達成。それが現代のAIを象徴する成果の1つとなった。AlexNetの畳み込みニューラルネットワーク（CNN）が画像認識の鍵になると予想していた者はほとんどいなかったが、このテストで高スコアを記録した後は、誰もその結果 …

こちらは有料会員限定の記事です。 有料会員になると制限なしにご利用いただけます。

有料会員にはメリットがいっぱい！

毎月120本以上更新されるオリジナル記事で、人工知能から遺伝子療法まで、先端テクノロジーの最新動向がわかる。
オリジナル記事をテーマ別に再構成したPDFファイル「eムック」を毎月配信。
重要テーマが押さえられる。
各分野のキーパーソンを招いたトークイベント、関連セミナーに優待価格でご招待。

【夏割】実施中！年間購読料20%オフ！

人気の記事ランキング

AIの実力、どう測る？ 時代遅れのベンチマーク、 信頼できる評価方法とは

AIの実力、どう測る？
時代遅れのベンチマーク、
信頼できる評価方法とは