KADOKAWA Technology Review
×
Facebookログイン終了のお知らせ(2026/3/31 予定)
「ご都合主義」蔓延るAIベンチマーク、問われる評価基準の信頼性
Sarah Rogers/MITTR | Photos Getty
人工知能(AI) Insider Online限定
The way we measure progress in AI is terrible

「ご都合主義」蔓延るAIベンチマーク、問われる評価基準の信頼性

AIモデルに対して実施するベンチマークテストは、企業が自社のモデルの性能をアピールするためにしばしば利用される。だが、新たな研究によると、こうしたベンチマークテストは、設計が不十分であることが多いという。 by Scott J Mulligan2024.11.29

この記事の3つのポイント
  1. AIベンチマークは設計に問題、結果の再現性や指標に課題
  2. ベンチマークの品質向上には専門家の関与や能力の適切な定義などが重要
  3. 今後のAI評価や規制には優れたベンチマークの開発が不可欠
summarized by Claude 3

人工知能(AI)の新モデルが発表されるとたいていの場合、一連のベンチマークテストで優れたスコアを出したと大々的に宣伝される。たとえば、オープンAIが5月にGPT-4oを発表したとき、その性能が複数のテストにおいて他のすべてのAI企業の最新モデルを上回ったことを示す結果が公表された。

ただし、問題がある。新たな研究結果によると、これらのベンチマークは、設計が不十分で、結果を再現するのが難しく、使用されている指標がしばしば恣意的であるというのだ。これは重要なことだ。なぜなら、AIモデルはこのようなベンチマークに対するスコアによって、受ける精査や規制のレベルが決まるからだ。

この論文の著者で、スタンフォード大学のコンピューター科学の博士課程に在籍し、同大学のAIセーフティセンター(CAIS:Center for AI Safety)のメンバーであるアンカ・ロイエルは、「優れた評価基準がないため、まるで無法地帯のようです」と語る。

ベンチマークとは、基本的にAIが受けるテストである。「大規模マルチタスク言語理解(MMLU)」と呼ばれる、最も広く使われているベンチマークのような多肢選択形式の場合もあれば、特定のタスクをこなすAIの能力評価であったり、一連の質問に対するAIの応答テキストの質の評価であったりする。

AI企業は、新しいモデルの成功の証としてベンチマークをしばしば引用する。「こうしたモデルの開発者は、特定のベンチマークに合わせて最適化する傾向があります」と、ジョージア工科大学の心理学教授で、同大学の言語・知能・思考(Language, Intelligence, and Thought:LIT)ラボの責任者であるアンナ・イヴァノヴァ助教授は語る。イヴァノヴァ助教授はスタンフォード大学の今回の研究には関与していない。

こうしたベンチマークは、すでに一部の政府のAI規制計画に取り入れられている。たとえば、2025年8月に施行される欧州連合(EU)の「AI法」では、AIモデルが「システミック・リスク」を示しているかどうかを判断するためのツールとしてベンチマークを参照している。もし示していると判断されれば、より厳しい精査と規制の対象となる。AIの安全性を評価する機関である英国AIセーフティ研究所(AI Safety Institute)は、大規模言語モデルの安全性を評価するためのフレームワーク「インスペクト(Inspect)」でベンチマークを参照している。

しかし、現時点では、ベンチマークをそのように使うのは、あまり好ましくないかもしれない。「ベンチマークが適切に設計されていない場合、特にリスクの大きい使用事例では、ベンチマークによって誤った安心感が生み出される可能性があります」とロイエルは言う。「安全ではないモデルが、安全であるかのように見えるかもしれません」 。

ベンチマークの重要性が高まっていることから、ロイエルらは、最もよく知られている例を調べて、優れたベンチマークとはどのようなものか、使われているベンチマークが十分に堅固 …

こちらは有料会員限定の記事です。
有料会員になると制限なしにご利用いただけます。
有料会員にはメリットがいっぱい!
  1. 毎月120本以上更新されるオリジナル記事で、人工知能から遺伝子療法まで、先端テクノロジーの最新動向がわかる。
  2. オリジナル記事をテーマ別に再構成したPDFファイル「eムック」を毎月配信。
    重要テーマが押さえられる。
  3. 各分野のキーパーソンを招いたトークイベント、関連セミナーに優待価格でご招待。
人気の記事ランキング
  1. This company claims a battery breakthrough. Now they need to prove it. すべてのパラメーターが矛盾——「出来すぎ」全固体電池は本物か?
  2. OpenAI’s “compromise” with the Pentagon is what Anthropic feared アンソロピック排除の裏で進んだオープンAIの軍事契約、その代償は
MITテクノロジーレビューが選んだ、 世界を変える10大技術

MITテクノロジーレビューの記者と編集者は、未来を形作るエマージング・テクノロジーについて常に議論している。年に一度、私たちは現状を確認し、その見通しを読者に共有する。以下に挙げるのは、良くも悪くも今後数年間で進歩を促し、あるいは大きな変化を引き起こすと本誌が考えるテクノロジーである。

特集ページへ
AI革命の真実 誇大宣伝の先にあるもの

AIは人間の知能を再現する。AIは病気を根絶する。AIは人類史上、最大にして最も重要な発明だ——。こうした言葉を、あなたも何度となく耳にしてきたはずだ。しかし、その多くは、おそらく真実ではない。現在地を見極め、AIが本当に可能にするものは何かを問い、次に進むべき道を探る。

特集ページへ
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る