KADOKAWA Technology Review
×
「ご都合主義」蔓延るAIベンチマーク、問われる評価基準の信頼性
Sarah Rogers/MITTR | Photos Getty
人工知能(AI) Insider Online限定
The way we measure progress in AI is terrible

「ご都合主義」蔓延るAIベンチマーク、問われる評価基準の信頼性

AIモデルに対して実施するベンチマークテストは、企業が自社のモデルの性能をアピールするためにしばしば利用される。だが、新たな研究によると、こうしたベンチマークテストは、設計が不十分であることが多いという。 by Scott J Mulligan2024.11.29

この記事の3つのポイント
  1. AIベンチマークは設計に問題、結果の再現性や指標に課題
  2. ベンチマークの品質向上には専門家の関与や能力の適切な定義などが重要
  3. 今後のAI評価や規制には優れたベンチマークの開発が不可欠
summarized by Claude 3

人工知能(AI)の新モデルが発表されるとたいていの場合、一連のベンチマークテストで優れたスコアを出したと大々的に宣伝される。たとえば、オープンAIが5月にGPT-4oを発表したとき、その性能が複数のテストにおいて他のすべてのAI企業の最新モデルを上回ったことを示す結果が公表された。

ただし、問題がある。新たな研究結果によると、これらのベンチマークは、設計が不十分で、結果を再現するのが難しく、使用されている指標がしばしば恣意的であるというのだ。これは重要なことだ。なぜなら、AIモデルはこのようなベンチマークに対するスコアによって、受ける精査や規制のレベルが決まるからだ。

この論文の著者で、スタンフォード大学のコンピューター科学の博士課程に在籍し、同大学のAIセーフティセンター(CAIS:Center for AI Safety)のメンバーであるアンカ・ロイエルは、「優れた評価基準がないため、まるで無法地帯のようです」と語る。

ベンチマークとは、基本的にAIが受けるテストである。「大規模マルチタスク言語理解(MMLU)」と呼ばれる、最も広く使われているベンチマークのような多肢選択形式の場合もあれば、特定のタスクをこなすAIの能力評価であったり、一連の質問に対するAIの応答テキストの質の評価であったりする。

AI企業は、新しいモデルの成功の証としてベンチマークをしばしば引用する。「こうしたモデルの開発者は、特定のベンチマークに合わせて最適化する傾向があります」と、ジョージア工科大学の心理学教授で、同大学の言語・知能・思考(Language, Intelligence, and Thought:LIT)ラボの責任者であるアンナ・イヴァノヴァ助教授は語る。イヴァノヴァ助教授はスタンフォード大学の今回の研究には関与していない。

こうしたベンチマークは、すでに一部の政府のAI規制計画に取り入れられている。たとえば、2025年8月に施行される欧州連合(EU)の「AI法」では、AIモデルが「システミック・リスク」を示しているかどうかを判断するためのツールとしてベンチマークを参照している。もし示していると判断されれば、より厳しい精査と規制の対象となる。AIの安全性を評価する機関である英国AIセーフティ研究所(AI Safety Institute)は、大規模言語モデルの安全性を評価するためのフレームワーク「インスペクト(Inspect)」でベンチマークを参照している。

しかし、現時点では、ベンチマークをそのように使うのは、あまり好ましくないかもしれない。「ベンチマークが適切に設計されていない場合、特にリスクの大きい使用事例では、ベンチマークによって誤った安心感が生み出される可能性があります」とロイエルは言う。「安全ではないモデルが、安全であるかのように見えるかもしれません」 。

ベンチマークの重要性が高まっていることから、ロイエルらは、最もよく知られている例を調べて、優れたベンチマークとはどのようなものか、使われているベンチマークが十分に堅固 …

こちらは有料会員限定の記事です。
有料会員になると制限なしにご利用いただけます。
有料会員にはメリットがいっぱい!
  1. 毎月120本以上更新されるオリジナル記事で、人工知能から遺伝子療法まで、先端テクノロジーの最新動向がわかる。
  2. オリジナル記事をテーマ別に再構成したPDFファイル「eムック」を毎月配信。
    重要テーマが押さえられる。
  3. 各分野のキーパーソンを招いたトークイベント、関連セミナーに優待価格でご招待。
人気の記事ランキング
  1. Inside the tedious effort to tally AI’s energy appetite 動画生成は別次元、思ったより深刻だったAIの電力問題
  2. Promotion Call for entries for Innovators Under 35 Japan 2025 「Innovators Under 35 Japan」2025年度候補者募集のお知らせ
  3. IBM aims to build the world’s first large-scale, error-corrected quantum computer by 2028 IBM、世界初の大規模誤り訂正量子コンピューター 28年実現へ
  4. What is vibe coding, exactly? バイブコーディングとは何か? AIに「委ねる」プログラミング新手法
日本発「世界を変える」U35イノベーター

MITテクノロジーレビューが20年以上にわたって開催しているグローバル・アワード「Innovators Under 35 」。世界的な課題解決に取り組み、向こう数十年間の未来を形作る若きイノベーターの発掘を目的とするアワードの日本版の最新情報を発信する。

特集ページへ
MITTRが選んだ 世界を変える10大技術 2025年版

本当に長期的に重要となるものは何か?これは、毎年このリストを作成する際に私たちが取り組む問いである。未来を完全に見通すことはできないが、これらの技術が今後何十年にもわたって世界に大きな影響を与えると私たちは予測している。

特集ページへ
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る