AIの進歩を示す「象徴的グラフ」は何を測っているのか？

最先端AIモデルが発表されるたび、業界はある1枚のグラフに注目する。指数関数的な進歩を描くとされるMETRの「時間的地平線」プロットだ。SNSではその曲線が単独で拡散され、期待や不安をあおる材料として引用される。しかし、私たちはこの象徴的なグラフが実際に何を測っているのか、どこまでを語り、どこから先は語っていないのかを本当に理解しているだろうか。 by Grace Huckins2026.02.16

オープンAI（OpenAI）、グーグル（Google）、アンソロピック（Anthropic）が新たな最先端の大規模言語モデルを発表するたびに、AIコミュニティは固唾をのんで見守る。そして、AI研究の非営利団体であるMETR（エムイーティーアール）がグラフを更新するまで、その緊張は続く。METRは「Model Evaluation & Threat Research」の略称で、このグラフは昨年3月の初公開以来、AI界の議論で重要な位置を占めてきた象徴的な存在である。このグラフは、特定のAI能力が指数関数的な速度で進展していることを示しており、最近のモデルは、そのすでに印象的だった傾向さえ上回る性能を示している。

これは、11月下旬に公開されたアンソロピックの最も強力なモデルの最新版であるClaude Opus 4.5（クロード・オーパス4.5）の場合にも確かに当てはまった。12月、METRは、Opus 4.5が、人間であれば約5時間を要するタスクを独立して完了できる可能性があると発表した。これは、指数関数的な傾向が予測していたであろう水準を大幅に上回る改善である。アンソロピックの安全性研究者は、これらの結果を受けて自身の研究の方向性を変更するとXに投稿し、同社の別の従業員は単に「お母さん、迎えに来て、怖いよ」（日本版注：奇妙で理解不能な状況に遭遇したときに使われるネットミーム）と書き込んだ。

しかし実際のところ、こうした劇的な反応が示唆するよりも事態ははるかに複雑である。第一に、特定モデルの能力に関するMETRの推定値には、相当幅の広い誤差範囲が伴う。METRがX上で明言しているように、Opus 4.5は、人間が約2時間で完了するタスクのみを安定的にこなせる可能性もあれば、人間が最大20時間を要するタスクで成功する可能性もある。この手法に内在する不確実性を踏まえると、確実なことは分からなかった。

「人々がこのグラフから読み取りすぎている点は数多くあります」と、METRの技術スタッフであるシドニー・フォン・アークスは言う。

より根本的には、METRのプロットはAI能力全般を測定するものではなく、そのように主張しているわけでもない。グラフを構築するにあたり、METRは主としてコーディング課題でモデルを評価し、人間がそれらを完了するのに要する時間を測定または推定することで各タスクの難易度を定義している。だが、この指標が普遍的に受け入れられているわけではない。Claude Opus 4.5が、人間に5時間かかる特定のタスクを完了できるとしても、それは人間の労働者を置き換える段階に近づいていることを意味するわけではない。

METRは、最先端AIシステムがもたらすリスクを評価する目的で設立された。指数関数的傾向を示すプロットで最もよく知られているが、AI企業と協力して各社のシステムをより詳細に評価し、AIコーディング支援ツールが実際にはソフトウェア・エンジニアの生産性を低下させている可能性を示唆した2025年7月の研究など、複数の独立研究も発表している。

しかし、この指数関数プロットこそがMETRの名声を築いたものであり、組織はそのしばしば過熱気味な受け止められ方と複雑な関係にあるようだ。1月、このプロットを紹介した論文の主要著者の一人であるトーマス・クワは、いくつかの批判に応答し、その限界を明確化するブログ記事を執筆した。METRは現在、より包括的なFAQ文書の作成にも取り組んでいる。しかしクワは、こうした努力が議論の流れを大きく変えることについては楽観していない。「私たちが何をしようとも、誇大宣伝の装置は基本的にすべての注意書きを取り除いてしまうと思います」と彼は言う。

それでもなお、METRのチームは、このプロットがAI進歩の軌道について何らかの意味のある示唆を与えていると考えている。「このグ …

こちらは有料会員限定の記事です。 有料会員になると制限なしにご利用いただけます。

有料会員にはメリットがいっぱい！

毎月120本以上更新されるオリジナル記事で、人工知能から遺伝子療法まで、先端テクノロジーの最新動向がわかる。
オリジナル記事をテーマ別に再構成したPDFファイル「eムック」を毎月配信。
重要テーマが押さえられる。
各分野のキーパーソンを招いたトークイベント、関連セミナーに優待価格でご招待。

人気の記事ランキング