数学オリンピックで「人間超え」のAIは数学者になれるか?
大規模言語モデルが苦手としていた数学の能力を急速に向上させている。AIはいずれ、プロの数学者でも解けないような問題を解けるようになるのだろうか。 by Will Douglas Heaven2025.06.09
- この記事の3つのポイント
-
- AIが数学オリンピックで銀メダル相当の成果を達成したが、パターン化された問題解決の域を出ない
- 高度な数学には①真の理解、②極めて長大な証明手順の管理、③直感と創造的洞察という3つの壁が存在
- 未解決問題や新概念の創造には人間の直感と創造性が依然として不可欠である
米国国防先端研究計画局(DARPA)いわく、数学は過去にとどまっているという。DARPAはこの4月、「エクスプマス(expMath:Exponentiating Mathematics)」と呼ばれる新たなプロジェクトを始動させた。その狙いは、コンピューター科学から医学、国家安全保障に至るまで、幅広く重要な実社会への適用を支える研究分野において、数学の進歩を加速させることである。
「数学は莫大な影響の源です。しかし、その取り組みはというと、黒板の前に立つ人々に頼ったまま、何世紀にもわたってほとんど変化がありません」。プロジェクトを紹介する動画の中でDARPAのプログラム・マネージャーを務めるパトリック・シャフトはこう話す。
現代社会は、数学の上に成り立っている。航空機の周りの空気の流れ、金融市場の変動の仕組み、心臓を通過する血液の流れなど、複雑なシステムをモデル化できているのは数学のおかげだ。また、高度な数学のブレークスルーは、新しいテクノロジーの実現を可能にする。プライベート・メッセージングやインターネット・バンキングに不可欠な暗号化や、インターネット上で画像や動画の送信を可能にするデータ圧縮などがその一例である。
しかし、数学の進歩には何年もかかることがある。DARPAは、それを加速させたいと考えている。ExpMathの目標は、DARPAが「AI共著者」と呼ぶツールの開発を、数学者や人工知能(AI)の研究者に促すことだ。大規模で複雑な数学問題を、より小さく、よりシンプルに分解することで、より理解しやすく、おそらくはより速く解けるようにするツールである。
数学者は何十年もの間、計算の高速化や、特定の数学的記述が正しいかどうかの検証にコンピューターを利用してきた。新しいビジョンでは、これまで太刀打ちできなかった問題を解くのにAIが役立つかもしれないと考えられている。
だが、最新世代のAIモデルがマスターしているような高校出題レベルの数学の問題を解決できるAI と、プロの数学者がキャリアをかけて取り組むような問題を(理論上は)解けるAIとの間には、大きな隔たりがある。
一方は、数学で学士号を持つ人が取り組むような特定のタスクの問題解決を自動化できるツール。そして、もう一方は、人間の知識を現在の限界を超えて押し広げられる可能性を持つツールである。
それらの間の大きな隔たりについて考える3つの方法を紹介していこう。
1. AIは、単なる巧妙なトリック以上のものを必要とする
一般的に知られている大規模言語モデル(LLM)の得意分野に、数学は含まれない。物事をでっち上げることが得意で、2 + 2 = 5であると説得されることもある。しかし、LLMの新しいバージョン、特にオープンAI(OpenAI)の「o3」やアンソロピック(Anthropic)の「Claude 4 Thinking(クロード4シンキング)」といった、いわゆる大規模推論モデル(LRM)は飛躍的な進歩を遂げており、数学者たちを興奮させている。
LRMは、最初に出た結果をそのまま出力するのではなく、段階的に問題を解こうとするモデルだ。2025年にはこうした多数のLRMが、アメリカ数学選抜試験(American Invitational Mathematics Examination: AIME)で高得点を獲得した。AIMEは、米国で上位5%の高校生が参加資格を得られる試験である。
同時期に、何らかのファクトチェック・システムをLLMに組み込んだ、ひと握りの新しいハイブリッドモデルも飛躍を遂げている。ブラジルのサン・パウロ大学の数学者エミリー・デ・オリヴェイラ・サントスは、重要なマイルストーンの一つとして、グーグル・ディープマインド(Google DeepMind)の「AlphaProof(アルファプルーフ)」を挙げる。これはLLMに、ディープマインドのゲームプレイ・モデルである「AlphaZero(アルファゼロ)」を組み合わせたシステムだ。2024年、アルファプルーフは、世界で最も権威ある数学コンテストの一つである国際数学オリンピックで、銀メダリストに匹敵する最初のコンピューター・プログラムとなった。
そして今年5月には「AlphaEvolve(アルファイヴォルヴ)」というモデルが登場し、50を超える未解決の数学難問といくつかの現実世界のコンピューター科学の問題で、それまで人間には到底見つけ出せなかった答えを発見した。
進歩の勢いは明らかだ。「GPT-4は大学の学部レベル以上の数学をほとんど解けませんでした。リリース当時、位相幾何学の問題でテストしたのを覚えていますが、論理を破綻させることなく数行以上の回答を得ることはどうやってもできませんでした」とデ・オリヴェイラ・サントスは言う。しかし、1月にリリースされたオープンAIのLRMである「o1」は、サントスが同一の問題を提示すると見事に正解を叩き出した。
これらのモデルでは、DARPAが期待するような共著者になるための準備がすべて整っているということだろうか? そうとは限らない、とデ・オリヴェイラ・サントスは言う。「数学オリンピックの問題では巧妙なひっかけ問題を解ける能力が求められることが多いの対し、研究問題ははるかに探索的です。そして多くの場合、非常に多くの可変要素を含んでいます」。ある種の問題を解決できたとしても、その成功は別種の問いには引き継げない可能性があるのだ。
他の研究者もこの意見に同意する。オックスフォード大学の数学者であるマーティン・ブリッドソン教授は、数学オリンピックの結果はすばらしい成果だったと考えている一方で、「驚異的な出来事だったとは思いません」 と言う。「『すごい、機械では到底無理なことだと思っていた』というほどのパラダイム変化ではありません。機械なら可能なことだと思っていました」。
なぜなら、難問とはいえ、数学オリンピックやAIMEのような高校生向け・学部生向けの試験の多くにはパターンがある。「私たちは、そうした問題を解けるように高校生を訓練するトレーニング・キャンプを設けています」 とブリッドソン教授は言う。「それらの問題を解くための訓練を大勢の人間に実施できるとしたら、同じ訓練を機械にできない理由があるでしょうか?」
カリフォルニア工 …
- 人気の記事ランキング
-
- This benchmark used Reddit’s AITA to test how much AI models suck up to us 過剰なLLMの「ヨイショ度」を計測するベンチマークが登場
- Promotion Call for entries for Innovators Under 35 Japan 2025 「Innovators Under 35 Japan」2025年度候補者募集のお知らせ
- A new sodium metal fuel cell could help clean up transportation MITがナトリウム燃料電池を開発、エネルギー密度はリチウムの4倍
- What is vibe coding, exactly? バイブコーディングとは何か? AIに「委ねる」プログラミング新手法
- A new atomic clock in space could help us measure elevations on Earth 誤差1センチ以内へ、宇宙原子時計で描く新たな地球像