GPT-5が「未解決問題解いた」 恥ずかしい勘違い、なぜ?
オープンAIの研究科学者が「GPT-5が未解決数学問題10問を解いた」とXに投稿し、デミス・ハサビスが「これは恥ずかしい」と批判。実際には既存の解答をネットで見つけただけだった。ソーシャルメディアでは連日、AIに関するセンセーショナルな発表がなされているが、こうした投稿は誇大宣伝になりがちだ。 by Will Douglas Heaven2025.12.29
- この記事の3つのポイント
-
- ディープマインドCEOがオープンAI研究者の「GPT-5が数学の未解決問題を解いた」との発表に「恥ずかしい」
- 実際にはGPT-5は新しい解答を発見したのではなく既存の解答をインターネットから探し出していただけ
- AIの誇大宣伝が横行する中で冷静な評価が必要であり、真の数学的発見能力の検証が今後の課題となる
グーグル・ディープマインド(Google DeepMind)のあるデミス・ハサビスCEO(最高経営責任者)は、3つの単語でその投稿を要約した。「これは恥ずかしい」。
ライバル企業であるオープンAI(OpenAI)の研究科学者セバスチャン・ブベックの興奮しすぎた投稿(日本版注:すでに削除済み)に対し、ハサビスCEOはXでこのように返信した。ブベックは、2人の数学者がオープンAIの最新大規模言語モデルGPT-5を使って数学の未解決問題10問の解を見つけたと発表し、「人工知能(AI)による科学の加速が正式に始まった」と得意げに述べた。
少し数学の帽子をかぶって、10月中旬のこの論争が何についてだったのかを見てみよう。これは現在のAIの何が問題なのかを示す完璧な例である。
ブベックは、GPT-5がエルデシュ問題として知られる数々のパズルを何らかの方法で解いたように見えることに興奮していた。
20世紀で最も多作な数学者の一人であるポール・エルデシュは、死去時に数百のパズルを残した。どれが解かれたかを追跡するため、英国マンチェスター大学の数学者トーマス・ブルームは エルデシュプロブレムズ・ドットコム(erdosproblems.com)を立ち上げ、1100以上の問題をリストアップし、そのうち約430問に解答があることを記している。
ブベックがGPT-5の突破口を祝った時、ブルームはすぐにブベックを批判し、「これは劇的な誤解である」とXに投稿した。ブルームは、自分が管理しているWebサイトに解答が載っていないからといって、その問題が必ずしも未解決というわけではないと説明した。それは単にブルームがその解答を知らなかったということである。世の中には何百万もの数学論文があり、それらすべてを読んだ人は誰もいない。しかしGPT-5はおそらく読んでいる。
GPT-5は10の未解決問題に新しい解答を考え出したのではなく、ブルームが以前に見たことのない10の既存の解答をインターネットで探し出していたのだ。
ここから2つの教訓がある。1つは、大きな突破口についての息を切らした主張はソーシャルメディアで公表すべきではないということだ。反射的な反応ではなく、もっと直感的な確認が必要である。
2つ目は、ブルームが知らなかった以前の研究への参照を見つけるGPT-5の能力も素晴らしいということである。誇大宣伝が、それ自体でかなりクールであったはずのものを覆い隠してしまった。
AIスタートアップのアクシオム・マス(Axiom Math)で数学へのLLMの応用を研究する研究科学者フランソワ・シャルトンは、このエルデシュの落とし穴について私が話した時、「数学者たちは、膨大な数の既存の結果を探索するために大規模言語モデル(LLM)を使用することに非常に興味を持っている」と語った。
しかし文献検索は真の発見と比べると退屈であり、特にソーシャルメディア上のAIの熱烈な支持者にとってはそうである。失敗したのはブベックだけではない。
8月、2人の数学者が、当時のどのLLMもツムラ・ユウの554番問題として知られる数学パズルを解くことができないことを示した。その2カ後、今ならGPT-5が解けるという証拠にソーシャルメディアが沸騰した。「多くの人にとってイ・セドルの瞬間が来る」とある観察者はコメントした。イ・セドルは2016年にディープマインド(Deepmind)のAI「アルファ碁(AlphaGo)」に敗れた囲碁の名人である。
しかしシャルトンは、ツムラ・ユウの554番問題を解くことは数学者にとって大したことではないと指摘した。「これは学部生に出すような問題です。何でも大げさにする傾向があります」。
一方で、LLMが何が得意で何が得意でないかについてのより冷静な評価が出てきている。数学者たちがGPT-5についてインターネット上で言い争っているのと同時期に、AIモデル製作者が自分たちの技術が優れていると主張している2つの分野である医学と法学におけるLLMの使用を詳しく調べた2つの新しい研究が発表された。
研究者たちは、LLMが特定の医学診断ができるが、治療の推奨には欠陥があったことを発見した。法学に関しては、研究者たちはLLMがしばしば一貫性のない不正確なアドバイスを与えることを発見しており、「これまでの証拠は立証責任を満たすことに見事に失敗している」と研究論文の著者たちは結論づけた。
しかし、それはXで受け入れられるようなメッセージではない。「みんなが狂ったようにコミュニケーションを取っているので、その興奮があるのです。誰も取り残されたくないのです」とシャルトンは言った。XはAIニュースが最初に落ちる場所であり、新しい結果が宣伝される場所であり、サム・アルトマン、ヤン・ルカン、ゲイリー・マーカスなどの主要人物が公然と殴り合う場所である。ついていくのは難しく、目を逸らすのはもっと難しい。
ブベックの投稿が恥ずかしかったのは、彼の間違いが発覚したからに過ぎない。すべての誤りが発覚するわけではない。何かが変わらない限り、研究者、投資家、そして非特定の支持者たちは互いを煽り続けるだろう。「彼らの中には科学者もいるが、多くはそうではありません。しかし彼らは皆オタクです」とシャルトンは私に語った。「巨大な主張はこれらのネットワークで非常にうまく機能します」。
*****
後日談がある。私はこれらの経緯を、まもなく発売されるMITテクノロジーレビュー(米国版)の2026年1・2月号に掲載するコラムに書いた。それが印刷に回った2日後、アクシオムは自社の数学モデル「アクシオム・プルーバー(AxiomProver)」が2つの未解決エルデシュ問題を解いた(数学ファンのために言うと#124と#481)と私に伝えた。数カ月前に設立されたばかりの小さなスタートアップにとって、これは印象的なことである。そう、AIの世界の動きは早い。
しかし、それだけではない。5日後、同社はAxiomProverが2025年のパトナム(Putnam)競技会の12問中9問を解いたと発表した。これは大学レベルの数学チャレンジで、より有名な国際数学オリンピック(グーグル・ディープマインドとオープンAI両社のLLMが数カ月前に完璧にこなした)よりも難しいと考える人もいる。
パトナムの結果は、グーグル・ディープマインドの主任科学者ジェフ・ディーンやAI企業ハギング・フェイス(Hugging Face)の共同創設者トーマス・ウルフなど、この分野の大物たちによってXで称賛された。再び馴染みのある議論が返信で展開された。数人の研究者は、国際数学オリンピックがより創造的な問題解決を要求するのに対し、パトナム競技会は数学の知識をテストすると指摘した。これは学部生にとって困難であることで悪名高いが、理屈の上ではインターネットから情報を吸収するLLMにとってはより簡単である。
アクシオムの成果をどう判断すべきだろうか? 少なくともソーシャルメディア以外で、である。目を引く競技会での勝利は単なる出発点である。LLMが数学にどれほど優れているかを判断するには、これらのモデルが困難な(つまり人間にとって困難な)数学問題を解く時に正確に何をしているのかをより深く掘り下げる必要がある。
- 人気の記事ランキング
-
- China figured out how to sell EVs. Now it has to deal with their aging batteries. 中国でEV廃車ラッシュ、年間82万トンのバッテリー処理追いつかず
- Quantum navigation could solve the military’s GPS jamming problem ロシアGPS妨害で注目の「量子航法」技術、その実力と課題は?
- The great AI hype correction of 2025 GPT-5ローンチ失敗、 企業95%が成果出せず … 転換期を迎えたAIブーム
- Text-to-image AI models can be tricked into generating disturbing images AIモデル、「脱獄プロンプト」で不適切な画像生成の新手法
- ウィル・ダグラス・ヘブン [Will Douglas Heaven]米国版 AI担当上級編集者
- AI担当上級編集者として、新研究や新トレンド、その背後にいる人々を取材しています。前職では、テクノロジーと政治に関するBBCのWebサイト「フューチャー・ナウ(Future Now)」の創刊編集長、ニュー・サイエンティスト(New Scientist)誌のテクノロジー統括編集長を務めていました。インペリアル・カレッジ・ロンドンでコンピュータサイエンスの博士号を取得しており、ロボット制御についての知識があります。