A Google Gemini model now has a “dial” to adjust how much it reasons

推論モデルは「考えすぎ」、グーグルがGeminiに調整機能

推論はAIモデルにおける新たなトレンドだが、過度な推論は時間やコストが余計にかかってしまう。この問題を避けるため、Geminiの新たなモデルは、どこまで推論するかを開発者が設定可能な「ダイヤル」を備えている。 by James O'Donnell2025.04.21

この記事の3つのポイント

グーグルの「ジェミニ」新モデルに推論の度合いを調整する機能が搭載された
推論モデルは考えすぎる傾向があり実行コストと環境負荷が高くなる問題がある
推論モデルは一部のタスクでは性能向上に有効だが汎用的に優れているわけではない

summarized by Claude 3

グーグル・ディープマインド（Google DeepMind）が生成AI（ジェネレーティブAI）「ジェミニ（Gemini）」のトップモデルに施した最新のアップデートには、システムがどの程度「考えて」回答するかをコントロールするためのダイヤルが含まれている。この新機能は、表向きは開発者の経費節減のために設計されたものだが、同時にある問題を認めるものでもある。現在、テック界の注目が集中している「推論（Reasoning）モデル」は考えすぎる傾向があり、その過程でお金とエネルギーを消費している、ということだ。

2019年以来、AIモデルをより強力なものにするためには、2つの確実な方法が存在していた。1つは、より多くの訓練データを使用してより大きなモデルにする方法で、もう1つは、何が良い答えなのかについてより良いフィードバックを与える方法だ。しかし2024年末にかけて、グーグル・ディープマインドをはじめとする人工知能（AI）企業は、第3の方法である「推論（Reasoning）」に目を向けた。

「私たちは『考える』ことについて懸命な努力をしてきました」。ディープマインドの主任研究科学者であるジャック・ライは言う。このようなモデルは、問題を論理的に処理し、より多くの時間をかけて答えを導き出すように作られており、2025年に入って発表された「ディープシーク（DeepSeek）R1」モデルで注目されるようになった。AI企業にとってこのようなモデルが魅力的なのは、問題に実際的にアプローチするように訓練することで、既存のモデルを改善できるからだ。そうすれば、企業はゼロから新しいモデルを構築する必要はなくなる。

AIモデルが1つの質問により多くの時間とエネルギーを費やすと、実行コストは高くなる。推論モデルの性能を評価したチャートは、1つのタスクが完了するのに200ドル以上かかる可能性があることを示している。この過剰な時間とコストは、推論モデルがコードの分析や多くの文書からの情報収集のような困難なタスクを、より上手く処理するのに役立っていると考えられている。

グーグル・ディープマインドのコライ・カヴクチュオグルCTO（最高技術責任者）は、「特定の仮説や思考を反復できればできるほど正しい答えを見つける」確率が高くなると話す。

しかし、これはすべての場合に当てはまるわけではない。「このモデルは考えすぎてしまいます」。Geminiの製品チームを率いるトゥルシー・ドーシはこう話す。このモデルとは、4月17日にリリースされた「ジェミニ・フラッシュ（Gemini Flash）2.5」を指す。同モデルには、モデルがどの程度まで考えるかを開発者がダイヤルで調整できる機能を備えている。「単純なプロンプト（指示テキスト）に対して、必要以上に考えてしまうのです」。

モデルが1つの問題に必要以上に時間を費やすと、開発者にとってそのモデルの実行コストが高くなり、AIの環境フットプリントを悪化させてしまう。

ハギング・フェイス（Hugging Face）のエンジニアで、推論モデルの普及について研究しているネイサン・ハビブは、この「考えすぎ」は多く見られるものだと語る。より賢いAIを急いで披露しようとするあまり、企業は「釘がないところでもハンマーを使う」かのように推論モデルを利用しようとしているとハビブは言う。実際、オープンAI（OpenAI）が2025年2月に新モデルを発表したとき、同社はこれが最後の非推論モデルになるだろうと述べた。

ハビブによれば、推論モデルを用いれば特定のタスクで性能が向上することは「否定できない」が、人々が普段AIを使用する他の多くのタスクではそうではないという。推論が適切な問題に使われたとしても、上手くいかないことすらある。ハビブは、有機化学の問題を解くよう求められたある著名な推論モデルの例を示してくれた。最初は良かったものの、推論プロセスの途中でそのモデルの反応に行き詰まりが見られ始めた。「待って、でも…」を何百回も繰り返したのだ。結局、非推論モデルが1つのタスクに費やす時間よりもはるかに長い時間がかかってしまった。ディープマインドでGeminiモデルの評価に携わるケイト・オルシェフスカによれば、グーグルのモデルもループにはまることがあるという。

グーグルの新たな「推論」ダイヤルは、この問題を解決する試みの1つだ。今のところ、この機能は消費者向けバージョンのGeminiではなく、アプリを作る開発者向けのバージョンに用意されている。開発者はモデルが特定の問題に費やすべき計算能力の予算を設定することができ、推論をあまり必要としないタスクであれば、ダイヤルで設定を下げることができる。推論がオンの状態だと、このモデルによる出力は約6倍コストが高くなる。

このような柔軟性のある機能が追加された別の理由として、より良い答えを得るためにより多くの推論が必要になるのがどのようなときなのかまだ明確になっていないことがある。

「今考えるべき完璧なタスクとは何かという境界線を引くのは、本当に難しいです」とライ主任研究科学者は言う。

明らかなタスクとしては、コーディング（開発者は何百行ものコードをモデルに貼り付け、その後助けを求めるかもしれない）や、専門家レベルの研究レポートの作成などがある。このようなタスクの場合にダイヤルで設定を上げれば、開発者はその費用に見合うだけの価値を見出すかもしれない。しかし、ミディアムやローの設定で十分なときを見極めるには、さらなるテストと開発者からのフィードバックが必要だ。

ハビブによれば、推論モデルへの投資の量は、モデルを改善する方法の古いパラダイムが変わりつつあることの表れだという。「スケーリング則は変わってきています」。

企業はその代わりとして、より大型のモデルよりも、より長い思考時間から最良の回答が得られることに期待している。AIモデルが実際に「ピン」と何かに対する答えを生成するとき、AI企業がモデルの訓練にかけるよりも多くの資金を推論に費やしていることは数年前から明らかだ。この支出は推論モデルが普及するにつれて加速していくだろう。また、推論は温室効果ガス排出量増加の原因にもなっている。

「推論」や「思考」をするモデルについてさらに言うならば、AIモデルは、通常私たちが「推論」や「思考」という言葉で表す行為を、人間がするのと同じ方法では実行できない。私はライ主任研究科学者に、なぜグーグル・ディープマインドがこのような擬人化された言葉を使うのかと尋ねた。「シンプルな言い方となり、人々がその意味を直感的に理解できるようになります」と主任研究科学者は答えた。カヴクチュオグルCTOによると、グーグルは同社のモデルで特定の人間の認知プロセスを模倣しようとはしていないという。

推論モデルが支配的であり続けるとしても、グーグル・ディープマインドだけがこのようなモデルに取り組んでいるというわけではない。ディープシークの成果が2024年12月から翌年1月にかけて出回り始めたとき、強力な推論モデルが安価で手に入ることが期待されたため、株式市場が1兆円近く下落するきっかけとなった。このモデルは「オープン・ウェイト」と呼ばれている。つまり、ウェイト（重み）と呼ばれる内部設定が公開されているため、開発者はグーグルやオープンAIの非公開モデルにお金を払ってアクセスするのではなく、独自に実行できるのだ（AIにおける「オープンソース」という用語は、訓練データを公開するモデルに対してのみ使われる）。

では、ディープシークのようなオープンなモデルがこれほど優れたパフォーマンスを発揮している中、グーグルの非公開モデルを使う理由は何だろうか。カヴクチュオグルCTOは、コーディング、数学、金融などの「非常に正確で、極めて精緻で、非常に複雑な状況を理解できることがモデルに強く求められる」ケースでは、オープンであろうとなかろうと、それを実現するモデルが勝ち残ると予想している。ディープマインドは、この推論はユーザーの代わりに行動し、ユーザーのために問題を解決する未来のAIモデルの基礎となると考えている。

「推論は知性を構築する重要な能力です」とカヴクチュオグルCTOは言う。「モデルが考え始めた瞬間から、モデルの主体性が作られ始めています」。

人気の記事ランキング

ジェームス・オドネル [James O'Donnell]米国版 AI／ハードウェア担当記者: 自律自動車や外科用ロボット、チャットボットなどのテクノロジーがもたらす可能性とリスクについて主に取材。MITテクノロジーレビュー入社以前は、PBSの報道番組『フロントライン（FRONTLINE）』の調査報道担当記者。ワシントンポスト、プロパブリカ（ProPublica）、WNYCなどのメディアにも寄稿・出演している。