グーグルが「Gemini 3」発表、質問に応じて回答形式もAIが判断
グーグルが「Gemini 3」を発表した。従来はテキスト出力が基本だったが、新モデルは質問内容を判断し、図表、アニメーション、フォームなどを含む動的なインターフェースを自律的に構築。Gmailやカレンダーと連携するエージェント機能も導入した。 by Caiwei Chen2025.11.19
- この記事の3つのポイント
-
- グーグルが11月18日に推論能力とマルチモーダル機能を大幅強化したGemini 3を発表した
- 従来モデルは出力形式に明示的指示が必要だったが、新機能で最適形式を自律選択可能となった
- 検索、ショッピングなどの統合も進め、開発者向けの新ツールも発表した
グーグルは11月18日、同社の主力マルチモーダルモデルの大幅なアップグレード版である「Gemini(ジェミニ) 3」を発表した。同社によれば、新モデルは推論(reasoning)能力が向上し、音声・テキスト・画像を横断して処理するより滑らかなマルチモーダル機能を備え、エージェントのように動作するという。
前バージョンのGemini 2.5もマルチモーダル入力をサポートしており、ユーザーは画像、手書き文字、音声を入力できる。ただし、出力形式については明示的な指示が必要で、指定がない場合はプレーンテキストがデフォルトだった。
Gemini 3ではグーグルが「生成インターフェース(generative interfaces)」と呼ぶ新機能が導入された。これにより、モデル自身がプロンプトに最適な出力形式を選択し、単なるテキストブロックではなく、視覚的なレイアウトや動的ビューを自律的に構築できるようになった。
たとえば旅行の提案を求めると、アプリ内にWebサイトのようなインターフェースが生成され、モジュールや画像、「何日間旅行しますか?」「どのようなアクティビティを楽しみますか?」といったフォローアップのプロンプトを含む構成が提示される場合がある。また、ユーザーが次に求めると予測される行動に基づいた、クリック可能な選択肢も提示される。
概念の説明を求められた場合、Gemini 3は視覚的表現の方が効果的だと判断すれば、図表を描いたり、簡単なアニメーションを生成したりすることがある。
「視覚的レイアウトは、写真やモジュールを含む没入感のある雑誌スタイルのビューを生成します」。グーグル・ラボのGeminiおよびAI Studio担当副社長であるジョシュ・ウッドワードは述べた。「こうした要素は見た目が良いだけでなく、ユーザーの入力を促し、結果をさらにパーソナライズする助けにもなります」。
Gemini 3と同時に、グーグルは「Gemini Agent(ジェミニ・エージェント)」という実験的機能も導入した。アプリ内で複数ステップのタスクを直接処理するよう設計されており、GoogleカレンダーやGmail、リマインダーなどのサービスと連携できる。アクセス権限が付与されると、受信トレイの整理やスケジュール管理などのタスクを実行できる。
他のエージェントと同様に、この機能はタスクを個別のステップに分割し、進行状況をリアルタイムで表示しながら、次に進む前にユーザーの承認を待つ。グーグルはこの機能を「真の汎用エージェント」への一歩と位置づけている。同機能は11月18日から、当初は米国内のGoogle AI Ultra(ウルトラ、月額249.99ドル)契約者を対象に提供される。
このアプローチ全体は、「バイブコーディング(vibe coding)」に近いとも言える。ユーザーが平易な言葉で最終目標を説明し、それに応じてモデルが必要なインターフェースやコードを組み立てるというものだ。
今回のアップデートにより、Geminiはグーグルの既存製品とより深く統合された。検索では、一部のGoogle AI ProおよびUltra契約者が、より深く詳細なAI生成要約を受け取れるよう、AIモードから推論特化型のGemini 3 Proに切り替え可能になった。
ショッピングの分野では、Geminiはグーグルが500億件以上の商品リストを含むとする「Google Shopping Graph(ショッピング・グラフ)」から情報を取得し、独自の推奨ガイドを生成するようになった。ユーザーはショッピング関連の質問をするか、関連するキーワードを検索するだけで、外部サイトに移動せずに、価格や商品情報を含むWirecutter(ワイヤーカッター。米ニューヨーク・タイムズ傘下の製品比較・レビュー専門メディア)風のインタラクティブな推奨コンテンツを得られる。
開発者向けには、グーグルは単一プロンプトによるソフトウェア生成をさらに推進している。今回発表された「Google Antigravity(アンチグラビティ)」はコード、ツール、ワークフローを単一プロンプトから作成・管理できるオールインワン・プラットフォームである。
エージェント型AIアプリケーションを提供するフロウィズ(Flowith)のデレク・ニーCEOはMITテクノロジーレビューに対し、Gemini 3 Proは従来モデルのいくつかの弱点を克服していると語った。具体的には、視覚的理解力の強化、より優れたコード生成、長時間タスクでの性能向上などであり、これらはAIアプリやエージェントを開発する上で不可欠な機能だと述べた。
「新モデルは速度とコストの面で優れており、私たちは自社製品への統合を進めています」と彼は述べた。「その可能性には期待していますが、どこまで実現できるかを見極めるには、より深い検証が必要です」。
- 人気の記事ランキング
-
- This company is planning a lithium empire from the shores of the Great Salt Lake 来るか米リチウムラッシュ、 水使用10分の1の新技術で 「つるはし」売る企業
- Meet the man building a starter kit for civilization 家もトラクターも自分で作る 元物理学者の農家が始めた 「文明のDIYキット」
- The first new subsea habitat in 40 years is about to launch キッチンもある「海底の家」 40年ぶりの居住施設で 科学者4人が1週間生活へ
- How do our bodies remember? 解説:運動をやめても筋肉は覚えている——復帰が速い科学的理由とは
- チェン・ツァイウェイ [Caiwei Chen]米国版 中国担当記者
- MITテクノロジーレビューの中国担当記者として、グローバルなテクノロジー業界における中国に関するあらゆるトピックを取材。これまで、ワイアード(Wired)、プロトコル(Protocol)、サウスチャイナ・モーニング・ポスト (South China Morning Post)、レスト・オブ・ワールド(Rest of World )などのメディアで、テクノロジー、インターネット、文化に関する記事を執筆してきた。ニューヨークのブルックリンを拠点に活動している。