グーグルがGPT-4対抗「Gemini」投入、AIの限界広げるか

Google Deepmind's new Gemini model looks amazing—but could signal peak AI hype グーグルがGPT-4対抗「Gemini」投入、AIの限界広げるか

グーグル・ディープマインドは12月6日に、「GPT-4」対抗馬として以前から噂の「ジェミナイ(Gemini)」を発表した。同社は、ほとんどの面でGPT-4に勝るとしているが、その差はごくわずかであるように思える。 by Will Douglas Heaven2023.12.07

オープンAI(OpenAI)の「GPT-4」の対抗馬として以前から噂されてきたグーグル・ディープマインド(Google DeepMind)の「ジェミナイ(Gemini)」への期待はこの数カ月ますます盛り上がりを見せていた。そして12月6日、同社はこれまで秘密裏に進めてきたジェミナイのプロジェクトの全貌をついに明らかにした。大騒ぎしただけのことはあっただろうか。答えはイエスであり、ノーでもある。

ジェミナイはグーグルにとって過去最大規模の人工知能(AI)のリリースであり、AIの覇権を争う競合のオープンAIとマイクロソフトに対抗する動きである。そのモデルが幅広い機能においてクラス最高であることと、誰かが言っているように「何でもマシン」であることに疑いの余地はない。

グーグルとその親会社アルファベット(Alphabet)のサンダー・ピチャイCEO(最高経営責任者)は、MITテクノロジーレビューの取材に対し、「このモデルは本質的に他よりも有能です」と語った。「このモデルはプラットフォームなのです。AIは、Webやモバイルよりも重大なプラットフォームの転換であり、私たちにとってまさに大きな一歩です」。

グーグルにとっては大きな一歩だが、AI分野全体にとっては必ずしも顕著な前進とは言えない。グーグル・ディープマインドによると、ジェミナイは、標準的な性能評価項目32項目のうち30項目でGPT-4を上回っているという。とはいえ、両者の間にある差はわずかだ。グーグル・ディープマインドがしたのは、AIの現時点の最高の能力を、パワフルで有能なひとつのパッケージに統合したことだ。デモを見る限り、数多くのタスクをそつなくこなしているが、初めて目にするようなことはほとんどない。次なる大物への熱い期待が続いてきたことを考えれば、ジェミナイはAI狂騒のサイクルがピークに達した兆しにも見える。少なくとも今のところはそう思える。

オンライン検索が専門のワシントン大学のチラグ・シャー教授は、今回の発表をアップルの毎年の新型アイフォーン(iPhone)発表にたとえる。「たぶん、すでに多くのことが実現してしまい、しきい値が別のレベルに上がってしまったために感動が薄れているのだと思います」 。

ジェミナイは、GPT-4と同様にマルチモーダルであり、テキスト・画像・音声など複数の種類の入力を処理するように訓練されている。それらのさまざまなフォーマットを組み合わせて、家事から大学数学、経済に至るまで、あらゆる事柄に関する質問に答えられる。

12月5日の報道関係者向けのデモでグーグルは、ジェミナイが既存の図表のスクリーンショットを取り込み、何百ページもの研究を新しいデータを用いて分析し、新しい情報で図表を更新するところを見せた。別のデモでは、ジェミナイにフライパンで調理中のオムレツの写真を見せ、オムレツは焼けたかと(テキストではなく音声で)尋ねると、「でき上がっていません。卵がまだ液状です」と答えた。

だが、一般ユーザーが全ての機能を使えるようになるのはまだ先だ。12月6日に発表されたバージョンは、グーグルのテキストベースの検索チャットボットである「バード(Bard)」のバックエンドであり、今後バードの推論・計画・理解の能力はより高度になると同社は説明している。ジェミナイの本格的なリリースは、数カ月かけて段階的に進められる。ジェミナイを搭載した新しいバードは、まずは英語のみ、EU(欧州連合)と英国を除く170カ国以上で利用できるようになる。グーグルのバード担当副社長シシー・シャオによると、それは同社が地域の規制当局と「連携する」ための措置だという。

ジェミナイには、ウルトラ、プロ、ナノの3つのサイズが用意されている。ウルトラはフルパワーのバージョンで、プロとナノは限られたコンピューティング・リソースで動くアプリケーション向けに調整されている。ナノは、グーグルの新しい「ピクセル(Pixel)」スマートフォンなど、デバイスでの稼働を想定した設計だ。開発者と企業は、12月13日からジェミナイ・プロにアクセスできるようになる。グーグル幹部が記者会見で報道陣に説明したところによると、最もパワフルなモデルであるジェミナイ・ウルトラは、「広範囲の信頼性と安全性のチェック」を経て、「2024年初め」に公開される予定だという。

「モデルのジェミナイ時代だと考えています」とピチャイCEOはMITテクノロジーレビューに語った。「グーグル・ディープマインドは、このような形でAIを構築し、発展させていきます。つまり、ジェミナイは常にグーグルのAIテクノロジーの進歩の最前線を体現することになります」。

ライバルよりも大きく、賢く、速く、強いか?

オープンAIの最強モデルGPT-4は、AI業界を代表する絶対的基準とみなされている。グーグルは、ジェミナイの性能がオープンAIの旧モデル「GPT-3.5」を上回ると豪語した。だが、GPT-4と比べてどのくらい優れているのかという質問に対して幹部から答えは得られなかった。

だが、グーグルは、「MMLU(大規模なマルチタスク言語理解)」と呼ばれるベンチマークを特に強調している。MMLUとは、テキストと画像におけるモデルのパフォーマンスを測定することを目的に設計されたテスト一式で、読解力、大学数学のほか、物理学、経済、社会科学の多肢選択式クイズなどがある。テキストのみの質問では、人間の専門家のスコアが約89%であるのに対し、ジェミナイは90%のスコアを獲得したと、ピチャイCEOは説明する。GPT-4の同様のタイプの質問のスコアは86%だった。マルチモーダルの質問では、ジェミナイのスコアは59%、GPT-4のスコアは57%だった。「ジェミナイは、このしきい値を超えた初のモデルです」と同CEOは言う。

ニューメキシコ州のサンタフェ研究所(Santa Fe Institute)のAI研究者であるメラニー・ミッチェル教授は、ベンチマークのデータセットに対するジェミナイのパフォーマンスは驚嘆に値すると述べる。

「ジェミナイが非常に洗練されたAIシステムであることは明らかです」とミッチェル教授は言う。ただし、「私には、ジェミナイが実際にGPT-4よりもはるかに能力が高いとは思えません」と付け加える。

スタンフォード大学の基盤モデル研究センター(Center for Research on Foundation Models)のパーシー・リアン所長は、モデルのベンチマークスコアは良好だが、訓練データの中身がわからない以上、この数字をどう解釈すればいいのかわからないと語る。

ミッチェル教授はまた、ジェミナイが画像や映像よりも言語やコードのベンチマークでより優れたパフォーマンスを発揮することも指摘している。「マルチモーダル基盤モデルが多くのタスクに一般的かつ確実に使えるようになるには、まだ道半ばです」。

グーグル・ディープマインドは、人間のテスターのフィードバックを利用して、事実については正確に答え、求めに応じてアトリビューションを示し、答えられない質問に対しては意味不明な言葉を吐き出すのではなく直言を避けるようにジェミナイを訓練した。グーグルは、この仕様ならハルシネーション(=幻覚。間違えた答えをあたかも正しい答えのように返すこと)の問題が軽減されると説明している。とはいえ、基盤となるテクノロジーを抜本的に見直さない限り、大規模言語モデルは作り話をやめないだろう。

だが、グーグルがジェミナイのパフォーマンス測定に用いているベンチマークが、実態を示しているかは不明だ。透明性がなければ、同社がアピールしている機能をチェックするのは難しいと専門家は述べている。

ワシントン大学で計算言語学を研究するエミリー・ベンダー教授は、「グーグルはジェミナイを、さまざまな使い方ができる汎用モデル、何でもマシンとして宣伝しています」と話す。だが、グーグルは、さまざまな用途が想定されるモデルの評価に、範囲の狭いベンチマークを使用している。「つまり、事実上、徹底した評価はできないということです」  。

結局、平均的なユーザーにとっては、競合に比べてモデルの動作が多少改善されたところで大差はないかもしれない、とシャー教授は指摘する。「それよりも利便性、ブランドの認知度、既存のプロダクトとの統合が重要なのです。ユーザーに『ああ、こっちのほうがいい』と思ってもらえるかどうかです」 。

長く、ゆっくりした構築過程

ジェミナイは長い間待ち望まれていた。2023年4月、グーグルは自社のAI研究部門であるグーグル・ブレイン(Google Brain)と、ロンドンにあるアルファベットのAI研究ラボ、ディープマインドを合併すると発表した。つまり、グーグルは、今年ずっとオープンAIの最先端の大規模言語モデルGPT-4に対抗するジェミナイの開発に取り組んできたのだ。なお、GPT-4は2023年3月にデビューし、有料版の「チャットGPT(ChatGPT)」のバックボーンになっている。

グーグルは大きな重圧にさらされている。AIで競合と互角で、追い越すのも可能だということを投資家に示さなければならないのだ。グーグルは長年パワフルなAIモデルを開発し、利用してきた。だが、評判の悪化や安全性の問題への懸念から、一般ユーザーもいじれるツールのリリースにはずっと踏み切れなかった。

ジェフリー・ヒントンは、4月に同社を退社する際にMITテクノロジーレビューの取材に応じ、「グーグルはこのようなものを公開することにきわめて慎重です」と語った。「いくらでも悪い予想ができますし、グーグルは評判を落としたくなかったのです」。信頼性がない、あるいは売り物にならないと思われたテクノロジーを前にしてグーグルはリスクを避けた。しかし、その間に、はるかに大きなリスクを見落とした。

グーグルは、欠陥プロダクトのリリースがいかに裏目に出るか、身をもって学んだ。グーグルが2月にチャットGPTの競合になるバードを発表したとき、そのチャットボットに対する宣伝が事実と異なることをすぐさま科学者に指摘され、結果として同社は時価総額で1000億ドルを失った。

5月、グーグルは、電子メールから生産性向上ソフトウェアに至るまで、大半の自社プロダクトに生成AI(ジェネレーティブAI)モデルを導入すると発表した。しかし、バードを電子メールなどのさまざまなプロダクトに搭載しても、グーグルは批評家に好印象を与えられなかった。チャットボットが存在しない電子メールを引き合いに出してくるといった不備があったからだ。

これは大規模言語モデルに一貫して見られる問題だ。生成AIシステムは、人間が書いたかのようにテキストを生成するのは得意だが、たびたび物事をでっち上げるのだ。しかも、問題はそれだけではない。ハッキングされやすくバイアスにまみれている。それらを使うのもまた汚染につながりやすい

グーグルはそういった問題も、AIモデルのでっち上げ癖も解決していない。ハルシネーション対策として、ユーザーがグーグル検索を使ってチャットボットの回答をダブルチェックできるツールがバードに入っているが、オンライン検索結果が正確でなければ何の意味もない。

ジェミナイは、現状の生成AIの波の頂点になるかもしれない。しかし、大規模言語モデルで構築されたAIの次の展開はわからない。これは次の山頂の麓ではなく、平坦な台地ではないかと考える研究者もいる。

だが、ピチャイCEOは思いとどまらない。「この先にたくさんの余地があると見ています」と言う。「マルチモダリティは大きく成長すると思います。これらのモデルにさらに推論を教えていけば、もっともっと大きなブレークスルーが生まれるでしょう。さらにディープなブレークスルーはこれからです」。

「総合的に見ると、まさにまだ始まったばかりだと感じています」。