KADOKAWA Technology Review
×
【春割】実施中!年間購読料20%オフ!
さよならAlexa、オープンAIとグーグルのAIアシスタントが超進化
Stephanie Arnett/MITTR | Google, OpenAI
OpenAI and Google are launching supercharged AI assistants. Here's how you can try them out.

さよならAlexa、オープンAIとグーグルのAIアシスタントが超進化

グーグルとオープンAIが今週、それぞれ新しいAIアシストタントを発表した。SiriやAlexa(アレクサ)のようなツールからの飛躍的な進歩となる。 by James O'Donnell2024.05.17

グーグルとオープンAI(OpenAI)は今週、超高性能な人工知能(AI)アシスタントをそれぞれ開発したと発表した。いずれも、リアルタイムで人間と会話でき、途中で話を遮っても再開ができ、ライブ映像で相手の周囲を分析して即座に会話を翻訳することもできる。

先手を打ったのはオープンAIだ。5月13日、同社は新型フラグシップモデルの「GPT-4o」を公開した。ライブデモでは、GPT-4oが子どもを寝かしつけるために物語を読み聞かせたり、数学の問題を解いたりする様子が披露された。GPT-4oの音声は、映画『her/世界でひとつの彼女』に登場するホアキン・フェニックスのAIガールフレンドの声に不気味なほど似ていた(オープンAIのサム・アルトマンCEOも、そのことに気づいているようだ)。

翌14日には、グーグルが対話型アシスタント「Gemini Live(ジェミニ・ライブ)」をはじめとする独自の最新ツールを複数発表した。GPT-4oにできることの多くはGemini Liveにもできる。またグーグルは、「何でもできる」AIエージェントを開発していることも明かした。現在開発中で、公開は今年の後半になるという。

メーカーの期待どおり、日々のルーティーンの中でこうしたツールに頼ることになるのか、それともSFチックなパーティの出し物としていずれ魅力を失ってしまうのか。間もなく自分の目で確かめられるようになる。ここではこれらの新ツールへアクセスする方法や利用可能な用途、そして費用について、知っておくべき情報を紹介しよう。

オープンAIのGPT-4o

できること:リアルタイムでの会話が可能で、応答遅延は320ミリ秒。オープンAIによると、これは人間同士の自然な会話と同程度だという。スマホのカメラで写したものを何でも説明でき、コーディングやテキストの翻訳といったタスクにも対応する。情報の要約、画像やフォント、3Dレンダリングの生成も可能だ。

利用方法:オープンAIによると、GPT-4oのテキストおよびビジョン機能はWebインターフェイスとGPTアプリで順次展開していく予定だが、具体的なスケジュールは設定されていない。今後数週間で音声機能を追加するとしているが、こちらも明確な日付は未定だ。開発者はすでにAPI経由でテキストおよびビジョン機能にアクセスできる。ただし、音声モードは当初、開発者のうち「小規模なグループ」にのみ提供するという。

費用:GPT-4oは無料で利用できる。ただし、使用量に上限があり、上限を超えると有料版へのアップグレードが必要だ。月額20ドルからの有料版に加入した場合、GPT-4oの容量は5倍になるという。

グーグルのGemini Live

Gemini Liveとは? GPT-4oに最もよく似ているグーグル製品。リアルタイムで会話が可能なグーグル版のAIモデルだ。グーグルによると、「今年後半」にはGemini Liveを利用してライブ映像を通じたコミュニケーションが可能になるという。Gemini Liveは就職面接の準備やスピーチのリハーサルなどで役立つ対話型アシスタントになるとしている。

アクセス方法:Gemini Liveは、グーグルのプレミアムAIプランである「Gemini Advanced(ジェミニ・アドバンスト)」で「数カ月中に」公開予定だという。

費用:Gemini Advancedには2カ月の無料トライアル期間が設けられており、その後は月額20ドルとなっている。

では、Project Astraとは何か? Astra(アストラ)は何でもこなすAIエージェントの開発プロジェクト。今回のグーグルI/Oカンファレンスでデモが公開されたが、リリースは今年後半の予定だ。

グーグル・ディープマインドのオリオル・ビニャルズ研究部門副社長は本誌の取材に対し、ユーザーはスマホやデスクトップPCからAstraを使用できるようになるが、スマートグラスなどのデバイスに組み込むといった他の選択肢も検討していると語った。

どちらが優れている?

両モデルの完全版を自分で使ってみないことには何とも言えない。グーグルがProject Astraを洗練された映像で紹介したのに対し、オープンAIはより信ぴょう性の高そうなライブデモでGPT-4oを披露した。だがどちらも、あらかじめ十分に練習を重ねた内容を実行していたはずだ。本当のテストは、それぞれが独自の要求をしてくる数百万人のユーザー向けに公開されてから始まる。

それはさておき、オープンAIが公開した映像 とグーグルの映像を比較した場合、最先端を行く両ツールは少なくとも使い勝手の点で非常によく似ている。一般化すれば、本物のような音声や会話の流れ、さらには歌声まで披露したGPT-4oはオーディオ面で若干勝っているように見える。他方のProject Astraは、映像での会話中にどこにメガネを置いたかを「覚えて」おくことができるなど、視覚面でより高度な能力を発揮していた。新機能をいち早く展開するオープンAIの製品が、最初のうちはグーグル製品よりも多く利用されるだろう。グーグルの方は今年後半になるまで完全な形で利用できない。どちらのモデルが偽情報の「幻覚(ハルシネーション)」を起こしにくいのか、より有益な反応を返しやすいのかについては、現時点では何とも言いがたい。

安全性は?

オープンAIもグーグルも、それぞれのモデルをしっかりテストしていると述べている。オープンAIによると、GPT-4oは誤情報や社会心理学といった分野の70人以上の専門家が評価を実施したという。グーグルは、「Geminiにはバイアスや有害性をはじめとして、これまでのあらゆるグーグルAIモデルよりも包括的な安全性評価を実施している」と述べている。

だがどちらの企業も、AIモデルが世界の情報を検索、厳選、評価し、私たちの問いに対して簡潔な答えを提供する未来を作ろうとしているのだ。より単純なチャットボットに対する以上に、彼らの言葉に対して懐疑的で居続けるのが賢明というものだろう。

人気の記事ランキング
  1. A new US phone network for Christians aims to block porn and gender-related content ポルノもLGBTも遮断、キリスト教徒向けMVNOが米国で登場
  2. Musk v. Altman week 1: Elon Musk says he was duped, warns AI could kill us all, and admits that xAI distills OpenAI’s models 「オープンAIを蒸留した」マスク対アルトマン第1週、法廷がざわめく
  3. Will fusion power get cheap? Don’t count on it. 核融合は本当に安くなるのか? 楽観論に「待った」をかける新研究
ジェームス・オドネル [James O'Donnell]米国版 AI/ハードウェア担当記者
自律自動車や外科用ロボット、チャットボットなどのテクノロジーがもたらす可能性とリスクについて主に取材。MITテクノロジーレビュー入社以前は、PBSの報道番組『フロントライン(FRONTLINE)』の調査報道担当記者。ワシントンポスト、プロパブリカ(ProPublica)、WNYCなどのメディアにも寄稿・出演している。
MITテクノロジーレビューが選んだ、 世界を変える10大技術

MITテクノロジーレビューの記者と編集者は、未来を形作るエマージング・テクノロジーについて常に議論している。年に一度、私たちは現状を確認し、その見通しを読者に共有する。以下に挙げるのは、良くも悪くも今後数年間で進歩を促し、あるいは大きな変化を引き起こすと本誌が考えるテクノロジーである。

特集ページへ
AI革命の真実 誇大宣伝の先にあるもの

AIは人間の知能を再現する。AIは病気を根絶する。AIは人類史上、最大にして最も重要な発明だ——。こうした言葉を、あなたも何度となく耳にしてきたはずだ。しかし、その多くは、おそらく真実ではない。現在地を見極め、AIが本当に可能にするものは何かを問い、次に進むべき道を探る。

特集ページへ
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る