KADOKAWA Technology Review
×
【春割】実施中!年間購読料20%オフ!
キラーアプリ不在の生成AIブーム、チャットの次は何が来る?
Stephanie Arnett/MIT Technology Review | rawpixel, Envato
Forget chat. AI that can hear, see and click is already here

キラーアプリ不在の生成AIブーム、チャットの次は何が来る?

チャットGPTの登場から2年近くが経過し、生成AI業界は数十億ドル規模のブームとなった。しかし決定的なキラーアプリはいまだ見当たらない。音声や動画を組み合わせたマルチモーダルAIの新サービスは、その模索の最前線だ。 by Melissa Heikkilä2024.11.22

この記事の3つのポイント
  1. グーグルのNotebookLMに追加された新機能Audio Overviewが人気
  2. マルチモーダル生成コンテンツの品質が急速に向上している
  3. 生成AIブームが続く中、各社はキラーアプリを模索している
summarized by Claude 3

この記事は米国版ニュースレターを一部再編集したものです。

人工知能(AI)チャットボットとのチャットは、2022年を象徴する出来事だった。最新話題のAIのおもちゃは、画像、音声、テキストなど複数のものを同時に扱える「マルチモーダル・モデル」を駆使している。

その1つが、グーグルのNotebookLM(ノートブックLM)だ。NotebookLMは、グーグルが1年前にひっそりとリリースしたリサーチ・ツールである。数週間前、グーグルはNotebookLMに「Audio Overview(オーディオ・オーバービュー)」という名前のAIポッドキャスティング・ツールを追加した。ユーザーがあらゆることに関するポッドキャストを作成できるツールだ。例えば、自分のリンクトイン(LinkedIn)プロフィールへのリンクを追加すると、このAIポッドキャスト・ホストが9分間にわたり、あなたをおだててくれる。この機能は驚くほどネット上で急速に広まり、ヒットとなった。 私は、このツールの奇妙で驚くべき使い方について、『資料を入力、AIが語り出すポッドキャスト自動生成のグーグル新ツールが話題』という記事を書いた。

読者のみなさんにも体験してもらうため、本誌米国版の125周年記念号のポッドキャストを作成した。誌面から見どころをいくつかピックアップし、その内容の要点を教えてくれるという素晴らしい仕事をAIがしている。 以下でお聞きいただきたい。

マルチモーダル生成コンテンツも、非常に短期間で著しく良くなった。2022年10月、私はユーザーが入力したテキストを基に短編動画を生成する、メタの「Make-A-Video(メイク・ア・ビデオ)」のことを『今度は「テキストから動画」、メタが生成AIを発表』という記事で取り上げた。この動画は、現在のテクノロジーと比べるとぎこちなくて、くだらなく見える。メタはつい最近、オープンAI(OpenAI)のSora(ソラ)に対抗するツール「Movie Gen(ムービー・ジェン)」を発表したばかりだ。 このツールでユーザーは、テキスト・プロンプトを使ってカスタム動画やカスタム音声を作成したり、既存の動画を編集したり、画像から動画を作ったりできる。

私たちがAIシステムとやり取りする方法も変化しており、テキストへの依存度が低くなってきている。オープンAIの新しい「Canvas(キャンバス)」インターフェースは、ユーザーがチャットGPT(ChatGPT)を使ってプロジェクトで共同作業できるようにしている。ユーザーは、何度もテキストを作り直してプロンプト入力をしなければ望む結果が得られなかった従来のチャット・ウィンドウに頼る代わりに、Canvasを使い、結果のテキストやコードの断片を選択して編集できる。

検索機能にさえもマルチモーダルなアップグレードが実施されている。グーグルはAI Overviews(AIオーバービュー)への広告挿入に加え、ユーザーが動画をアップロードし、音声を使って検索できるようにした。グーグルI/Oで実施されたデモでは、グーグル・レンズ(Google Lens)アプリを開いて水族館で泳ぐ魚の動画を撮影し、その魚について質問する方法が紹介された。質問すると、グーグルのGemini(ジェミニ)モデルがWebを検索し、グーグルのAIが要約した形で答えを提示してくれる。

これらの機能を統合しているのが、よりインタラクティブでカスタマイズ可能なインターフェースと、さまざまな多くのタイプのソース素材にAIツールを適用する能力である。NotebookLMは、久しぶりに驚きと楽しさを与えてくれたAI製品である。その理由の1つは、AIの音声が今までとは異なり、リアルで、予想外なものだったからだ。しかし、NotebookLMのAudio Overviewsが、より大きな製品の中に隠された副次的な機能であるにもかかわらず人気に火がついた、という事実は、AI開発者が自分たちのやっていることを本当は分かっていないことを示している。今となっては信じがたいことだが、チャッットGPT自体、オープンAIにとっては予想外のヒットだったのだ。

数十億ドル規模の生成AI(ジェネレーティブAI)ブームが始まって数年が経つ。AIへの莫大な額の投資は、生成結果のコンテンツの質を急速に向上させることに貢献してきた。しかし、まだキラーアプリは登場していない。これらの新しいマルチモーダル・アプリケーションは、AI企業がお金を稼いで成果を出すという非常に大きなプレッシャーにさらされている結果である。テック企業各社は、さまざまなAIツールを人々に提示して、何が受け入れられるか、様子を見ているのだ。


AIが生成した画像でロボットに行動を教える方法

画像生成AIモデルは、ロボットの訓練データを作成するために使われてきた。「ジェニマ(Genima)」と呼ばれるこの新たなシステムは、画像生成AIモデルのステーブル・ディフュージョン(Stable Diffusion)を微調整して、ロボットの動きを描画する。その画像を、シミュレーションと現実世界の両方でロボットを指導するのに利用する。

ジェニマによって、メカニカル・アームから人型ロボットや無人乗用車に至るまで、さまざまなタイプのロボットにタスクをこなす訓練をするのが容易になる可能性がある。また、ほとんど監視を必要とせずに複雑なタスクを遂行できる次世代のAIツールであるAI・Webエージェントが、スクロール操作やクリック操作をより上手にできるようにするのにも役立つかもしれない。 詳しくは、本誌のニュース担当記者リアノン・ウィリアムズの記事『画像生成AIがロボットに動きを指導、訓練効率化で新手法』を読んでほしい。

AI関連のその他のニュース

  • スタートアップ「パノAI(PanoAI)」はAIを使って山火事を検知する。2024年版注目の気候テック企業リストが発表された。このリストに入った企業の1つ、パノAIは、コンピューター・ビジョンと超高解像度カメラを使い、消防士に新たな火災の発生を知らせる。(MIT テクノロジーレビュー
  • サム・アルトマンはいかにして権力を自らの手に集中させたか。そして、最後に残ったのは1人だった。オープンAIは現在、1570億ドルの評価を受けている。同社がどのようにして経営トップのほとんどを失い、アルトマン主導で利益を追求する怪物へと変化していったのか、ブルームバーグが詳しく書いている。(ブルームバーグ
  • 8人の科学者、10億ドル、そして英国を再び偉大な国にしようとしている月探査機打ち上げ機関。英国の新しい高等研究発明局(ARIA)に関する優れたプロフィール記事だ。この機関は、米国国防高等研究計画局(DARPA)に対する英国の回答である。チューリング賞を受賞したヨシュア・ベンジョの、AIによる大災害を防ぐプロジェクトなどに資金を提供している。(ワイアード
  • テック業界の女性が警鐘を鳴らしている理由。テック業界におけるAIブームは、長年の多様性と包摂性への取り組みを後退させ、女性に不利な影響を与えている。(ジ・インフォメーション
人気の記事ランキング
  1. A new US phone network for Christians aims to block porn and gender-related content ポルノもLGBTも遮断、キリスト教徒向けMVNOが米国で登場
  2. Musk v. Altman week 1: Elon Musk says he was duped, warns AI could kill us all, and admits that xAI distills OpenAI’s models 「オープンAIを蒸留した」マスク対アルトマン第1週、法廷がざわめく
  3. Will fusion power get cheap? Don’t count on it. 核融合は本当に安くなるのか? 楽観論に「待った」をかける新研究
メリッサ・ヘイッキラ [Melissa Heikkilä]米国版 AI担当上級記者
MITテクノロジーレビューの上級記者として、人工知能とそれがどのように社会を変えていくかを取材している。MITテクノロジーレビュー入社以前は『ポリティコ(POLITICO)』でAI政策や政治関連の記事を執筆していた。英エコノミスト誌での勤務、ニュースキャスターとしての経験も持つ。2020年にフォーブス誌の「30 Under 30」(欧州メディア部門)に選出された。
MITテクノロジーレビューが選んだ、 世界を変える10大技術

MITテクノロジーレビューの記者と編集者は、未来を形作るエマージング・テクノロジーについて常に議論している。年に一度、私たちは現状を確認し、その見通しを読者に共有する。以下に挙げるのは、良くも悪くも今後数年間で進歩を促し、あるいは大きな変化を引き起こすと本誌が考えるテクノロジーである。

特集ページへ
AI革命の真実 誇大宣伝の先にあるもの

AIは人間の知能を再現する。AIは病気を根絶する。AIは人類史上、最大にして最も重要な発明だ——。こうした言葉を、あなたも何度となく耳にしてきたはずだ。しかし、その多くは、おそらく真実ではない。現在地を見極め、AIが本当に可能にするものは何かを問い、次に進むべき道を探る。

特集ページへ
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る