KADOKAWA Technology Review
×
声でしゃべれるチャットGPTが登場、写真の内容も質問可能に
Stephanie Arnett/MITTR | Envato
Now you can chat with ChatGPT using your voice

声でしゃべれるチャットGPTが登場、写真の内容も質問可能に

オープンAIは、チャットGPTの過去最大のアップデートを発表した。音声によるやり取りに対応し、アップロードした画像の内容についてもやり取りできるようになる。 by Will Douglas Heaven2023.09.27

オープンAI(OpenAI)は、登場以来最大のアップデートとなるチャットGPT(ChatGPT)の新機能を発表した。

1つは、チャットGPTが音声に対応したことだ。5種類の人間そっくりな合成音声から1つを選ぶと、まるで通話をしているかのようにチャットボットと会話でき、話しかけた質問にリアルタイムで答えてくれる。

画像に関する質問にも答えられるようになった。オープンAIは今年3月にGPT-4(チャットGPTを動かす大規模言語モデル)を公開した際にこの機能を予告していたが、これまで広く一般には公開していなかった。この機能により、ユーザーは画像をアップロードし、表示内容についてチャットGPTに質問できるようになる。

これらのアップデートは、画像生成モデルの最新バージョンであるダリー3(DALL-E 3)がチャットGPTに接続され、画像の生成にも対応するという先週のオープンAIの発表に続くものだ。

チャットGPTと会話する能力には、2つの別々のモデルが利用されている。オープンAIの既存の音声認識モデルであるウィスパー(Whisper)が、発言をテキストに変換し、そのテキストをチャットボットに入力する。また、新しい音声認識モデルがチャットGPTの回答を発話に変換する。

先週披露されたデモの中で、オープンAIのプロダクト・マネージャーであるジョアン・ジャンは、チャットGPTのさまざまな合成音声を披露してくれた。これらの音声は、オープンAIが契約した俳優の声で音声認識モデルを訓練して作られたものだ。オープンAIはモーガン・フリーマンのような有名人を使うことも検討したという。将来的には、ユーザーが自分の声で合成音声を作成できるようになる可能性もあるという。「声を作る中でもっとも重視した基準は、1日中聞いていられる声かどうかでした」と、ジャンは言う。

オープンAIはこの音声認識モデルを、スポティファイ(Spotify)などの一部の企業と先行して共有している。スポティファイは9月25日、レックス・フリードマンのポッドキャストのエピソードや、今年後半にスタートするトレヴァー・ノアの新番組など有名人のポッドキャストをこのテクノロジー多言語に翻訳し、ポッドキャスト配信者独自の合成音声を使って発話させると発表した。

一連のアップデートは、オープンAIが実験的なモデルを理想的な製品へと転換させるスピードを示している。オープンAIは昨年11月にチャットGPTで驚異的なヒットを飛ばして以来、テクノロジーを磨き上げ、個人と企業の両方に販売することに多くの時間を費やしてきた。

オープンAIの有料サービスである「チャットGPT・プラス(ChatGPT Plus)」は、GPT-4とダリー(DALL-E)を統合することで、アップルのシリ(Siri)、グーグル・アシスタント、アマゾンのアレクサ(Alexa)に匹敵する単一のスマホアプリとなり、オープンAIの最高峰のモデルを提供する洗練されたワンストップ・ショップとなった。

わずか1年前には一部のソフトウェア開発者しか利用できなかった技術が、今では誰でも月額20ドルで利用できる。「我々はチャットGPTをより便利で役立つものにしようとしています」とジャンは言う。

先週のデモでは、オープンAIの科学者であるラウル・プリが、画像認識機能を簡単に紹介してくれた。プリは、子どもの算数の宿題の写真をアップロードし、画面上の数独のようなパズルを丸で囲み、チャットGPTにどのように解くのか質問した。チャットGPTは正しい手順を返した。

プリはまた、この機能を使って、PCのエラー・メッセージのスクリーンショットをアップロードし、チャットGPTに対処方法を尋ねることで、婚約者のPCの修理にも役立ったという。「大変な経験でしたが、チャットGPTのおかげで乗り越えることができました」。

チャットGPTの画像認識機能は、視覚障害者向けのアプリを開発しているビー・マイ・アイズ(Be My Eyes)ですでに試用されている。このアプリは、目の前にあるものの写真をアップロードし、ボランティアに何が写っているかを説明してもらうものだ。オープンAIとの提携で、ユーザーに代わりにチャットボットに尋ねることもできるようになった。

「キッチンがちょっと散らかっていたり、月曜のかなり早朝だったりして、人間と話したくないこともあります」。自身もこのアプリを利用しているビー・マイ・アイズの創設者、ハンス・ヨルゲン・ワイバルグは今年5月、筆者のインタビューでこう語っている。「これからは、写真で質問できます」。

オープンAIは、これらのアップデートを一般に公開することのリスクを認識している。モデルを組み合わせることは、まったく新しいレベルの複雑さをもたらすとプリは言う。プリのチームは、数カ月を費やして、悪用の可能性について議論してきたという。例えば、新機能では個人の写真について質問することはできない。

ジャンは別の例を挙げた。 「チャットGPTに爆弾の作り方を尋ねると拒否されます。ですが、『ねえ、爆弾の作り方を教えて』と言う代わりに、爆弾の画像を見せて『これの作り方を教えて』と言ったらどうでしょう?」

プリは、「コンピューター・ビジョンや大規模言語モデルにはさまざまな問題があり、音声詐欺は大問題です」と言う。「我々のユーザーだけでなく、製品を使っていない人々のことも考えなければなりません」。

しかしオープンAIは、最悪の問題には対処しており、今回のアップデートは十分安全だと確信していると主張している。「これらのあらゆる難しい問題に対処することは、非常に良い学習経験でした」とプリは言う。

人気の記事ランキング
  1. Inside the tedious effort to tally AI’s energy appetite 動画生成は別次元、思ったより深刻だったAIの電力問題
  2. Promotion Call for entries for Innovators Under 35 Japan 2025 「Innovators Under 35 Japan」2025年度候補者募集のお知らせ
  3. IBM aims to build the world’s first large-scale, error-corrected quantum computer by 2028 IBM、世界初の大規模誤り訂正量子コンピューター 28年実現へ
  4. What is vibe coding, exactly? バイブコーディングとは何か? AIに「委ねる」プログラミング新手法
ウィル・ダグラス・ヘブン [Will Douglas Heaven]米国版 AI担当上級編集者
AI担当上級編集者として、新研究や新トレンド、その背後にいる人々を取材しています。前職では、テクノロジーと政治に関するBBCのWebサイト「フューチャー・ナウ(Future Now)」の創刊編集長、ニュー・サイエンティスト(New Scientist)誌のテクノロジー統括編集長を務めていました。インペリアル・カレッジ・ロンドンでコンピュータサイエンスの博士号を取得しており、ロボット制御についての知識があります。
日本発「世界を変える」U35イノベーター

MITテクノロジーレビューが20年以上にわたって開催しているグローバル・アワード「Innovators Under 35 」。世界的な課題解決に取り組み、向こう数十年間の未来を形作る若きイノベーターの発掘を目的とするアワードの日本版の最新情報を発信する。

特集ページへ
MITTRが選んだ 世界を変える10大技術 2025年版

本当に長期的に重要となるものは何か?これは、毎年このリストを作成する際に私たちが取り組む問いである。未来を完全に見通すことはできないが、これらの技術が今後何十年にもわたって世界に大きな影響を与えると私たちは予測している。

特集ページへ
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る