KADOKAWA Technology Review
×
声でしゃべれるチャットGPTが登場、写真の内容も質問可能に
Stephanie Arnett/MITTR | Envato
Now you can chat with ChatGPT using your voice

声でしゃべれるチャットGPTが登場、写真の内容も質問可能に

オープンAIは、チャットGPTの過去最大のアップデートを発表した。音声によるやり取りに対応し、アップロードした画像の内容についてもやり取りできるようになる。 by Will Douglas Heaven2023.09.27

オープンAI(OpenAI)は、登場以来最大のアップデートとなるチャットGPT(ChatGPT)の新機能を発表した。

1つは、チャットGPTが音声に対応したことだ。5種類の人間そっくりな合成音声から1つを選ぶと、まるで通話をしているかのようにチャットボットと会話でき、話しかけた質問にリアルタイムで答えてくれる。

画像に関する質問にも答えられるようになった。オープンAIは今年3月にGPT-4(チャットGPTを動かす大規模言語モデル)を公開した際にこの機能を予告していたが、これまで広く一般には公開していなかった。この機能により、ユーザーは画像をアップロードし、表示内容についてチャットGPTに質問できるようになる。

これらのアップデートは、画像生成モデルの最新バージョンであるダリー3(DALL-E 3)がチャットGPTに接続され、画像の生成にも対応するという先週のオープンAIの発表に続くものだ。

チャットGPTと会話する能力には、2つの別々のモデルが利用されている。オープンAIの既存の音声認識モデルであるウィスパー(Whisper)が、発言をテキストに変換し、そのテキストをチャットボットに入力する。また、新しい音声認識モデルがチャットGPTの回答を発話に変換する。

先週披露されたデモの中で、オープンAIのプロダクト・マネージャーであるジョアン・ジャンは、チャットGPTのさまざまな合成音声を披露してくれた。これらの音声は、オープンAIが契約した俳優の声で音声認識モデルを訓練して作られたものだ。オープンAIはモーガン・フリーマンのような有名人を使うことも検討したという。将来的には、ユーザーが自分の声で合成音声を作成できるようになる可能性もあるという。「声を作る中でもっとも重視した基準は、1日中聞いていられる声かどうかでした」と、ジャンは言う。

オープンAIはこの音声認識モデルを、スポティファイ(Spotify)などの一部の企業と先行して共有している。スポティファイは9月25日、レックス・フリードマンのポッドキャストのエピソードや、今年後半にスタートするトレヴァー・ノアの新番組など有名人のポッドキャストをこのテクノロジー多言語に翻訳し、ポッドキャスト配信者独自の合成音声を使って発話させると発表した。

一連のアップデートは、オープンAIが実験的なモデルを理想的な製品へと転換させるスピードを示している。オープンAIは昨年11月にチャットGPTで驚異的なヒットを飛ばして以来、テクノロジーを磨き上げ、個人と企業の両方に販売することに多くの時間を費やしてきた。

オープンAIの有料サービスである「チャットGPT・プラス(ChatGPT Plus)」は、GPT-4とダリー(DALL-E)を統合することで、アップルのシリ(Siri)、グーグル・アシスタント、アマゾンのアレクサ(Alexa)に匹敵する単一のスマホアプリとなり、オープンAIの最高峰のモデルを提供する洗練されたワンストップ・ショップとなった。

わずか1年前には一部のソフトウェア開発者しか利用できなかった技術が、今では誰でも月額20ドルで利用できる。「我々はチャットGPTをより便利で役立つものにしようとしています」とジャンは言う。

先週のデモでは、オープンAIの科学者であるラウル・プリが、画像認識機能を簡単に紹介してくれた。プリは、子どもの算数の宿題の写真をアップロードし、画面上の数独のようなパズルを丸で囲み、チャットGPTにどのように解くのか質問した。チャットGPTは正しい手順を返した。

プリはまた、この機能を使って、PCのエラー・メッセージのスクリーンショットをアップロードし、チャットGPTに対処方法を尋ねることで、婚約者のPCの修理にも役立ったという。「大変な経験でしたが、チャットGPTのおかげで乗り越えることができました」。

チャットGPTの画像認識機能は、視覚障害者向けのアプリを開発しているビー・マイ・アイズ(Be My Eyes)ですでに試用されている。このアプリは、目の前にあるものの写真をアップロードし、ボランティアに何が写っているかを説明してもらうものだ。オープンAIとの提携で、ユーザーに代わりにチャットボットに尋ねることもできるようになった。

「キッチンがちょっと散らかっていたり、月曜のかなり早朝だったりして、人間と話したくないこともあります」。自身もこのアプリを利用しているビー・マイ・アイズの創設者、ハンス・ヨルゲン・ワイバルグは今年5月、筆者のインタビューでこう語っている。「これからは、写真で質問できます」。

オープンAIは、これらのアップデートを一般に公開することのリスクを認識している。モデルを組み合わせることは、まったく新しいレベルの複雑さをもたらすとプリは言う。プリのチームは、数カ月を費やして、悪用の可能性について議論してきたという。例えば、新機能では個人の写真について質問することはできない。

ジャンは別の例を挙げた。 「チャットGPTに爆弾の作り方を尋ねると拒否されます。ですが、『ねえ、爆弾の作り方を教えて』と言う代わりに、爆弾の画像を見せて『これの作り方を教えて』と言ったらどうでしょう?」

プリは、「コンピューター・ビジョンや大規模言語モデルにはさまざまな問題があり、音声詐欺は大問題です」と言う。「我々のユーザーだけでなく、製品を使っていない人々のことも考えなければなりません」。

しかしオープンAIは、最悪の問題には対処しており、今回のアップデートは十分安全だと確信していると主張している。「これらのあらゆる難しい問題に対処することは、非常に良い学習経験でした」とプリは言う。

人気の記事ランキング
  1. We finally have a definition for open-source AI 「オープンソースAI」問題ついに決着、OSIが定義を発表
  2. Here’s how people are actually using AI カネにならない生成AIブーム、LLMはどう使われているか?
  3. The US physics community is not done working on trust 物理学界で繰り返される研究不正、再発防止には何が必要か
ウィル・ダグラス・ヘブン [Will Douglas Heaven]米国版 AI担当上級編集者
AI担当上級編集者として、新研究や新トレンド、その背後にいる人々を取材しています。前職では、テクノロジーと政治に関するBBCのWebサイト「フューチャー・ナウ(Future Now)」の創刊編集長、ニュー・サイエンティスト(New Scientist)誌のテクノロジー統括編集長を務めていました。インペリアル・カレッジ・ロンドンでコンピュータサイエンスの博士号を取得しており、ロボット制御についての知識があります。
日本発「世界を変える」U35イノベーター

MITテクノロジーレビューが20年以上にわたって開催しているグローバル・アワード「Innovators Under 35 」。2024年も候補者の募集を開始しました。 世界的な課題解決に取り組み、向こう数十年間の未来を形作る若きイノベーターの発掘を目的とするアワードの日本版の最新情報を随時発信中。

特集ページへ
MITTRが選んだ 世界を変える10大技術 2024年版

「ブレークスルー・テクノロジー10」は、人工知能、生物工学、気候変動、コンピューティングなどの分野における重要な技術的進歩を評価するMITテクノロジーレビューの年次企画だ。2024年に注目すべき10のテクノロジーを紹介しよう。

特集ページへ
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る