ウェルセド・ラボ(WellSaid Labs)のブログ記事には、90年代の米国のインフォマーシャルのような熱気に満ち溢れている。顧客企業が「8人の新しいデジタル声優」に期待できることを説明しているのだ。例えば、トービンは「エネルギッシュで洞察力に富んでいる」、ペイジは「落ち着きがあり、表現力豊か」、エヴァは 「洗練され、自信に満ちたプロフェッショナル」といった具合だ。
それぞれのデジタル声優は、人間の声優に基づいて作られている。AIを利用して人間の声優の特徴を同意を得た上で保っている。顧客企業はデジタル声優のライセンスを取得すれば、何でも好きなことをデジタル声優に語らせることができる。音声エンジンに文章を入力するだけで、文章を自然に読み上げる鮮明な音声クリップができあがる。
シアトルを拠点とするウェルセド・ラボは、非営利の研究機関であるアレン人工知能研究所(AI2:Allen Institute of Artificial Intelligence)からスピンアウトしたスタートアップ企業。顧客企業にAIを利用した合成音声を提供しており、企業のeラーニング映像の音声に特化した企業だ。ほかにも、デジタルアシスタントやコールセンターのオペレーター、さらにはビデオゲームのキャラクターの音声を作っているスタートアップ企業もある。
このようなディープフェイク音声は詐欺の電話やインターネット上の不正行為に使われ、少し前まで評判が悪かった。だが、品質が向上したことで、多くの企業が関心を寄せるようになった。近年の深層学習のブレークスルーにより、人間の話し方の微妙なニュアンスの多くの再現ができるようになったことも大きい。深層学習を使った合成音声は適切なところで間を取り、息継ぎをし、話し方や感情を変えることもできる。話す時間が長すぎると見破られることもあるが、短い音声クリップなら人間と区別がつかないものもある。
AI音声は安価かつ大規模化が可能で、扱いやすいのも特徴だ。人間の声優での録音とは異なり、合成音声は台本をリアルタイムで更新できるので、広告のパーソナライズに新しい可能性をもたらす。
しかし、超現実的なフェイク音声の増加による影響は、さまざまな方面におよぶ。特に人間の声優にとっては、フェイク音声が自らの生計にどのような影響を与えるのか、気になるところだ。
フェイク音声の作り方
合成音声は、新しいものではない。しかし、初代のシリ(Siri)やアレクサ(Alexa)といった旧来の合成音声は、単に音をくっつけただけの、ぎこちないロボット音声を実現しただけだった。少しでも自然に聞こえるようにするためには、多くの時間と労力を要する手作業が必要だった。
深層学習がそれを変えた。音声開発者は生成した音声に、正確なテンポや発音、またはイントネーションを指示する必要がなくなった。代わりに、数時間分の音声をアルゴリズムに入力して、アルゴリズムにそれらのパターンを学習させればいいのだ。
この基本的な考え方に基づいて、研究者たちは長年にわたり、ますます高度な音声エンジンを開発してきた。例えば、ウェルセド・ラボが構築した音声エンジンは、大きく2つの深層学習モデルを使用している。1つ目のモデルは、文章の一節からアクセント、速度、音色など、話し手の声の大まかな特徴を予測するもの。2つ目は、息継ぎや環境での声の響き …
- 人気の記事ランキング
-
- A tiny new open-source AI model performs as well as powerful big ones 720億パラメーターでも「GPT-4o超え」、Ai2のオープンモデル
- The coolest thing about smart glasses is not the AR. It’s the AI. ようやく物になったスマートグラス、真価はARではなくAIにある
- Geoffrey Hinton, AI pioneer and figurehead of doomerism, wins Nobel Prize in Physics ジェフリー・ヒントン、 ノーベル物理学賞を受賞
- Why OpenAI’s new model is such a big deal GPT-4oを圧倒、オープンAI新モデル「o1」に注目すべき理由