KADOKAWA Technology Review
×
【夏割】年間購読料が今なら20%オフ!お得なキャンペーン実施中
「不気味の谷」越え近づく? 進化した最新AIクローン技術
Courtesy Synthesia
人工知能(AI) 無料会員限定
Synthesia’s AI clones are more expressive than ever. Soon they’ll be able to talk back.

「不気味の谷」越え近づく? 進化した最新AIクローン技術

AI企業シンセシア(Synthesia)の最新技術で生成されたデジタル分身は、声も仕草も驚くほど本人そっくりだった。専門家は「どこか空虚な感じ」と指摘。近い将来リアルタイム会話も可能になる中、AIは人間関係のあり方を変えるとの懸念もある。 by Rhiannon Williams2025.09.10

この記事の3つのポイント
  1. シンセシアが最新AIモデル「Express-2」を発表し、人間そっくりのアバターを短時間で生成可能になった
  2. 従来モデルより数十億個のパラメーターを持つ新技術で、アクセントや表情を忠実に再現できるようになった
  3. リアルタイム会話機能の開発が進む中、AI依存や人間関係への影響が新たな課題として浮上している
summarized by Claude 3

今年の初夏、私はロンドンにある洒落たオフィスを訪れた。ガラス張りのロビーを通ってエレベーターに乗り、廊下を進んで、カーペット敷きのきれいな部屋に入った。窓から差し込む太陽の光にあふれたこの部屋には、パラソルのような一対の大型照明機材が設置されており、この部屋をさらに明るく照らしていた。私は目を細めないようにしながら、大きなカメラとテレプロンプターが起動したノートPCを取り付けた三脚の前に立った。そして、深呼吸をして、プロンプターに映し出された台本を読み始めた。

私はニュースキャスターでもなければ、映画のオーディションを受ける俳優でもない。私の超リアルなAI生成アバターを作るために必要な情報を提供するため、人工知能(AI)企業のシンセシア(Synthesia)を訪れていた。同社のアバターは、ここ数年のAIの目覚ましい進歩を示す優れたバロメーターだ。だからこそ、先月導入されたばかりの同社の最新AIモデルが、いかに正確に私を再現できるかに興味があった。

シンセシアが2017年にサービスを開始した当初の主な目的は、実在の人間の顔(たとえば、元サッカー選手のデビッド・ベッカム)のAIバージョンに、さまざまな言語で話す吹き替え音声を一致させることだった。その数年後の2020年には、同社はサービスに登録した企業に対し、スタッフまたは同意を得た俳優のAIバージョンを起用したプロレベルのプレゼンテーション映像を制作する機会を提供し始めた。しかし、そのテクノロジーは完璧ではなかった。AIアバターの身体の動きはぎこちなく不自然になることがあり、時折アクセントが抜け落ち、声が示す感情と顔の表情が一致しないこともあった。

アップデートされたシンセシアのアバターは現在、より自然な仕草や動き、そして話し手のアクセントをより忠実に再現する表情豊かな音声を持つようになり、かつてないほど人間らしく見えるようになった。シンセシアの法人顧客にとって、これらのアバターは、決算発表、社内コミュニケーション、または社員研修ビデオなどで、より洗練されたプレゼンターとして活躍するだろう。

私のアバターのデモ映像は、技術的にすばらしいものであると同時に、不安を掻き立てるものだった。快活なビジネススピーチを高解像度撮影したかのような洗練された映像で、私を知らない人が見れば、それがまさに本物だと思うだろう。このデモ映像は、合成されたものと現実のものを区別することがいかに難しくなっているかを示している。そして、近い将来、これらのアバターは私たちと会話することさえできるようになる。それにしても、どこまで進化するのだろうか? そして、AIクローンとの対話は、人間にどのような影響をもたらすのだろうか?

制作過程

本誌の元AI担当上級記者であるメリッサ・ヘイッキラが昨年、自身のアバターを作るためにシンセシアのロンドン・スタジオを訪れている。このとき、メリッサはシステムの調整、さまざまな感情を表現しながらの台本を読み上げ、そしてアバターが母音と子音を形成するために必要な音の口パクなど、長時間の制作プロセスをこなす必要があった。それから15か月後にこの明るい部屋に立った私は、AIアバターの制作過程が大幅に効率化されたことを聞き、安堵した。シンセシアの技術監督、ジョシュ・ベイカー=メンドーサからは、普段の会話でするような身振り手振りをするように促された一方、あまり動きすぎないようにと注意された。私はやたら賛辞が並んだ台本を律儀に繰り返し読み上げた。その台本は、感情豊かに情熱的に話すように作られていた。その結果、台本を読み上げる私の声は、まるで低く単調な声を持つ金髪の英国人女性として生まれ変わったスティーブ・ジョブズのようだった。

さらに残念なことに、台本を読み上げる私の声はまるでシンセシア社員のようでもあった。「本日は皆さんと、私たちが取り組んできた成果をお見せできることを大変嬉しく思っています。私たちはイノベーションの最前線に立っており、その可能性は無限大です」と、私は生き生きとした口調で、しかし狂気じみた響きにならないように努めて熱心に繰り返した。「皆様に心から『すごい!』と思っていただけるものをご紹介します。体験する準備はできていますか? これは大きな機会であるだけでなく、歴史的な意味を持つものでもあります」

わずか1時間で、制作チームは必要な映像をすべて手に入れた。数週間後、私は自分のアバターを2つ受け取った。1つは旧モデル「Express-1」で、もう1つは同社の最新テクノロジー「Express-2」を使って作られたものだった。シンセシアによると、Express-2では、手振り、顔の動き、話し方がより表情豊かになり、合成人間をよりリアルに、モデルとなった人物により忠実に再現できるという。以下で私が受け取った2つのAIアバター映像を確認してみてほしい。

昨年、メリッサは、Express-1で生成された自身のアバターが、イギリス英語とアメリカ英語がごちゃ混ぜになった彼女のアクセントを再現できていないことに気づいた。また、感情表現の幅も限られており、アバターに怒って台本を読むよう指示しても、アバターの話し方は激怒しているというよりはグチをこぼしているようだった。それから何か月もの間、シンセシアはExpress-1を改良してきたが、それでもExpress-1で作られた私のアバターは、せわしなく瞬きを繰り返し、身体の動きと音声を同期させるのにまだ苦労していた。

それとは対照的に、新しいExpress-2で作られた私のアバターは、驚くほど私に似ていた。顔面特徴は私のものを完璧に反映している。声も不気味なほど正確で、身振り手振りは私自身より多いものの、その手の動きは私の話す内容と概ね一致している。

しかし、見る人が見れば、AI生成の小さな …

こちらは会員限定の記事です。
メールアドレスの登録で続きを読めます。
有料会員にはメリットがいっぱい!
  1. 毎月120本以上更新されるオリジナル記事で、人工知能から遺伝子療法まで、先端テクノロジーの最新動向がわかる。
  2. オリジナル記事をテーマ別に再構成したPDFファイル「eムック」を毎月配信。
    重要テーマが押さえられる。
  3. 各分野のキーパーソンを招いたトークイベント、関連セミナーに優待価格でご招待。
【夏割】実施中!年間購読料20%オフ!
人気の記事ランキング
  1. How a 1980s toy robot arm inspired modern robotics 世界の工学者を魅了し続ける 80年代の日本のおもちゃ
  2. How a 1980s toy robot arm inspired modern robotics 世界の工学者を魅了し続ける 80年代の日本のおもちゃ
  3. How to run an LLM on your laptop チャットGPTからの卒業:自分のパソコンでLLMを動かしてみよう
日本発「世界を変える」U35イノベーター

MITテクノロジーレビューが20年以上にわたって開催しているグローバル・アワード「Innovators Under 35 」。世界的な課題解決に取り組み、向こう数十年間の未来を形作る若きイノベーターの発掘を目的とするアワードの日本版の最新情報を発信する。

特集ページへ
MITTRが選んだ 世界を変える10大技術 2025年版

本当に長期的に重要となるものは何か?これは、毎年このリストを作成する際に私たちが取り組む問いである。未来を完全に見通すことはできないが、これらの技術が今後何十年にもわたって世界に大きな影響を与えると私たちは予測している。

特集ページへ
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る