映像に合ったリアルな音を機械学習で生成、アドビらが開発
ノースカロライナ大学チャペルヒル校とアドビの研究者が、映像に映った物体に合わせた音を生成するアルゴリズムを開発した。音声編集の自動化へ向けた道を切り開く興味深い研究だ。 by Emerging Technology from the arXiv2018.01.30
機械学習は、画像と画像を作る方法に関する考え方を変えつつある。研究者は顔を作成したり、漫画を描いたり、写真を絵画風に加工する方法を機械に学習させてきた。こうした方法をもう少し進化させれば、映像も生成できるはずだし、実際にそれは現実になりつつある。
映像を生成するということは、完全なバーチャル環境を機械によって作り出すことを指している。これが実現できれば、人間が経験する未来に対する、あらゆる可能性が開かれる。
だがそこには1つの問題がある。映像はただの視覚的体験だけではない。本物のような音声を生成することも、映像を生成するのと同様に重要だ。つまり、興味深い疑問点は、機械が映像の音声部分を本物らしく生成できるかどうかということだ。
ノースカロライナ大学チャペルヒル校のイーピン・シュウらとアドビ・リサーチの研究者の功績により、この疑問に対する答えが出た。研究チームは、短いビデオ・クリップに本物のようなサウンドトラックを付ける方法を機械学習アルゴリズムに学習させた。
実際に、機械が作り出す音声は、ほとんどの人間が本物だと勘違いするほどリアリティにあふれている。この動画の音を聞いて、本物の音と生成した音との違いを聞き分けてみてほしい。
研究チームは、機械学習の標準的な手法を採用している。アルゴリズムの優劣は訓練するために使 …
- 人気の記事ランキング
-
- AI crawler wars threaten to make the web more closed for everyone 失われるWebの多様性——AIクローラー戦争が始まった
- Promotion Innovators Under 35 Japan × CROSS U 好評につき第2弾!研究者のキャリアを考える無料イベント【3/14】
- OpenAI releases its new o3-mini reasoning model for free オープンAI、推論モデル「o3-mini」を無料提供
- Inside the race to archive the US government’s websites 米政府系サイトが続々閉鎖、 科学者らが緊急保存作戦
- What’s next for smart glasses 早すぎたスマート・グラス、 AIエージェント時代到来で ついに花開くか?