深層学習で映像からモノラル音を立体化、「2.5D音響」の新手法

近くの木で鳥のさえずりが聞こえたら、目で探さなくても比較的すぐに、その鳥のおおよその場所がわかる。道を渡るときに車のエンジン音が聞こえたら、大抵の場合、後ろに車が迫っているかどうかも直ちに分かるはずだ。

人間には、3次元（3D）空間内で音源の場所を特定する優れた能力がある。我々の耳が非対称にできており、右と左の耳が一定の距離だけ離れていることがその理由であることはよく知られている。

人間の目を簡単に欺く3D画像を作成する方法はすでに知られている。しかし、人間の聴覚を欺けるほど優れた人工の3D音響を作る方法はまだ見つかっていない。

現在、テキサス大学オースティン校のルオハン・ガオとフェイスブック研究所のクリスティン・グラウマン博士の研究により、状況は少し変わってきたようだ。グラウマン博士らは、人工知能（AI）システムを使って、普通のモノラル音を3Dにかなり近い立体的な音響に変換させる方法を開発しており、これを2.5D音響と呼んでいる。

背景となる知識を少し説明しておこう。脳は、3D空間のどこから音が来ているかを理解するためにさまざまな手がかりを使う。それぞれの耳に音が届く時間差（両耳間時差）は、大切な手掛かりの1つだ。

左側で出された音は、右耳よりも左耳のほうに先に届く。この時間差を我々が意識することはないが、脳はこの情報を使って、音がどこから来るのかを決める。

もう1つの手がかりは、音量の違いだ。左耳に聞こえる音量の方が右耳よりも大きければ、脳は音が左側から来ていると判断する。これを両耳間音圧差と呼ぶ。

これらの差は、左耳と右耳がどれだけ離れているかに依存している。ステレオで録音をしても、2つのマイクの間の距離が両耳の間の距離と一致しないため、この効果は再現されない。

また、音と耳介（耳の外側にはみ出している部分）との相互作用も重要だ。耳介は、音が届いた方向に応じて、その音を歪ませる性質がある。たとえば、前方からの音は耳介に届く前に外耳道に達するが、後方からの音は逆に、外耳道に達する前に耳介に …

こちらは有料会員限定の記事です。 有料会員になると制限なしにご利用いただけます。

有料会員にはメリットがいっぱい！

毎月120本以上更新されるオリジナル記事で、人工知能から遺伝子療法まで、先端テクノロジーの最新動向がわかる。
オリジナル記事をテーマ別に再構成したPDFファイル「eムック」を毎月配信。
重要テーマが押さえられる。
各分野のキーパーソンを招いたトークイベント、関連セミナーに優待価格でご招待。

有料プランの詳細を見る

Deep learning turns mono recordings into immersive sound 深層学習で映像からモノラル音を立体化、「2.5D音響」の新手法