KADOKAWA Technology Review
×
【春割】実施中!年間購読料20%オフ!
AIで「聞きたい声だけ」聞ける、ノイズキャンセリング新技術
Stephanie Arnett/MITTR | Public Domain, Envato
Noise-canceling headphones use AI to let a single voice through

AIで「聞きたい声だけ」聞ける、ノイズキャンセリング新技術

群衆の中にいる友人や、都会の喧騒の中にいるツアーガイドなど、騒がしい環境下で特定の声に集中したい際に役立つ新技術だ。 by Rhiannon Williams2024.05.27

現代の生活は騒がしい。それが嫌なら、ノイズキャンセリング・ヘッドフォンを使えば周囲の音を小さくできる。ただし、無差別に音が消えてしまうため、実際に聞きたい音を逃してしまうこともある。

ヘッドフォン向けの新型プロトタイプ人工知能(AI)システムは、こうした問題の解決を目的としている。「ターゲット・スピーチ・ヒヤリング(Target Speech Hearing)」と呼ばれるこのシステムは、他のすべての音を消しても、選択した人物の声だけは残す機能だ。

ターゲット・スピーチ・ヒヤリングは現在、概念実証段階となっているが、開発者は人気ブランドのノイズキャンセリング・イヤホンに組み込む交渉を進めているほか、補聴器にも利用できるよう取り組んでいると話す。

このプロジェクトに携わったワシントン大学のシャム・ゴラコタ教授は、「特定の人の声を聞き分けることは、我々がこの世界でコミュニケーションをとり、他人と交流していく上で不可欠な要素です」と言う。「しかし、たとえ聴力に問題がない場合でも、騒がしい状況下では特定の人の声に集中しにくい場合があります」。

同じ研究者たちは以前、赤ちゃんの泣き声、鳥のさえずり、アラームの音など、特定の音を認識してフィルタリングするというニューラル・ネットワークの訓練に成功している。しかし、人間の声を聞き分けるのはより高度な挑戦であり、より複雑なニューラル・ネットワークが必要となる。

コンピューティング能力とバッテリー持続時間が限定されているヘッドフォンで、AIモデルをリアルタイムで動作させる場合は、そのような複雑さが問題となる。この制約をクリアするには、小型でエネルギー効率の優れたニューラル・ネットワークが必要だった。そのため、研究チームは「知識蒸留」と呼ばれるAI圧縮手法を採用した。これは、何百万もの音声を用いて訓練した巨大AIモデル(「教師」)を使用してはるかに小さなモデル(「生徒」)を訓練し、同じ基準で動作とパフォーマンスを模倣させる手法だ。

次に、市販のノイズキャンセリング・ヘッドフォンに取り付けたマイクが捉えた周囲の雑音から、特定の音声パターンを抽出するよう「生徒」に教えた。

「ターゲット・スピーチ・ヒアリング」システムは、ヘッドフォン装着者がボタンを数秒押しながら、ターゲットとなる人の方を向いて話すと作動し始める。システムは 「登録 」プロセス中、両耳のヘッドフォンから音声サンプルを取り込み、録音されたサンプルを使用して音声特徴を抽出する。これで周囲に他の話し手がいたり、雑音がある場合でも、話し手の音声特徴を抽出できる。

これらの音声特徴がヘッドフォンとUSBケーブルで接続されたマイクロコントローラー・コンピューター上にある第2のニューラル・ネットワークに入力される。このネットワークは継続的に作動し、選択した音声をそれ以外の音声と分離し、聞き手に向けて再生する。いったん話し手がロックオンされると、ヘッドフォン装着者が話し手に背を向けても、その話し手の声が優先的に再生され続ける。システムが話し手の声をターゲットにした訓練データをより多く取得すればするほど、その声に対する分離能力は向上していく。

現時点では、このシステムは1人のターゲットとする話し手の声だけが大きく聞こえる場合にだけ成功するが、研究チームは方向や声の大きさといった条件を満たさない場合でも機能することを目標としている。

「騒々しい環境でたった1つの声を検知するのは非常に困難です」とマイクロソフトで音声とAIを研究しているセフィク・エムレ・エスキムズ上級研究員は言う(同研究員は今回の研究には関与していない)。「企業がこれを望んでいることは知っています」とエスキムズは話す。「もし実現できれば、特に会議のシナリオにおいてさまざまな応用が可能になります」。

カーネギーメロン大学言語テクノロジー研究所の研究者であるサミュエル・コーネル(この研究に関与していない)は、「音声分離研究は、実践的というより理論的になる傾向がありますが、この研究は間違いなく現実世界に応用可能です」と話す。「これは正しい方向への一歩だと思います。新風をもたらす研究です」。

人気の記事ランキング
  1. A new US phone network for Christians aims to block porn and gender-related content ポルノもLGBTも遮断、キリスト教徒向けMVNOが米国で登場
  2. Musk v. Altman week 1: Elon Musk says he was duped, warns AI could kill us all, and admits that xAI distills OpenAI’s models 「オープンAIを蒸留した」マスク対アルトマン第1週、法廷がざわめく
  3. Will fusion power get cheap? Don’t count on it. 核融合は本当に安くなるのか? 楽観論に「待った」をかける新研究
リアノン・ウィリアムズ [Rhiannon Williams]米国版 ニュース担当記者
米国版ニュースレター「ザ・ダウンロード(The Download)」の執筆を担当。MITテクノロジーレビュー入社以前は、英国「i (アイ)」紙のテクノロジー特派員、テレグラフ紙のテクノロジー担当記者を務めた。2021年には英国ジャーナリズム賞の最終選考に残ったほか、専門家としてBBCにも定期的に出演している。
MITテクノロジーレビューが選んだ、 世界を変える10大技術

MITテクノロジーレビューの記者と編集者は、未来を形作るエマージング・テクノロジーについて常に議論している。年に一度、私たちは現状を確認し、その見通しを読者に共有する。以下に挙げるのは、良くも悪くも今後数年間で進歩を促し、あるいは大きな変化を引き起こすと本誌が考えるテクノロジーである。

特集ページへ
AI革命の真実 誇大宣伝の先にあるもの

AIは人間の知能を再現する。AIは病気を根絶する。AIは人類史上、最大にして最も重要な発明だ——。こうした言葉を、あなたも何度となく耳にしてきたはずだ。しかし、その多くは、おそらく真実ではない。現在地を見極め、AIが本当に可能にするものは何かを問い、次に進むべき道を探る。

特集ページへ
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る