KADOKAWA Technology Review
×
【3/14】MITTR主催「アクセシビリティとテクノロジー 」開催 申込受付中
AI Has Beaten Humans at Lipreading

人工知能が人間よりずっと高精度な読唇術を獲得した

人工知能を訓練すると、機会は人間よりはるかに精度の高い読唇術を獲得した。 by Jamie Condliffe2016.11.22

読唇術には熟練が必要だ。文脈や言語知識も重要だし、視覚的な手がかりから推論する能力も欠かせない。しかし、研究者によると、機械学習は、無声映像の話の内容を、読唇術のプロよりも効率的に認識できた。

オックスフォード大学コンピューター科学部のチームは、新型人工知能システム「LipNet」を開発した。Quartzの記事によれば、LipNetシステムの元になるデータセット「GRID」には、正面を向き、照明がよく当てられた状態の人物が3秒間の文を話す映像が記録されている。それぞれの文は、単語のつながりに基づいており、同じパターンの映像がGRIDに収録されている。

研究チームは、音声認識の訓練と同様に、そのデータセットでニューラル・ネットワークを訓練した。。ただしこの場合、ニューラル・ネットワークは、時間をかけて口の形のバリエーションを認識し、その情報を何が話されたか解釈することに結びつけるように学習する。人工知能(AI)は映像を細切れに分析するのではなく、3秒間の映像全体から分析した文章の文脈を解釈する。人間の声が作り出す音の数より、口の形の数のほうが少ないから、ここがシステムの重要な特徴だ。

試験結果によれば、LipNetシステムは93.4%の言葉を正確に認識できた。人間の読唇術のボランティアに同様の試験をしたところ、正確に認識できた言葉は52.3%にとどまった。

一方、ニュー・サイエンティスト誌の記事によれば、グーグル・ディープマインドと共同研究中のオックスフォード大学工学部の別のチームは、さらに難しい課題に挑んだ。GRIDのような整理された一貫性のあるデータセットを使わずに、BBCの放送から抽出した10万件の映像を使ったのだ。こちらの映像ではGRIDより多くの言語が使われ、照明や頭の位置にも、ずっと多くのバリエーションがある。

コンピューター科学部と同様の手法により、オックスフォード大学とディープマインドのチームは、すべての言葉のうち46.8%を正しく認識できるAIを開発した。人間は12.4%しか間違えずに認識できなかった。照明や顔の向き、言語の複雑性まで、精度が低い理由は明らかに数多くあるので、これはこれで高い性能といってよいだろう。

訓練データと成果に違いはあるが、どちらの実験でも、AIは人間をはるかに凌ぐ読唇術の名人であり、読唇ソフトウェアを使ったたくさんの応用を想像できる。たとえば、スカイプは騒々しい環境にいる通話者の会話を読み取って字幕を付けたり音声を合成したりしてくれるかもしれない。聴覚障害のある人がスマホを手に、会話内容を聞けるようになるかもしれない。

(関連記事:Quartz, New Scientist, Oxford Machine Learning Reading Group, arXiv, “The Challenges and Threats of Automated Lip Reading”)

人気の記事ランキング
  1. OpenAI teases an amazing new generative video model called Sora 動画でも生成革命、オープンAIが新モデル「Sora」を発表
  2. Promotion MITTR Emerging Technology Nite #27 MITTR主催「アクセシビリティとテクノロジー 」開催のご案内
  3. Watch this robot as it learns to stitch up wounds AIロボットが縫合技術を習得、6針縫うことに成功
  4. How to fix the internet 「インターネット」の直し方
タグ
クレジット Image courtesy of Joon Son Chung
ジェイミー コンドリフ [Jamie Condliffe]米国版 ニュース・解説担当副編集長
MIT Technology Reviewのニュース・解説担当副編集長。ロンドンを拠点に、日刊ニュースレター「ザ・ダウンロード」を米国版編集部がある米国ボストンが朝を迎える前に用意するのが仕事です。前職はニューサイエンティスト誌とGizmodoでした。オックスフォード大学で学んだ工学博士です。
10 Breakthrough Technologies 2024

MITテクノロジーレビューは毎年、世界に真のインパクトを与える有望なテクノロジーを探している。本誌がいま最も重要だと考える進歩を紹介しよう。

記事一覧を見る
人気の記事ランキング
  1. OpenAI teases an amazing new generative video model called Sora 動画でも生成革命、オープンAIが新モデル「Sora」を発表
  2. Promotion MITTR Emerging Technology Nite #27 MITTR主催「アクセシビリティとテクノロジー 」開催のご案内
  3. Watch this robot as it learns to stitch up wounds AIロボットが縫合技術を習得、6針縫うことに成功
  4. How to fix the internet 「インターネット」の直し方
気候テック企業15 2023

MITテクノロジーレビューの「気候テック企業15」は、温室効果ガスの排出量を大幅に削減する、あるいは地球温暖化の脅威に対処できる可能性が高い有望な「気候テック企業」の年次リストである。

記事一覧を見る
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る