映像だって証拠にならない AIの「ねつ造」は見破れるか?
知性を宿す機械

Real or Fake? AI Is Making It Very Hard to Know 映像だって証拠にならない
AIの「ねつ造」は見破れるか?

本物そっくりの映像を作成したり、他人になりしましたりできるテクノロジーが次々と登場している。映像や音声が証拠にならない時代がやってくるのだろうか。 by Will Knight2017.05.10

フェイクニュースは近い将来、音声や映像にまで広がるかもしれない。

強力な機械学習(「人類に残された、 AIを信用しない、 使わない、という選択肢」を参照)のおかげで 、音声や映像をますます簡単に本物そっくりに改ざんしたり、ゼロから生成したり、あるいは驚くほど高い精度で他人に成りすましたりできるようになったのだ。

ロシアに本拠地を置く企業が最近リリースしたスマホアプリ「フェイスアップ(FaceApp)」は、自動的に人の顔を加工して笑顔にしたり、老けさせたり若返らせたり、性別を変えたりできる。さらに、しわを取ったり、物議をかもしそうなほどの「整形」効果を加えたりもできる。

モントリオール大学からスピンアウトした企業ライアバードは、先週、他人の声に偽装するテクノロジーを披露した。公開されたバラク・オバマ、ドナルド・トランプ、ヒラリー・クリントンのデモ音声は、完成度の高さを裏付けるものだ。

フェイスアップとライアバードの取り組みは、きわめて強力な人工知能アルゴリズムが単なるデータ分析だけでなく、コンテンツの生成にも使えることを示すほんの一例にすぎない。

強力なグラフィックスハードウェアとソフトウェア、新しいビデオキャプチャーテクノロジーもこうした傾向に拍車をかけている。昨年、スタンフォード大学の研究チームは「フェイストゥフェイス(Face2Face)」と呼ばれる顔交換プログラムを発表した。人物の表情をデプス・センシングカメラを使って追跡し、映像を加工して別の人物の表情と一致させるプログラムだ。できあがった映像はしばしば無気味なほどリアルだ。

ライアバードの開発者らが認めているように、声や表情をここまで本物そっくりに加工できるようになると、さまざまな問題が起きるかもしれない。

ライアバードのWebサイトに掲載されている倫理声明にはこう書かれている。「音声記録は現在、私たちの社会、特に多くの国の裁判で強力な証拠とみなされています。当社のテクノロジーを利用すれば音声記録を容易に改ざんできるため、証拠の効力に疑義を生じさせ、危険な結果を招く可能性があります」。

フェイスアップもライアバードも、深層生成畳み込みネットワーク(DGCN)で偽画像や偽音声を生成する。ライアバードは、ここ数年で急速に性能が向上したDGCNを使うことで単に物事を分類するために学習するばかりか、アルゴリズムそのものが、いかにももっともらしいデータを生成するためにDGCNを使おうとしている。

現在の人工知能における多くのタスクと同じように、偽画像や偽音声の生成には巨大で深いニューラル・ネットワークを使う。ニューラル・ネットワークは訓練データをインプットし、新たなインプットに期待どおりに対応できるように微調整される。たとえば、画像に映っている顔や物体を驚くべき精度で認識できるように訓練できるのだ。

画像を認識ができるようになったら、ニューラル・ネットワークは訓練されたデータセットを取り込んで独自データを生成できるようにする。

ニューラル・ネットワークを訓練していけば、ゼロから画像を生成し、ほぼ本物のように見えるレベルにまで高められるはずだ。将来は同じ手法を利用して、映像を今よりずっと簡単に改ざんできる可能性もある。「ある時点で、ニューラル・ネットワークを使って映像作品全体を生成できるようになるでしょう」とライアバードの共同創業者アレクサンドル・ドゥ・ブレビソンは言う。「人工的に映像を生成するには、画像だけではなくコマごとのつながり、発声と口や顔面の筋肉の動き、光や影の付き方など、さまざまな変動要素を高次元データとして処理する必要がある一方で、現在実用化されているモデルは不完全なため、実現には相当なブレークスルーが求められます」。

こうした新たに生まれつつあるテクノロジーを考えると、これからは偽の映像や音声を見破る能力がますます重要になるかもしれない。

ドイツのフリードリヒ・アレクサンダー大学の博士課程で学ぶ学生で、フェイストゥフェイスの研究チームの一員であるユストゥス・ティースは、映像の改ざんを検出するプロジェクトを開始したという。「中間結果を見る限り、成功の見込みはあります」。