MIT Tech Review: 東大が「敵対的攻撃」からAIを守る手法で新知見、「幅」が重要

フラッシュ2023年12月6日

人工知能（AI）
東大が「敵対的攻撃」からAIを守る手法で新知見、「幅」が重要
by MITテクノロジーレビューイベント事務局 [MIT Technology Review Event Producer]

東京大学の研究チームは、新たな数理モデルを用いて、「敵対的攻撃」から人工知能（AI）を守る防御手法である「敵対的訓練」の特性を解明。安全なAIを実現するためには、ニューラル・ネットワークの「幅」構造を広くすることが重要であることがわかった。

敵対的攻撃とは、学習済みのAIモデルにわざと誤った認識を引き起こさせるように悪意を持って作られたデータを用いた攻撃のことである。敵対的攻撃に対しても正しい認識ができるようにAIを訓練することを「敵対的訓練」と呼ぶ。今後、AIが社会で広く使われるようになるにつれて、敵対的訓練はますます重要度が増すと考えられている。

研究チームは今回、ニューラル・ネットワーク上で実行される敵対的訓練を、「平均場理論」を用いて数学的に解析した。平均場理論は、ニューラルネットワークの各パラメーターがある法則に従うという仮定の下で構築される理論体系であり、どのような場合にAIが訓練可能になるのか、どうすると高い性能が得られるようになるかといった様々な特性を明らかにできる。ただし、従来の平均場理論のままではネットワークのごく狭い範囲しか見通すことができず、敵対的訓練の解析には用いられなかった。

同チームはまず、この制限を無くした新たな平均場理論を構築。ニューラル・ネットワーク全体の情報伝達を簡単な式で表現し、敵対的訓練によるニューラル・ネットワークの変化を解析できるようにした。

次にこの理論を用いて、敵対的訓練のさまざまな特性を評価。その結果、敵対的攻撃への耐性を獲得するには、ニューラル・ネットワーク層を直列につなぐ「深さ」ではなく、一つひとつのニューラル・ネットワーク層における入力の並列数、すなわち「幅」を大きくすることが重要であるという知見を得た。同チームによると、この特性は多くのニューラルネットワークに成り立つものであり、この解析手法が幅広く適用できる可能性があるという。

研究成果は、2023年12月10日から16日に米国で開催される、機械学習に関するトップカンファレンス「神経情報処理システムに関する会議（NeurIPS：Conference on Neural Information Processing Systems）」で発表される。

（中條）
人気の記事ランキング