コンピューティング

Machine-Learning Algorithm Can Show Whether State Secrets Are Properly Classified 人工知能は、機密文書を正しく分類できるか?

機械学習は、機密区分の指定ミスの傾向を明らかにできるかもしれない。 by Emerging Technology from the arXiv2016.11.15

米国国務省は毎年約2億通もの電子メールを生成する。大部分の電子メールは機微な、あるいは実際に秘密の情報を含んでおり、本来は機密区分を指定されなければならない。指定を厳格に運用するのは時間と費用がかかる。国務省は2015年だけで、機密指定の情報を守るために160億ドルを費やしている。

しかし、機密指定の信頼性ははっきりしない。情報を機密指定するための手続きに一貫性があり、信頼できる方法で運用されているかどうか、誰も知らないのだ。実は、何をもって情報を機密指定するべきかには、議論の余地が大いにある。

さらに、機密指定でミスを起こすのはほとんどの場合は人間だ。しかし、指定ミスがどの程度重大な事態を起こすのかは誰にもわからない。

11月15日、この問題はリオ・デ・ジャネイロ(ブラジル)のシンクタンク、ジェトゥリオ・ヴァルガス財団(FGV)のレナート・ロシャ・ソウザ研究員とコロンビア大学(ニューヨーク)との研究チームのおかげで状況が変わった。研究チームは、機会学習アルゴリズムによって、1970年代からの100万通以上の国務省の電信を研究したのだ。

研究チームによってもたらされたのは、人間がどのように規則を適用し、どの程度の頻度で機微な情報を公開してしまったり、無害な情報を隠したりしてしまう問題が起きるのかといった、政府の秘密の性質に関する前例のない洞察だ。また、アルゴリズムは電信が紛失する疑わしいパターンも明らかにした。

研究チームはまず、米国国立公文書館からXML形式で100万通の電信をダウンロードした。電信は、米国国務省と大使館や領事館など、国外の外交使節間で交わされた文書だ。

電信は「機密(secret)」から「秘密(confidential)」、「政府機関限定(limited official use)」、「一般(unclassified)」までラベル付けされている。「機密情報」は国家安全保障に深刻な損害を与えうる情報、「秘密情報」は損害を与えうるが重大ではないものと定義されている。「政府機関限定」は1970年代には定義されておらず、 …

こちらは会員限定の記事です。
無料登録すると1カ月10本までご利用いただけます。
こちらは有料会員限定の記事です。
有料会員になると制限なしにご利用いただけます。