人工知能は、機密文書を正しく分類できるか？

機械学習は、機密区分の指定ミスの傾向を明らかにできるかもしれない。 by Emerging Technology from the arXiv2016.11.15

米国国務省は毎年約2億通もの電子メールを生成する。大部分の電子メールは機微な、あるいは実際に秘密の情報を含んでおり、本来は機密区分を指定されなければならない。指定を厳格に運用するのは時間と費用がかかる。国務省は2015年だけで、機密指定の情報を守るために160億ドルを費やしている。

しかし、機密指定の信頼性ははっきりしない。情報を機密指定するための手続きに一貫性があり、信頼できる方法で運用されているかどうか、誰も知らないのだ。実は、何をもって情報を機密指定するべきかには、議論の余地が大いにある。

さらに、機密指定でミスを起こすのはほとんどの場合は人間だ。しかし、指定ミスがどの程度重大な事態を起こすのかは誰にもわからない。

11月15日、この問題はリオ・デ・ジャネイロ（ブラジル）のシンクタンク、ジェトゥリオ・ヴァルガス財団（FGV）のレナート・ロシャ・ソウザ研究員とコロンビア大学（ニューヨーク）との研究チームのおかげで状況が変わった。研究チームは、機会学習アルゴリズムによって、1970年代からの100万通以上の国務省の電信を研究したのだ。

研究チームによってもたらされたのは、人間がどのように規則を適用し、どの程度の頻度で機微な情報を公開してしまったり、無害な情報を隠したりしてしまう問題が起きるのかといった、政府の秘密の性質に関する前例のない洞察だ。また、アルゴリズムは電信が紛失する疑わしいパターンも明らかにした。

研究チームはまず、米国国立公文書館からXML形式で100万通の電信をダウンロードした。電信は、米国国務省と大使館や領事館など、国外の外交使節間で交わされた文書だ。

電信は「機密（secret）」から「秘密（confidential）」、「政府機関限定（limited official use）」、「一般（unclassified）」までラベル付けされている。「機密情報」は国家安全保障に深刻な損害を与えうる情報、「秘密情報」は損害を与えうるが重大ではないものと定義されている。「政府機関限定」は1 …

こちらは有料会員限定の記事です。 有料会員になると制限なしにご利用いただけます。

有料会員にはメリットがいっぱい！

毎月120本以上更新されるオリジナル記事で、人工知能から遺伝子療法まで、先端テクノロジーの最新動向がわかる。
オリジナル記事をテーマ別に再構成したPDFファイル「eムック」を毎月配信。
重要テーマが押さえられる。
各分野のキーパーソンを招いたトークイベント、関連セミナーに優待価格でご招待。

人気の記事ランキング