URL文字列に着目、機械学習でフィッシング対策

機械学習を使えば、ユーザーがフィッシング詐欺に遭わないように怪しいURLの特徴を探知できる。

問題になっているのは、ユーザーの情報を盗んだり、マルウェアをインストールさせることだけを目的としたWebサイトがインターネット上にあふれていることだ。ウイルス対策企業はそうしたサイトをできるだけ速やかにブラックリストに載せるようにしているが、日々新しいサイトが立ち上げられる状況ではいたちごっこだ。

「URLNet」と呼ばれる新しいシステムは、ニューラル・ネットワークを使ってこの問題に対処している。お察しの通り、ニューラル・ネットワークはサイトのURLを文字レベルと単語レベルで検索し、そのリスクを検知する。URLにはサイトが有害かどうかを判断するための手掛かりが含まれている。たとえば、悪意のある長さであったり、正規のサイトに似せた少しだけスペルが違うドメイン名などだ。

研究者らはURLNetを2つのデータセットで訓練した。1つは正規サイトと有害サイトのURL合わせて100万件のデータで、もう1つは500万件のデータだ。どちらの場合でも、URLNetは怪しいサイトを検知することにおいて、現行の他のシステムより優れた結果を出した。

AI is learning how to spot risky websites for you URL文字列に着目、機械学習でフィッシング対策