ダークウェブの違法サイト検出、データセット「DDIR」とは? | ScanNetSecurity
2026.01.23(金)

ダークウェブの違法サイト検出、データセット「DDIR」とは?

ダークウェブ中の違法サイト検知にはDDIR(Darkweb Dataset for Investigators and Researchers)というデータセットがある。DDIRは、NTTデータでExective Security Analystを務める新井悠氏が開発・公開した。

研修・セミナー・カンファレンス セミナー・イベント
NTTデータ アナリスト 新井悠氏
NTTデータ アナリスト 新井悠氏 全 4 枚 拡大写真
 参加費無料でオンライン開催となった今年の CODE BLUE 2020。今回は昨年の CODE BLUE 2019 の取材から、忘れられない印象を残したセッションを蔵出しでお届けしたい。まず、株式会社NTTデータで Executive Security Analyst を務める新井悠氏が開発・公開したとあるデータセットに関する講演の要旨をかいつまんでお伝えする。


●収集したダークネット情報の AI による分析

 近年の企業防衛において、OSINT や Threat Intelligence が欠かせないものになってきている。受け身の防御から、ダークウェブなどへの積極的な情報収集により、攻撃者の先手を打つ守りというスタイルだ。

 しかし、ダークウェブの探索といっても話はそう簡単ではない。ダークウェブの定義は「サーフェスウェブではインデックスされておらず、Torブラウザなど特定の方法でしかアクセスできないウェブ空間」とされている。「ダークウェブ=犯罪・サイバー攻撃のウェブ」というわけではない。機械的にクローリングしているだけでは、どれが危険な情報なのか、対応すべき情報なのかの判断は難しい。

 集めた情報から、自社の防御について有用な情報を抽出し、実際の対策に役立てなければならないのだが、そこで活躍するのがAIだ。 Threat Intelligence を展開するセキュリティベンダーの多くが、脅威情報の抽出のために機械学習・深層学習を応用している。

 セキュリティ研究者の中にも深層学習を利用して、シグネチャに頼らないマルウェア検出、ダークウェブのチャットログから、特定企業に対する攻撃予測などに役立てている人もすくなくない。Python と Tenserflow で、(実行可能)ファイルがマルウェアかどうかを判定する AI を開発するといった研究もなされている。

 ソリューションベンダーの製品にしろ、個人の研究者にしろ、このような AI を開発するときにもっとも重要なのがデータだ。機械学習・深層学習では、 AI が「学習」して賢くなるという表現が使われるため、誤解している人も少なくないが、ここでいう学習とは、人間が正しいデータを用意しておいて、それを処理させる作業であり、製品が、実際のマルウェアの検知作業をしながら自動的に賢くなっているわけではない。

《中尾 真二( Shinji Nakao )》

関連記事

この記事の写真

/

特集

PageTop

アクセスランキング

  1. Linux カーネルでの TLS プロトコル通信処理の不備に起因する境界外メモリアクセスの脆弱性(Scan Tech Report)

    Linux カーネルでの TLS プロトコル通信処理の不備に起因する境界外メモリアクセスの脆弱性(Scan Tech Report)

  2. 大崎市が情報公開により提供した PDF ファイルの黒塗り加工が特定の操作で除去可能

    大崎市が情報公開により提供した PDF ファイルの黒塗り加工が特定の操作で除去可能

  3. 関西総合システムにランサムウェア攻撃、クラウドサービスへの影響はなし

    関西総合システムにランサムウェア攻撃、クラウドサービスへの影響はなし

  4. 人気米Youtuberが約4億円で購入した「ポケモンカード」、包装に改ざん跡

    人気米Youtuberが約4億円で購入した「ポケモンカード」、包装に改ざん跡

  5. 社員用 VPN の認証不十分ほか ~ サイバー攻撃による情報漏えいで仏企業に 73 億円の制裁金

    社員用 VPN の認証不十分ほか ~ サイバー攻撃による情報漏えいで仏企業に 73 億円の制裁金

ランキングをもっと見る
PageTop