ダークウェブの違法サイト検出、データセット「DDIR」とは? | ScanNetSecurity
2026.06.04(木)

ダークウェブの違法サイト検出、データセット「DDIR」とは?

ダークウェブ中の違法サイト検知にはDDIR(Darkweb Dataset for Investigators and Researchers)というデータセットがある。DDIRは、NTTデータでExective Security Analystを務める新井悠氏が開発・公開した。

研修・セミナー・カンファレンス セミナー・イベント
NTTデータ アナリスト 新井悠氏
NTTデータ アナリスト 新井悠氏 全 4 枚 拡大写真
 参加費無料でオンライン開催となった今年の CODE BLUE 2020。今回は昨年の CODE BLUE 2019 の取材から、忘れられない印象を残したセッションを蔵出しでお届けしたい。まず、株式会社NTTデータで Executive Security Analyst を務める新井悠氏が開発・公開したとあるデータセットに関する講演の要旨をかいつまんでお伝えする。


●収集したダークネット情報の AI による分析

 近年の企業防衛において、OSINT や Threat Intelligence が欠かせないものになってきている。受け身の防御から、ダークウェブなどへの積極的な情報収集により、攻撃者の先手を打つ守りというスタイルだ。

 しかし、ダークウェブの探索といっても話はそう簡単ではない。ダークウェブの定義は「サーフェスウェブではインデックスされておらず、Torブラウザなど特定の方法でしかアクセスできないウェブ空間」とされている。「ダークウェブ=犯罪・サイバー攻撃のウェブ」というわけではない。機械的にクローリングしているだけでは、どれが危険な情報なのか、対応すべき情報なのかの判断は難しい。

 集めた情報から、自社の防御について有用な情報を抽出し、実際の対策に役立てなければならないのだが、そこで活躍するのがAIだ。 Threat Intelligence を展開するセキュリティベンダーの多くが、脅威情報の抽出のために機械学習・深層学習を応用している。

 セキュリティ研究者の中にも深層学習を利用して、シグネチャに頼らないマルウェア検出、ダークウェブのチャットログから、特定企業に対する攻撃予測などに役立てている人もすくなくない。Python と Tenserflow で、(実行可能)ファイルがマルウェアかどうかを判定する AI を開発するといった研究もなされている。

 ソリューションベンダーの製品にしろ、個人の研究者にしろ、このような AI を開発するときにもっとも重要なのがデータだ。機械学習・深層学習では、 AI が「学習」して賢くなるという表現が使われるため、誤解している人も少なくないが、ここでいう学習とは、人間が正しいデータを用意しておいて、それを処理させる作業であり、製品が、実際のマルウェアの検知作業をしながら自動的に賢くなっているわけではない。

《中尾 真二( Shinji Nakao )》

関連記事

この記事の写真

/

特集

PageTop

アクセスランキング

  1. NTTセキュリティ・ジャパンの Mythos 解説ほか

    NTTセキュリティ・ジャパンの Mythos 解説ほか

  2. 「復旧は被害資産を戻すのではなく新しく構築」東山産業 ランサムウェア攻撃被害

    「復旧は被害資産を戻すのではなく新しく構築」東山産業 ランサムウェア攻撃被害

  3. 穴吹ハウジングサービスへのランサムウェア攻撃、外部に漏えいした可能性のある個人情報は 207,773 件であることを最終確認

    穴吹ハウジングサービスへのランサムウェア攻撃、外部に漏えいした可能性のある個人情報は 207,773 件であることを最終確認

  4. 2りんかんイエローハットに不正アクセス、「2りんかんアプリ」で個人情報漏えいの可能性

    2りんかんイエローハットに不正アクセス、「2りんかんアプリ」で個人情報漏えいの可能性

  5. SBOM 導入の課題整理ほか「サイバーセキュリティに関するグローバル動向四半期レポート(2025年2Q)」

    SBOM 導入の課題整理ほか「サイバーセキュリティに関するグローバル動向四半期レポート(2025年2Q)」

ランキングをもっと見る
PageTop