CrowdStrike Blog:SHAPを使用してCrowdStrikeが機械学習モデルを強化する方法 | ScanNetSecurity
2024.03.19(火)

CrowdStrike Blog:SHAPを使用してCrowdStrikeが機械学習モデルを強化する方法

SHAPを使用すると、モデルがどのように最終決定に至ったかに関する知見をより多く得ることができます。あるファイルの任意の特徴量に注目するのではなく、そのモデルが直感的で堅牢な特徴量を使用して予測を行っているという確信が得られます。

国際 海外情報
CrowdStrike Blog:SHAPを使用してCrowdStrikeが機械学習モデルを強化する方法
CrowdStrike Blog:SHAPを使用してCrowdStrikeが機械学習モデルを強化する方法 全 3 枚 拡大写真
 CrowdStrikeでは、新しいマルウェアファミリーを検知し、顧客を安全に保つための主要なツールとして機械学習を採用しています。当社では、数千もの機能を持つ勾配ブースティングツリーを使用して、ファイルサンプルがマルウェアなのかクリーンなのかを分類しています。このモデルは高精度な予測を実現しますが、複雑であるために、このモデルがどのように予測を行うかを理解することは困難です。

 CrowdStrikeは、シャープレイ値の理論を実装するPythonパッケージであるSHAPを使用して、機械学習テクノロジーを強化し、CrowdStrike Falconプラットフォームの脅威検知能力を高めています。以下にこのアプローチの仕組みとSHAPを使用する利点を説明します。

価値理論への全体的なアプローチ

 SHAPは、ある特徴量の値が各サンプルの平均予測をどの程度変化させるかを定量化する全体的な方法です。CrowdStrikeにおけるマルウェア検知のコンテキストでは、サンプルの特徴量のシャープレイ値により次のことが示されます。

・特徴量がファイルを「cleaner」(青)とするか、「dirtier」(赤)とするかは、SHAP値の記号(‐はclean、+はdirty)によって決定される

・寄与の程度(値の大きさで表す)

 各特徴量のシャープレイ値を加算して、サンプルがしきい値のどちら側にあるか(cleanか、dirtyか)を確認します。この方法によって、個々のファイルを調べて、予測値をどちらかの側に動かすdirtyおよびcleanの影響力を判断できます(図1)。

図1:Forceプロットで示すシャープレイ値の関係。各特徴量がモデル予測にどのように寄与するかを表す。
図1:Forceプロットで示すシャープレイ値の関係。各特徴量がモデル予測にどのように寄与するかを表す。

特徴量エンジニアリングを助けるSHAP

 SHAPツールを内部プロジェクトに利用する方法は数多くあります。たとえば、社内チームは、特徴量エンジニアリングにSHAPがどのように役立つかを調査しています。私たちは、あらゆる種類のマルウェアに、多層の防御機能をもって対抗したいと考えています。防御層の1つは、あるマルウェアファミリーが発生したときに、当社のセキュリティアナリストの専門知識を活用して、特定の特徴量を作成することです。特徴量の候補を作成したら、それらがマルウェアファミリーの本質を捉えていることを確認することになります。

 新しい特徴量候補を使ってモデルの学習を行ったら、SHAPを使用して、それらの新しい特徴量がそのマルウェアファミリーのものと分かっているファイルのサブセットにどの程度の影響があるかを調べることができます。それにより、特徴量を作成するエンジニアは、それらの特徴量が有効であるか否かをただちに把握できます。

図2:SHAPライブラリから計算されたシャープレイ値を使用して行ったファイルサブセットの予測に寄与している上位の特徴量の棒グラフ
図2:SHAPライブラリから計算されたシャープレイ値を使用して行った
ファイルサブセットの予測に寄与している上位の特徴量の棒グラフ

 図2の左側のグラフは、「AutoIt」ファミリーのファイルのランダムな集合体に寄与する上位の特徴量を示しています。左側のグラフには、特徴量AutoITが2つ確認できます。これは、右側のサンプルのランダムなサブセットのサマリープロットとは対称的です。こちらでは、checksum featureが最も重要な特徴量であり、特定のグループ/ファミリー(DotNet、AutoItなど)に対応する特徴量はありません。

 これは、サブセット分析の目的を明らかにするものです。サブセットのサマリープロットを分析することにより、特徴量の候補の有効性を確認できます。また、それらのサンプルの分類において、他のどの特徴量が重要であるかを判断できます。

 それにより、新しい特徴量が有効であることが再確認されます。反対に、寄与していない特徴量を削除することも可能です。それにより、学習プロセスが高速化され、モデルをより迅速に更新できます。モデルの更新プロセスを効率化し、特徴量エンジニアリングプロセスに対する実用的な知見を得ることが、最新のマルウェアを検知・防御するうえでの鍵となります。知見が増えて更新サイクルが加速されることにより、新しい保護機能をより迅速にお客様に提供できるようになります。

SHAPが重要な知見を提供

 SHAPを使用すると、モデルがどのように最終決定に至ったかに関する知見をより多く得ることができます。あるファイルの任意の特徴量に注目するのではなく(この場合は、一般化が行われない)、そのモデルが直感的で堅牢な特徴量を使用して予測を行っているという確信が得られます。また、一般化は、機械学習をマルウェアの検知と防御のための強力なツールにするうえで重要です。CrowdStrikeのデータサイエンスチームが、オープンソースツールと、当社のクラウドソーシングによる膨大なデータストリームおよびソースとを組み合わせ、機械学習の力を駆使してどのように顧客を保護しているかを、SHAPが的確に表します。

追加のリソース:

・CrowdStrikeのチーフサイエンティストSven Krasserによる機械学習に関する記事をご一読ください。“Machine Learning in Cybersecurity: The First Line of Defense Against Modern Threats.

・詳細については、CrowdStrike FalconプラットフォームのWebページをご参照ください。

・CrowdStrikeの次世代型AVをお試しください。Falcon Preventの無料トライアル版をすぐに試してみましょう。

*原文はCrowdStrike Blog サイト掲載 :https://www.crowdstrike.com/blog/how-crowdstrike-enhances-machine-learning-with-shap/

《Cynthia Lai (CrowdStrike)》

関連記事

この記事の写真

/

特集

PageTop

アクセスランキング

  1. テレビ新潟放送網にサイバー攻撃、データが暗号化被害

    テレビ新潟放送網にサイバー攻撃、データが暗号化被害

  2. サイバー攻撃 はじまりはいつも OSINT ~ 日本ハッカー協会 杉浦氏講演

    サイバー攻撃 はじまりはいつも OSINT ~ 日本ハッカー協会 杉浦氏講演

  3. 善意目的でスパム46万通、慈善団体が当局からお目玉

    善意目的でスパム46万通、慈善団体が当局からお目玉

  4. マルウェアが OpenAI の認証情報窃取、約 68 万 8,000 件をダークウェブ等で発見

    マルウェアが OpenAI の認証情報窃取、約 68 万 8,000 件をダークウェブ等で発見

  5. 理研計器の開発センターで放射性同位元素が所在不明に

    理研計器の開発センターで放射性同位元素が所在不明に

  6. 経済産業省 サイバーセキュリティ課 職員を名乗る自動音声電話に注意を呼びかけ

    経済産業省 サイバーセキュリティ課 職員を名乗る自動音声電話に注意を呼びかけ

  7. 愛知陸運にランサムウェア攻撃、不審な電話やメールに注意呼びかけ

    愛知陸運にランサムウェア攻撃、不審な電話やメールに注意呼びかけ

  8. NRIセキュア「企業における情報セキュリティ実態調査 2023」公表、日本の生成 AI 導入済企業 18.0%

    NRIセキュア「企業における情報セキュリティ実態調査 2023」公表、日本の生成 AI 導入済企業 18.0%

  9. 経済産業省「攻撃技術情報の取扱い・活用手引き」と「秘密保持契約に盛り込むべき攻撃技術情報等の取扱いに関するモデル条文」を策定

    経済産業省「攻撃技術情報の取扱い・活用手引き」と「秘密保持契約に盛り込むべき攻撃技術情報等の取扱いに関するモデル条文」を策定

  10. NEC、陸自「多国間サイバー防護競技会(Cyber KONGO 2024)」を支援

    NEC、陸自「多国間サイバー防護競技会(Cyber KONGO 2024)」を支援

ランキングをもっと見る