CrowdStrike Blog:SHAPを使用してCrowdStrikeが機械学習モデルを強化する方法 | ScanNetSecurity
2023.06.06(火)

CrowdStrike Blog:SHAPを使用してCrowdStrikeが機械学習モデルを強化する方法

SHAPを使用すると、モデルがどのように最終決定に至ったかに関する知見をより多く得ることができます。あるファイルの任意の特徴量に注目するのではなく、そのモデルが直感的で堅牢な特徴量を使用して予測を行っているという確信が得られます。

国際 海外情報
CrowdStrike Blog:SHAPを使用してCrowdStrikeが機械学習モデルを強化する方法
CrowdStrike Blog:SHAPを使用してCrowdStrikeが機械学習モデルを強化する方法 全 3 枚 拡大写真
 CrowdStrikeでは、新しいマルウェアファミリーを検知し、顧客を安全に保つための主要なツールとして機械学習を採用しています。当社では、数千もの機能を持つ勾配ブースティングツリーを使用して、ファイルサンプルがマルウェアなのかクリーンなのかを分類しています。このモデルは高精度な予測を実現しますが、複雑であるために、このモデルがどのように予測を行うかを理解することは困難です。

 CrowdStrikeは、シャープレイ値の理論を実装するPythonパッケージであるSHAPを使用して、機械学習テクノロジーを強化し、CrowdStrike Falconプラットフォームの脅威検知能力を高めています。以下にこのアプローチの仕組みとSHAPを使用する利点を説明します。

価値理論への全体的なアプローチ

 SHAPは、ある特徴量の値が各サンプルの平均予測をどの程度変化させるかを定量化する全体的な方法です。CrowdStrikeにおけるマルウェア検知のコンテキストでは、サンプルの特徴量のシャープレイ値により次のことが示されます。

・特徴量がファイルを「cleaner」(青)とするか、「dirtier」(赤)とするかは、SHAP値の記号(‐はclean、+はdirty)によって決定される

・寄与の程度(値の大きさで表す)

 各特徴量のシャープレイ値を加算して、サンプルがしきい値のどちら側にあるか(cleanか、dirtyか)を確認します。この方法によって、個々のファイルを調べて、予測値をどちらかの側に動かすdirtyおよびcleanの影響力を判断できます(図1)。

図1:Forceプロットで示すシャープレイ値の関係。各特徴量がモデル予測にどのように寄与するかを表す。
図1:Forceプロットで示すシャープレイ値の関係。各特徴量がモデル予測にどのように寄与するかを表す。

特徴量エンジニアリングを助けるSHAP

 SHAPツールを内部プロジェクトに利用する方法は数多くあります。たとえば、社内チームは、特徴量エンジニアリングにSHAPがどのように役立つかを調査しています。私たちは、あらゆる種類のマルウェアに、多層の防御機能をもって対抗したいと考えています。防御層の1つは、あるマルウェアファミリーが発生したときに、当社のセキュリティアナリストの専門知識を活用して、特定の特徴量を作成することです。特徴量の候補を作成したら、それらがマルウェアファミリーの本質を捉えていることを確認することになります。

 新しい特徴量候補を使ってモデルの学習を行ったら、SHAPを使用して、それらの新しい特徴量がそのマルウェアファミリーのものと分かっているファイルのサブセットにどの程度の影響があるかを調べることができます。それにより、特徴量を作成するエンジニアは、それらの特徴量が有効であるか否かをただちに把握できます。

図2:SHAPライブラリから計算されたシャープレイ値を使用して行ったファイルサブセットの予測に寄与している上位の特徴量の棒グラフ
図2:SHAPライブラリから計算されたシャープレイ値を使用して行った
ファイルサブセットの予測に寄与している上位の特徴量の棒グラフ

 図2の左側のグラフは、「AutoIt」ファミリーのファイルのランダムな集合体に寄与する上位の特徴量を示しています。左側のグラフには、特徴量AutoITが2つ確認できます。これは、右側のサンプルのランダムなサブセットのサマリープロットとは対称的です。こちらでは、checksum featureが最も重要な特徴量であり、特定のグループ/ファミリー(DotNet、AutoItなど)に対応する特徴量はありません。

 これは、サブセット分析の目的を明らかにするものです。サブセットのサマリープロットを分析することにより、特徴量の候補の有効性を確認できます。また、それらのサンプルの分類において、他のどの特徴量が重要であるかを判断できます。

 それにより、新しい特徴量が有効であることが再確認されます。反対に、寄与していない特徴量を削除することも可能です。それにより、学習プロセスが高速化され、モデルをより迅速に更新できます。モデルの更新プロセスを効率化し、特徴量エンジニアリングプロセスに対する実用的な知見を得ることが、最新のマルウェアを検知・防御するうえでの鍵となります。知見が増えて更新サイクルが加速されることにより、新しい保護機能をより迅速にお客様に提供できるようになります。

SHAPが重要な知見を提供

 SHAPを使用すると、モデルがどのように最終決定に至ったかに関する知見をより多く得ることができます。あるファイルの任意の特徴量に注目するのではなく(この場合は、一般化が行われない)、そのモデルが直感的で堅牢な特徴量を使用して予測を行っているという確信が得られます。また、一般化は、機械学習をマルウェアの検知と防御のための強力なツールにするうえで重要です。CrowdStrikeのデータサイエンスチームが、オープンソースツールと、当社のクラウドソーシングによる膨大なデータストリームおよびソースとを組み合わせ、機械学習の力を駆使してどのように顧客を保護しているかを、SHAPが的確に表します。

追加のリソース:

・CrowdStrikeのチーフサイエンティストSven Krasserによる機械学習に関する記事をご一読ください。“Machine Learning in Cybersecurity: The First Line of Defense Against Modern Threats.

・詳細については、CrowdStrike FalconプラットフォームのWebページをご参照ください。

・CrowdStrikeの次世代型AVをお試しください。Falcon Preventの無料トライアル版をすぐに試してみましょう。

*原文はCrowdStrike Blog サイト掲載 :https://www.crowdstrike.com/blog/how-crowdstrike-enhances-machine-learning-with-shap/

《Cynthia Lai (CrowdStrike)》

関連記事

この記事の写真

/

特集

PageTop

アクセスランキング

  1. トヨタ自動車でのクラウド誤設定による情報漏えい、調査結果を公表

    トヨタ自動車でのクラウド誤設定による情報漏えい、調査結果を公表

  2. エーザイグループのクラウドへ不正アクセス、約 11,000 件の取引先関係者情報が漏えいした可能性

    エーザイグループのクラウドへ不正アクセス、約 11,000 件の取引先関係者情報が漏えいした可能性

  3. 非エンジニアの文系ライターが挑んだSecuriST(セキュリスト)認定ネットワーク脆弱性診断士受験記 [前編] もしもう一度ゼロからやり直せるなら

    非エンジニアの文系ライターが挑んだSecuriST(セキュリスト)認定ネットワーク脆弱性診断士受験記 [前編] もしもう一度ゼロからやり直せるならPR

  4. ランサムウェア身代金支払率、日本は国際トレンドに逆行 ~ プルーフポイント年次レポート

    ランサムウェア身代金支払率、日本は国際トレンドに逆行 ~ プルーフポイント年次レポート

  5. アバントグループ子会社に不正アクセス、「開示 Net」「総務 Net」をはじめとするサービスの提供を停止

    アバントグループ子会社に不正アクセス、「開示 Net」「総務 Net」をはじめとするサービスの提供を停止

  6. 日本コンクリート工業にランサムウェア攻撃、現時点でデータ漏えいの痕跡は発見されず

    日本コンクリート工業にランサムウェア攻撃、現時点でデータ漏えいの痕跡は発見されず

  7. ランサムウェア身代金 払い続けた世界の末路 ~ ウィズセキュアが犯罪のプロ化警鐘

    ランサムウェア身代金 払い続けた世界の末路 ~ ウィズセキュアが犯罪のプロ化警鐘

  8. ネスコグループのサーバへ不正アクセス、不正な外部への送信は確認されず

    ネスコグループのサーバへ不正アクセス、不正な外部への送信は確認されず

  9. 厚生労働省のサーバを経由し約10万件の迷惑メールを送信

    厚生労働省のサーバを経由し約10万件の迷惑メールを送信

  10. 中間者攻撃や盗聴など ~ ネットカフェ「自遊空間」のクーポンアプリにサーバ証明書検証不備の脆弱性

    中間者攻撃や盗聴など ~ ネットカフェ「自遊空間」のクーポンアプリにサーバ証明書検証不備の脆弱性

ランキングをもっと見る