CrowdStrike Blog：SHAPを使用してCrowdStrikeが機械学習モデルを強化する方法

　CrowdStrikeでは、新しいマルウェアファミリーを検知し、顧客を安全に保つための主要なツールとして機械学習を採用しています。当社では、数千もの機能を持つ勾配ブースティングツリーを使用して、ファイルサンプルがマルウェアなのかクリーンなのかを分類しています。このモデルは高精度な予測を実現しますが、複雑であるために、このモデルがどのように予測を行うかを理解することは困難です。

　CrowdStrikeは、シャープレイ値の理論を実装するPythonパッケージであるSHAPを使用して、機械学習テクノロジーを強化し、CrowdStrike Falconプラットフォームの脅威検知能力を高めています。以下にこのアプローチの仕組みとSHAPを使用する利点を説明します。

価値理論への全体的なアプローチ

　SHAPは、ある特徴量の値が各サンプルの平均予測をどの程度変化させるかを定量化する全体的な方法です。CrowdStrikeにおけるマルウェア検知のコンテキストでは、サンプルの特徴量のシャープレイ値により次のことが示されます。

・特徴量がファイルを「cleaner」（青）とするか、「dirtier」（赤）とするかは、SHAP値の記号（‐はclean、+はdirty）によって決定される

・寄与の程度（値の大きさで表す）

　各特徴量のシャープレイ値を加算して、サンプルがしきい値のどちら側にあるか（cleanか、dirtyか）を確認します。この方法によって、個々のファイルを調べて、予測値をどちらかの側に動かすdirtyおよびcleanの影響力を判断できます（図1）。

図1：Forceプロットで示すシャープレイ値の関係。各特徴量がモデル予測にどのように寄与するかを表す。
特徴量エンジニアリングを助けるSHAP

　SHAPツールを内部プロジェクトに利用する方法は数多くあります。たとえば、社内チームは、特徴量エンジニアリングにSHAPがどのように役立つかを調査しています。私たちは、あらゆる種類のマルウェアに、多層の防御機能をもって対抗したいと考えています。防御層の1つは、あるマルウェアファミリーが発生したときに、当社のセキュリティアナリストの専門知識を活用して、特定の特徴量を作成することです。特徴量の候補を作成したら、それらがマルウェアファミリーの本質を捉えていることを確認することになります。

　新しい特徴量候補を使ってモデルの学習を行ったら、SHAPを使用して、それらの新しい特徴量がそのマルウェアファミリーのものと分かっているファイルのサブセットにどの程度の影響があるかを調べることができます。それにより、特徴量を作成するエンジニアは、それらの特徴量が有効であるか否かをただちに把握できます。

図2：SHAPライブラリから計算されたシャープレイ値を使用して行った
ファイルサブセットの予測に寄与している上位の特徴量の棒グラフ
　図2の左側のグラフは、「AutoIt」ファミリーのファイルのランダムな集合体に寄与する上位の特徴量を示しています。左側のグラフには、特徴量AutoITが2つ確認できます。これは、右側のサンプルのランダムなサブセットのサマリープロットとは対称的です。こちらでは、checksum featureが最も重要な特徴量であり、特定のグループ/ファミリー（DotNet、AutoItなど）に対応する特徴量はありません。

　これは、サブセット分析の目的を明らかにするものです。サブセットのサマリープロットを分析することにより、特徴量の候補の有効性を確認できます。また、それらのサンプルの分類において、他のどの特徴量が重要であるかを判断できます。

　それにより、新しい特徴量が有効であることが再確認されます。反対に、寄与していない特徴量を削除することも可能です。それにより、学習プロセスが高速化され、モデルをより迅速に更新できます。モデルの更新プロセスを効率化し、特徴量エンジニアリングプロセスに対する実用的な知見を得ることが、最新のマルウェアを検知・防御するうえでの鍵となります。知見が増えて更新サイクルが加速されることにより、新しい保護機能をより迅速にお客様に提供できるようになります。

SHAPが重要な知見を提供

　SHAPを使用すると、モデルがどのように最終決定に至ったかに関する知見をより多く得ることができます。あるファイルの任意の特徴量に注目するのではなく（この場合は、一般化が行われない）、そのモデルが直感的で堅牢な特徴量を使用して予測を行っているという確信が得られます。また、一般化は、機械学習をマルウェアの検知と防御のための強力なツールにするうえで重要です。CrowdStrikeのデータサイエンスチームが、オープンソースツールと、当社のクラウドソーシングによる膨大なデータストリームおよびソースとを組み合わせ、機械学習の力を駆使してどのように顧客を保護しているかを、SHAPが的確に表します。

追加のリソース：

・CrowdStrikeのチーフサイエンティストSven Krasserによる機械学習に関する記事をご一読ください。“Machine Learning in Cybersecurity: The First Line of Defense Against Modern Threats.”

・詳細については、CrowdStrike FalconプラットフォームのWebページをご参照ください。

・CrowdStrikeの次世代型AVをお試しください。Falcon Preventの無料トライアル版をすぐに試してみましょう。

＊原文はCrowdStrike Blog サイト掲載：https://www.crowdstrike.com/blog/how-crowdstrike-enhances-machine-learning-with-shap/