Langley のサイバーノーガード日記 情報漏えいの損害賠償額をどう推定するか(2)
特定非営利活動法人日本ネットワークセキュリティ協会による「2008年情報セキュリティインシデントに関する調査報告書」が発表された。筆者は同報告書の昨年版についても分析記事を寄稿したが、2008年度版も目を通してみた。前回は平均値の計算方法について考えたが、
特集
特集
2008年情報セキュリティインシデントに関する調査報告書
http://www.jnsa.org/result/2008/surv/incident/
個人情報漏えいの損害賠償は恐い?
https://www.netsecurity.ne.jp/7_12464.html
●たった2件のインシデントが想定損害賠償総額の半分を占める
この報告書によると2008年の想定損害賠償総額は、2,367億2,529万円となっている。巻末に「2 2008年個人情報漏えいによる想定損害賠償額(表B)」という表がついているので、その内訳を確認できる。
筆者がこの表を確認したところ、上位2件で想定損害賠償総額のほぼ半分(約1,100億円)を占めることがわかった。1,373件のうちのたった2件である。おいおい、もし、これが普通の統計調査だったら、異常値として対象外にしてもおかしくないんじゃないか、という突っ込みをしたくなる。
・No.435 2008/4/25金融・保険業
被害人数:254,677人
一件あたりの想定損害賠償額:3,438,139.5万円
・No.824 2008/8/6卸売・小売業
被害人数:653,424人
一件あたりの想定損害賠償額:7,645,060.8万円
それだけではない。想定損害賠償総額ほど極端ではないが、漏えい人数においても同様の傾向が見られる。漏えい人数全体では723万2,763人だが、漏えい人数の上位十件のインシデントで全体の半分以上を占めている。
もちろん、だいたいにおいて上位が全体のかなりの部分を占めるのは普通のことである。しかし、想定損害賠償総額では上位0.1%でほぼ半分を占めるとか、漏えい人数では上位0.7%で全体の半分以上とかいうのは、あきらかに偏りすぎだろう。これに関しても前回同様、意図的な間違いを犯しているように思える。普通は、異常値で外すだろう。
漏えい人数千人未満のインシデントは全体の約80%、一件あたりの想定損害賠償額で千万円未満が75%を占めている。これらの数値が、上位0.1%、上位0.7%を含んだために、そちらに引っ張られて消えてしまっている。
一部の異常値に引っ張られて、全体の傾向が歪められるというのは、典型的な調査の失敗もしくは、意図的に結果を導いている場合によく見られることである。
●一般的な統計の話
この報告書では、「統計」という言葉を使っているので、作った方々はこれを統計資料と考えているふしがある。そこで一般的に、このように偏りが大きく、サンプルが毎年度異なるようなものをどのように統計処理すればよいのか考えてみた。
・普通に計算する
平均値の平均値を使うのは、一般的ではなく、全体の傾向を表す数字としては、適切とは言い難い。従って、平均値は普通に計算すべきだろう。おそらく、その結果として想定損害賠償総額は、ひどく低い金額になるだろうが、恣意的に結果を歪めるよりはよいであろう。そのような結果を、堂々と「統計」などと言って発表する団体を誰も信用しないだろう。
・異常値の排除
最も一般的なのは、異常値を排除することであろう。上下の異常値を切る!
そうすれば、現在のような偏りのある結果にはならないだろう。これはとても基本的であたり前のことのはずである。
・偏りの影響を受けにくい統計数値を使う
偏りの大きなサンプルが含まれる場合、平均値は代表値として不適当である。これは一人あたりとか、一件あたりとかの数値も同じである。そのような場合、用いられる数値は中央値である。
●中央値を用いた場合
偏りの少ない値として、中央値を用いた場合、この報告書の1件損害賠償金額で考えてみよう。2つのインシデントがあって、片方は賠償対象者1名で金額は100万円、したがって賠償総額も100万円。もう一方は、賠償対象者が100名で1件辺り1万円、損害賠償金額は100万円となる、というケースである。
この場合の中央値は、だいたい1万円(中央値の計算方法は複数あるので、だいたいと表記している)となる。なにしろ、1件あたりの損害賠償金額が一万円のサンプルは、全体の99%なのであるから、その代表値が1万円というのは説得力がある。平均値の1.98万円だと、そんな金額はどこにもない。50.5万円に至っては、どっかネジがゆるんでいるとしか思えない。
平均値そのものの値のサンプルがないことは多い、存在しない数値を出しながらも平均値が代表値として通用するのは、多くのサンプルがそれに近い値をとっているからである。50.5万円などという数値に近いサンプルはない。代表値として使える範囲を逸脱している。こういうことを考えると中央値が、代表値として優れものであることがわかるであろう。
偏りに影響を受けにくい代表値としては、他にもいろいろある…(次回につづく)
【執筆:Prisoner Langley】
【関連記事】
Langley のサイバーノーガード日記 情報漏えいの損害賠償額をどう推定するか(1)
https://www.netsecurity.ne.jp/7_13743.html
【関連リンク】
セキュリティコラムばかり書いているLANGLEYのブログ
http://netsecurity.blog77.fc2.com/
《ScanNetSecurity》