URLフィルタリング製品選びの基準とは　第2回

〜第2回：データベースの品質を支える収集分類作業〜

　連載の第1回では、様々なフィルタリング方式についてその概要を解説した。第2回の今回は、現在主流となっているブラックリスト方式への誤解と、同方式を支えるURLリストの収集・分類作業の実際を紹介しながら、高い品質のデータベースを搭載した製品を選ぶことの大切さについて述べていきたい。

１．ブラックリストへの誤解〜とにかく登録件数が多いことが善なのか

　前回説明した各方式のうち、ホワイトリスト方式とブラックリスト方式については、理論上100％のブロック（規制）精度が期待できる。しかしブラックリスト方式で100％のブロックを達成しようとすると、一般論として以下のようなデメリットが考えられる。

・参照するデータベースに収録するリスト件数が膨大なものになる。リストの増加にあわせてデータ容量も大きくなるため、データベースを収納するためのサーバ上のハードウェアリソース（ハードディスクや展開しておくためのメモリ）も、より大きなものが必要になっていく。データベースは定期的な更新を行なうため、ダウンロード等で占有する通信帯域も比例して肥大化していく。

・データベースの総容量が大きくなるにつれ、フィルタリングのプログラムからリストへの問合せに時間がかかるようになる。その結果、一般ユーザにとって、インターネットアクセスの際の応答速度が遅くなっていく。

・利用価値のあるウェブサイトというのはそれほど多くなく、利用頻度が高いサイトは一定の範囲内に集中している。特に検索ポータルサイト経由でのアクセスが一般化した今日ではその傾向が強まりつつあり、その入れ替わりも以前より早まっている。その結果、ブラックリストに収録されていてもその大半が、ほとんど使われない「無駄なリスト」になってしまう。

　もちろん、こうしたデメリットを少しでも解消するために、データベースの構造や圧縮について、各ベンダはしのぎを削っている。ただしその技術に大きな差は無いため、「たくさんのリストを持たせるほどブロック精度は高まるが、同時に実用上の問題点も大きくなる」という基本的な構図を覆すには至っていない。

　実際、URLフィルタリング製品の発展初期段階においては、ブラックリストデータベースへの収録件数の多さを単純に競う状況が見られたものの、こうした問題点が広く知られるにつれて、「本当に必要なリストが収録されているのか」「ハードウェアや通信帯域、ユーザのアクセス速度に対して、必要以上の負担をかけないで済むか」といった評価からの観点が一般的になりつつある。現実的に搭載できるリスト件数に一定の上限がある以上、ブロック率100％を追い求めるだけでなく、本当に必要なブロックの範囲の「見きわめ」が、データベース提供側・利用側の双方にとっての大きな課題になっていると言える。
　したがってたとえば「世界シェアナンバー1」と称する製品でも、国内の一般的な企業にとっては最適解ではないことがありうる。

　インターネット上の利用言語人口シェアで見る限り、日本語は1割にも満たず、海外のフィルタリング製品のデータベース内訳にも当然それが反映されている。一方、国内企業では、ほとんどのアクセスが日本語サイトに集中しているのが現実で、日本語のブラックリストについては、かなり詳細なものが要求される。こうした企業が海外製品を導入した場合、いわば「東京の街を歩くのに、分厚い世界地図しか持っていない」ような状況となるわけだ。
　このようなミスマッチを防ぐために、企業のフィルタリング製品選びでは、漠然と100％のブロックを追い求めるのではなく、自社のアクセス傾向とブロックしたい範囲を明確にした上での選択基準づくりが何より大切だと言えるだろう。

アルプスシステムインテグレーション株式会社
http://www.alsi.co.jp/
国産フィルタリングソフトNo1シェア*　InterSafe
http://www.alsi.co.jp/pro/intersafe/index.htm
* 2003ネットワークセキュリティビジネス調査総覧　富士キメラ
* InterSafeは、フィルタリングエンジン及び規制データベースにネットスター株式会社の技術を採用しています。

（詳しくはScan本誌をご覧ください）
http://www.vagabond.co.jp/cgi-bin/ct/p.cgi?m-sc_netsec