多くのストリーミングアルゴリズムの中心はブルームフィルタです。ほぼ50年前にBurton H. Bloomによって作成されました。コンピュータサイエンスがまだまだ若い時期に、このアルゴリズムの作成者の元の意図は、スペース(メモリ)や時間(複雑さ)を 許容誤差。 彼の原著論文は、 許容誤差を伴うハッシュコード化における空間/時間トレードオフ と題されている。
<! - 1 - >Bloomが自分のアルゴリズムで動機付けを考慮する空間と時間について疑問に思うかもしれません。すでに説明したデータ構造を使用して、要素がストリームにすでに出現しているかどうかを判断する必要があるとします。ストリーム内で何かを見つけることは、録音と検索が高速であることを意味します。したがって、ハッシュテーブルは理想的な選択肢です。 ハッシュテーブル は、記録したい要素を追加するだけです。ハッシュテーブルは、要素自体ではなく要素を表現するために簡単に操作された値を使用するため、ハッシュテーブルから要素を復元するのは高速です(非常に複雑かもしれません)。しかし、両方の要素とその要素へのインデックスを格納することには限界があります。ハッシュテーブルが、連続して潜在的に無限のストリーム内の要素など、処理できる以上の要素に面していると、ある時点でメモリの問題が発生することになります。
<! - 2 - >ブルームフィルタの基本的な考慮事項は、誤検出が発生する可能性がありますが、偽陰性は不可能です。たとえば、データストリームに発電所のリアルタイム監視データが含まれている場合があります。ブルームフィルタを使用する場合、データストリームの分析では、予想される読み値が許可された読み取り値の一部である可能性があり、一部のエラーは許可されていることが示されます。しかし、システムにエラーが発生した場合、同じ分析では、読み取り値が許可された読み取り値の一部ではないことが示されます。偽陽性は問題を起こす可能性は低いですが、偽陰性がないことは誰もが安全であることを意味します。偽陽性の可能性があるため、Bloomフィルターなどのフィルターは確率的なデータ構造です。特定の答えを提供するのではなく、可能性のあるものを提供します。
<!ハッシュテーブルの個々のエントリは、書籍のインデックスのように動作するため、高速です。ハッシュ関数を使用してハッシュを生成します。入力は複合データを含む要素であり、出力はその要素のインデックスとして機能する単純な数値です。ハッシュ関数は、特定のデータ入力をフィードするたびに同じ数を生成するため、決定論的です。ハッシュを使用して、必要な複雑な情報を探します。 Bloomフィルタは、ハッシュテーブルのようにそれらを保存せずに多くの要素の痕跡を記録する倹約的な方法であるため、有用です。それらは簡単な方法で動作し、以下を主な要素として使用します:ビットベクトル:
- 要素の各ビットが0または1の値を持つことができるビット要素のリスト。リストは長いmと呼ばれるビット数。 mが大きければ大きいほど、そのサイズを最適に定義する方法はありますが、より良い方法です。 一連のハッシュ関数:
- 各ハッシュ関数は異なる値を表します。ハッシュ関数は、データを迅速にクランクし、一様に分散した結果を生成することができ、結果はハッシュの最小出力値から最大出力値まで等しくなる。