統計分析はブロック上の新しい子供ではなく、新しい洞察を得るために大量のデータを処理することに依存することは、確かに古いニュースです。しかし、これらのシステムで従来処理されていたデータ量は、今日のテラバイトまたはペタバイトの範囲ではなく、10〜100(または数百)ギガバイトの範囲にあります。
そして、分析されるデータを保持するためにできるだけ多くのメモリを持つ高価な 対称型マルチプロセッシング(SMP)マシンが必要になることがよくありました。これは、分析アプローチで使用されているアルゴリズムの多くが非常に「計算集中型」で、メモリ内で実行されるように設計されているためです。 <!高価なハードウェアに直面し、時間とRAMの点でかなりのコミットメントに直面している人々は、データのサンプリングだけを分析することで分析ワークロードをより合理的にしようとしました。データの山々をデータウェアハウスに安全に保管し、統計的に重要なデータのサンプルをリポジトリから統計エンジンに移動するだけです。
サンプリングは理論的には良いアイデアですが、実際にはこれはしばしば信頼できない戦術です。統計的に重要なサンプリングを見つけることは、まれなデータセットや歪んだデータセットでは非常に困難です。これは、アウトライアーと異常データポイントを導入する可能性のあるサンプリングの判定が不十分になり、分析の結果に偏りが生じます。