ビデオ: Hadoop Tutorial For Beginners | Hadoop Ecosystem Explained in 20 min! - Frank Kane 2024
理由人々がHadoopで統計分析を実行する前にデータをサンプリングするということは、この種の分析ではしばしばかなりのコンピューティングリソースが必要になることです。これはデータ量だけではなく、統計分析の規模に影響を与える5つの主な要因があります。
-
これは簡単ですが、言及する必要があります。分析を実行するデータの量によって、分析の規模
<! - 1 - > -
統計モデルを適用する前にデータセットに必要な変換の数は間違いなく1つの要因です。
-
計算に必要なペアごとの相関の数が重要です。適用される統計的計算の複雑さの程度は1つの要因である。
-
データセットに適用される統計モデルの数は重要な役割を果たします。
-
<! Hadoopは、Hadoopのデータを大量に並列処理するためのプラットフォームを提供することで、このジレンマから抜け出す方法を提供します。
そうすることで、分析データフローを反転することができます。リポジトリからアナリティックスサーバにデータを移動するのではなく、Hadoopはアナリティクスを直接データに提供します。より具体的には、HDFSを使用すると、データの山を保存し、計算を(MapReduceタスクの形式で)スレーブノードに持ち込むことができます。
<!従来の対称型マルチプロセッシング統計システム(SMP)からHadoopアーキテクチャに移行することによってもたらされる共通の課題は、データの局所性です。従来のSMPプラットフォームでは、複数のプロセッサが単一のメインメモリリソースへのアクセスを共有します。
Hadoopでは、HDFSは複数のノードとマシン間でデータのパーティションを複製します。また、メモリ内のデータを処理するために設計された統計アルゴリズムは、複数のノード/ラックにわたるデータセットに適応しなければならず、単一のメモリブロックに収まることは期待できませんでした。