ビデオ: TestpassportのCCA 500問題集を利用して、受験の技能を把握できます 2024
データ処理システムのサイジングは、 Hadoopでは、リレーショナルデータベースと同じ情報を考慮します。最も重要なことは、データの量を把握し、予想される成長率を見積もり、保持ポリシーを設定する必要があることです
<! - 1 - >
データの量を決定した後で、電話会社を持っていて、コールディテールレコード(CDR)ログファイル用に750TBのストレージスペースが必要であることを確認したとします。<!レプリケーション:
HDFSのデータのデフォルトの複製係数は3です。この例のテレコム企業の500テラバイトのCDRデータは1500テラバイトに変わります。
スワップ領域:-
MapReduceによるデータの分析または処理には、中間結果セットおよび最終結果セットを格納するために、さらに25%のスペースが必要です。 (現在、通信会社は1875テラバイトの記憶容量が必要です。) <! - 3 - >
-
圧縮: 電気通信会社はCDRを圧縮形式で格納します。平均圧縮率は3:1になると予想されます。現在、625テラバイトが必要です。
スレーブノードの数: -
各スレーブノードにHDFS専用の3TBドライブが12個あると仮定すると、各スレーブノードには36テラバイトのHDFSストレージがあり、18個のスレーブノードが必要です。 ラック数:
-
各スレーブノードは2RUを使用しており、この例では3つのマスタノード(1RU)と2つのToRスイッチ(1RU)が必要なため、合計41RUが必要です。標準ラックの総容量より1RU少ないため、この配置には1ラックで十分です。 このクラスターの成長には余裕がないので、2番目のラック(および2台のToRスイッチ)を購入し、2つのラック間でスレーブノードを分割することは賢明です。
-
テスト: 本番クラスタの小規模な表現であるテストクラスタを維持することは、標準的な方法です。巨大である必要はありませんが、Hadoopの動作を正確に表現できるように、少なくとも5つのデータノードが必要です。テスト環境と同様に、本番クラスタとは異なるネットワーク上で隔離されている必要があります。
バックアップと災害復旧:
-
他の運用システムと同様に、通信会社もバックアップと災害復旧の要件を考慮する必要があります。この会社は、ミラークラスタを作成してシステム全体のホットスタンバイを確保することができます。これは明らかに最も高価なオプションですが、一定の稼働時間が重要な環境に適しています。 テレコム企業は、スペクトルの最も安価な端で(データをまったくバックアップしない)、生産クラスタに格納されているすべてのデータ(データそのもの、アプリケーション、構成ファイル、メタデータなど)を定期的にバックアップできますテープに。テープを使用すると、データにすぐにアクセスすることはできませんが、運用中のHadoopクラスタ全体で障害が発生した場合の惨事復旧作業が可能になります。
-
お使いのパーソナルコンピュータと同様に、メインのハードディスクドライブが空き容量でいっぱいになると、システムはかなり遅くなります。 Hadoopも例外ではありません。また、ハードドライブのパフォーマンスが85〜90%未満であると、パフォーマンスが向上します。この情報を念頭に置いて、パフォーマンスが重要な場合は、スワップスペースの係数を25〜33%にする必要があります。