目次:
ビデオ: Edge Node in Hadoop Cluster | Gateway Node in Hadoop Cluster | HadoopAdmin | Cloudera Hadoop Admin 2024
エッジノードは、Hadoopクラスタと外部ネットワーク間のインタフェースです。このため、これらは ゲートウェイ ノードと呼ばれることがあります。最も一般的には、エッジノードはクライアントアプリケーションとクラスタ管理ツールを実行するために使用されます。
これらは、Hadoopクラスタに転送されるデータのステージング領域としてよく使用されます。そのため、Oozie、Pig、Sqoop、HueやAmbariなどの管理ツールがうまくいきます。図は、エッジノードで実行できるプロセスを示しています。
<! - 1 - >Hadoopハードウェアアーキテクチャの議論では、エッジノードが見落とされることがよくあります。エッジノードはHadoopクラスタで重要な役割を果たし、マスターノードやスレーブノードとは異なるハードウェア要件があるため、この状況は残念です。
マスターノードとスレーブノード上の管理ツールの配備を最小限に抑えて、NameNodeのような重要なHadoopサービスができるだけリソースの競争が少ないことを保証することは、一般的には良い考えです。
<! - 2 - >Sqoopのようなデータ転送ユーティリティをエッジノード以外に置かないでください。データ転送量が高いと、同じノード上のHadoopサービスが通信する危険性があります。 Hadoopサービスの交換はメッセージであり、待ち時間が長いということは、ノード全体がクラスタから切り離される可能性があることを意味します。
図は2つのエッジノードを示していますが、多くのHadoopクラスタでは単一のエッジノードで十分です。追加のエッジノードは、クラスタ内またはクラスタ外に転送されるデータの量が単一サーバが処理するには多すぎる場合に最も一般的に必要とされます。
<! - 3 - >推奨ストレージ
Hadoopクラスタのエッジノードの場合は、エンタープライズクラスのストレージを使用します。管理ツールと実行中のクライアントアプリケーションに焦点を当てたエッジノードの場合、RAID 1 + 0用に構成されたRAID HDDコントローラとともに、4つの900GB SASドライブを使用します。
データを取り込むためのエッジノードは、はるかに多くの記憶領域を必要とするため、エッジノードにドライブを追加することができます。この場合は、LFF SASドライブを使用してください。これは、より小型のフォームファクタSASドライブと比較して、はるかに高い容量が利用可能であるためです。
推奨プロセッサ
汎用エッジノードは、スレーブノードに使用されているのと同様のプロセッサ構成、特にIvy Bridgeプロセッサが2〜2.5GHzでクロックされたデュアルソケットサーバーでうまく機能します。
推奨メモリ
エッジノードのほとんどのワークロードでは、48GBのRAMで十分です。
推奨ネットワーク
外部ネットワークとHadoopクラスタ間の通信を可能にするには、エッジノードをHadoopクラスタのプライベートサブネットと企業ネットワークにマルチホームする必要があります。
マルチホームコンピュータは、複数のネットワークへの専用接続を持つコンピュータです。これは、エッジノードがHadoopクラスタ外の世界との相互作用に完全に適している理由の実例です。 Hadoopクラスタを独自のプライベートサブネットに保つことは優れた方法です。したがって、これらのエッジノードはクラスタ内の制御されたウィンドウとして機能します。
クライアントアプリケーションまたは管理ツールを実行するためのエッジノードの場合、1組の1GbEネットワーク接続を推奨します.1組はHadoopクラスタに接続し、もう1組は外部ネットワーク用です。
高いインバウンドおよびアウトバウンドのデータ転送速度を処理するエッジノードには、2つ(またはそれ以上)の結合10GbEネットワークコネクタが必要です.1つはHadoopクラスタに接続するペア、もう1つは外部ネットワークまたは特定のデータ取り込みソースです。