目次:
- 大規模なデータハードウェア/ネットワークトポロジーアプリケーションとは無関係に、最高速のハードウェアとネットワークは、ソフトウェアの実行時間を最も短縮する可能性があります。 MapReduceの明確な利点は、コモディティハードウェアと標準ネットワークの安価なクラスタ上で実行できることです。サーバーが物理的に組織化されている場所に注意を払わないと、大きなデータタスクをサポートするのに必要な最高のパフォーマンスと高度なフォールトトレランスが得られません。
- 削減出力はファイルシステムに直接書き込まれるため、最適な結果が得られるように設計および調整する必要があります。
- MapReduceの実装は、マスターノードがすべてのメタデータ、アクセス権、ファイルとブロックのマッピングと場所などを格納するマスター/スレーブスタイルの配布に依存しています。スレーブは、実際のデータが格納されるノードです。すべての要求はマスターに送られ、適切なスレーブノードによって処理されます。
ビデオ: Technology Stacks - Computer Science for Business Leaders 2016 2024
大きなデータプロジェクトのMapReduceで実際のアプリケーションコードを最適化する以外に、信頼性と性能を向上させる最適化技術。ハードウェア/ネットワークトポロジ、同期、ファイルシステムの3つのカテゴリに分類されます。
大規模なデータハードウェア/ネットワークトポロジーアプリケーションとは無関係に、最高速のハードウェアとネットワークは、ソフトウェアの実行時間を最も短縮する可能性があります。 MapReduceの明確な利点は、コモディティハードウェアと標準ネットワークの安価なクラスタ上で実行できることです。サーバーが物理的に組織化されている場所に注意を払わないと、大きなデータタスクをサポートするのに必要な最高のパフォーマンスと高度なフォールトトレランスが得られません。
<! - 1 - >
商品ハードウェアは、しばしばデータセンターのラックに保管されます。ラック内のハードウェアの近接性は、データやコードをラック間で移動するのではなく、パフォーマンス上の利点をもたらします。実装時に、この近接性を認識して活用するようにMapReduceエンジンを設定することができます。データとコードをまとめて保存することは、MapReduceのパフォーマンスを最適化する最適な方法の1つです。本質的に、ハードウェア処理要素が互いに近ければ近いほど、処理するレイテンシは少なくなります。
<!大きなデータ同期
ノード内でのマッピングのすべての結果を保持することは非効率であるため、同期メカニズムは完了した直後にマッピング結果を還元ノードにコピーするので、すぐに処理を開始できます。同じキーのすべての値が同じレデューサーに送信され、高いパフォーマンスと効率性が保証されます。削減出力はファイルシステムに直接書き込まれるため、最適な結果が得られるように設計および調整する必要があります。
大きなデータファイルシステム
MapReduce実装は分散ファイルシステムでサポートされています。ローカルファイルシステムと分散ファイルシステムの主な違いは容量です。大きなデータ世界で膨大な量の情報を処理するには、ファイルシステムをネットワーク内の複数のマシンまたはノードに分散する必要があります。MapReduceの実装は、マスターノードがすべてのメタデータ、アクセス権、ファイルとブロックのマッピングと場所などを格納するマスター/スレーブスタイルの配布に依存しています。スレーブは、実際のデータが格納されるノードです。すべての要求はマスターに送られ、適切なスレーブノードによって処理されます。
暖かく保つ:
マスターノードはすべてが始まるので、過度の作業になる可能性があります。さらに、マスタノードに障害が発生すると、マスタが復元されるまでファイルシステム全体にアクセスできなくなります。非常に重要な最適化は、オンラインマスターに問題が発生した場合にサービスに飛び込むことができる「ウォームスタンバイ」マスターノードを作成することです。
-
ファイルサイズが大きいほど: ファイルサイズも重要な考慮事項です。たくさんの小さなファイル(100MB未満)は避けるべきです。 MapReduceエンジンをサポートする分散ファイルシステムは、適度な数の大容量ファイルを使用すると最も効果的です。
-
長い視点: ワークロードはバッチで管理されるため、マッパーやレデューサーの実行時間の短縮よりも、ネットワーク帯域幅の維持が重要です。最適なアプローチは、コードが読み込み中に大量のデータを流し、ファイルシステムに書き込む時にコードを流すことです。
-
安全を保つ: しかし、あまりにもそうではありません。分散ファイルシステム上にセキュリティレイヤーを追加すると、パフォーマンスが低下します。ファイルのアクセス許可は、悪意のある行為ではなく意図しない結果を防ぐためのものです。最善の方法は、許可されたユーザーだけがデータセンター環境にアクセスできるようにし、分散ファイルシステムを外部から保護することです。
-