目次:
ビデオ: AWS re:Invent 2018 - Monday Night Live with Peter DeSantis 2024
ビッグデータスタックの最下位レベルには、物理インフラストラクチャがあります。すでにデータセンターを所有しているか、物理インフラストラクチャに投資している可能性があるので、既存の資産を使用する方法を探したいと思っています。
ビッグデータの実装は、参照アーキテクチャのすべての要素に対して非常に特殊な要件があります。そのため、レイヤー単位でこれらの要件を調べて、お客様のビジネスの要求に応じて実装が実行されるようにする必要があります。
<! -パフォーマンス:
-
システムの応答性はどの程度必要ですか? とも呼ばれるパフォーマンスは、単一のトランザクションまたはクエリ要求に基づいて、エンドツーエンドで測定されることがよくあります。 可用性: サービスの稼働時間を100%保証する必要がありますか?サービスの中断や障害が発生した場合、ビジネスはどのくらい待つことができますか?
-
<! - 2 - > スケーラビリティ:
インフラストラクチャはどれくらい大きくする必要がありますか?今日と将来どのくらいのディスク容量が必要ですか?どのくらいのコンピューティングパワーが必要ですか?通常は、必要なものを決定し、予期せぬチャレンジのためにもう少しスケールを追加する必要があります。 -
柔軟性: インフラストラクチャーにどれだけのリソースを追加できますか?インフラストラクチャーは、障害からどのくらい早く回復できますか?
-
<! - 3 - > 費用:
あなたは何を買うことができますか?インフラストラクチャは一連のコンポーネントなので、「最良の」ネットワーキングを購入してストレージに節約することができます。全体的な予算の中でこれらの分野の要件を確立し、必要に応じてトレードオフを行う必要があります。 -
大きなデータはすべて高速、大容量、および高データのバラエティであるため、物理インフラストラクチャは文字通り実装を「成立または中断」します。ほとんどのビッグデータ実装は高可用性が必要なため、ネットワーク、サーバー、および物理ストレージは、復元力と冗長性の両方を備えている必要があります。弾力性と冗長性は相互に関連しています。 インフラストラクチャーまたはシステムは、十分な冗長リソースが配置され、アクションに移行する準備が整ったときの障害または変更に対して復元力があります。冗長性は、そのような誤動作が停止を引き起こさないことを保証する。復元力は、インフラストラクチャの単一障害点を排除するのに役立ちます。
ビジネス継続性要件を備えた大規模なデータセンターでは、大部分の冗長性が確保されており、大きなデータ環境を構築するために活用することができます。新しい実装では、設計者はコストとパフォーマンスに基づいてビジネスのニーズにデプロイメントをマッピングする責任があります。
これは、技術的および運用上の複雑さが、パフォーマンス、可用性、復旧などのための特定の条件を持つ一連のサービスの背後に隠れていることを意味します。これらの用語はSLA(サービスレベルアグリーメント)で記述され、通常はサービスプロバイダと顧客の間で交渉され、違反に対する罰則が課されます。
事実上、仮想データセンターが作成されます。このアプローチでも、利用可能なサービスの中から最適なものを選択できるように、大規模なデータ展開を構築して実行するために必要なものを把握しておく必要があります。 SLAを持っているにもかかわらず、あなたの組織はパフォーマンスの最終的な責任を持っています。
物理的な冗長ビッグデータネットワーク
ネットワークは冗長化されており、ビジネスで経験する「通常の」ネットワークトラフィックに加えて、予想されるインバウンドおよびアウトバウンドデータの量と速度に対応できるだけの容量が必要です。大きなデータをコンピューティング戦略の不可欠な部分にするようになると、音量と速度が向上することが期待されます。
インフラストラクチャ設計者は、これらの予想される増加を計画し、物理的な実装を作成しようとする必要があります。 「ネットワークトラフィックが落ち込んで流れていく中で、実装に関連する一連の物理的資産もそうである。インフラストラクチャでは監視機能が提供され、作業負荷の変化に対処するために多くのリソースが必要になった場合にオペレーターが対応できるようにする必要があります。同様に、ハードウェア(ストレージおよびサーバー)アセットは、すべての予想されるビッグデータ機能を処理するのに十分なスピードと容量を備えていなければなりません。サーバーがボトルネックになる可能性が高いため、サーバーの速度が遅い高速ネットワークを使用することはほとんどありません。ただし、非常に高速なストレージおよびコンピューティングサーバーのセットは、さまざまなネットワークパフォーマンスを克服できます。もちろん、ネットワークのパフォーマンスが低いか信頼できない場合は、適切に動作するものはありません。
ビッグデータインフラストラクチャの運用
インフラストラクチャ運用管理も重要な設計上の考慮事項です。パフォーマンスと柔軟性の最大レベルは、十分に管理された環境にのみ存在します。データセンターの管理者は、データの完全性、および拡張されたビジネスプロセスが維持されるように、壊滅的な障害を予測し防止する必要があります。 IT組織はしばしば見落とし、したがってこの分野では過小投資をしています。