目次:
ビデオ: クラウド上に効率的なビッグデータ処理基盤を構築するには?~データ特性に応じたシステム設計~ | AWS Summit Tokyo 2016 2024
大規模なデータプロジェクトを検討している場合は、分散コンピューティングの基礎最初。コンピューティングリソースはさまざまな方法で分散できるため、単一の分散コンピューティングモデルはありません。
たとえば、同じ物理サーバー上に一連のプログラムを配布し、メッセージングサービスを使用して、通信して情報を渡すことができます。 1つの問題を解決するために一緒に働くことができる多くの異なるシステムまたはサーバーを、それぞれ独自のメモリーで持つことも可能です。
大きなデータに分散コンピューティングが必要な理由
すべての問題に分散コンピューティングが必要というわけではありません。大きな時間制約が存在しない場合、複雑な処理は専用のサービスを介してリモートで実行できます。企業が複雑なデータ分析を行う必要が生じた場合、ITは処理のために多くの余分なリソースが利用可能な外部サービスまたはエンティティにデータを移動します。
会社が必要な結果を得るのを待っていたわけではありませんでした。これらの新たな要件を処理するのに十分なコンピューティングリソースを購入することは、経済的に実現可能ではありませんでした。多くの場合、組織はコストのためにすべてのデータを取得するのではなく、データの選択のみを取得します。アナリストはすべてのデータを必要としましたが、適切なデータを適切なタイミングで取得するために、スナップショットを解決する必要がありました。
<! - 2 - >主要なハードウェアとソフトウェアのブレークスルーは、データ管理業界に革命をもたらしました。まず、イノベーションと需要は、ハードウェアのパワーを高め、価格を下げました。巨大なノードクラスタ全体のロードバランシングや最適化などのプロセスを自動化することで、このハードウェアを活用する方法を理解した新しいソフトウェアが登場しました。
ソフトウェアには、特定のワークロードに一定のパフォーマンスレベルが必要であることを理解している組み込みルールが含まれていました。ソフトウェアは、すべてのノードを単にコンピューティング、ストレージ、およびネットワーキング資産の大きなプールのように扱い、ノードが故障した場合でも仮想化技術を使用してプロセスを別のノードに移動しました。
<! - 3 - >コンピューティングと大規模データの経済性の変化
早送りと多くの変更がありました。過去数年間で、コンピューティングとストレージのリソースを購入するコストは劇的に減少しました。仮想化の助けを借りて、クラスタ化されたコモディティ・サーバーとラック内でネットワーク化されたブレードがコンピューティングの経済性を変えました。この変更は、これらのシステムの管理性を劇的に改善したソフトウェア自動化ソリューションの革新と一致していました。分散コンピューティングと並列処理技術を活用する能力は、景観を劇的に変え、レイテンシを劇的に減少させます。高頻度取引(HFT)などの特殊なケースがあります。これは、単一の場所にサーバーを物理的に配置することによってのみ低遅延を実現することができます。
ビッグデータのレイテンシの問題
データ管理の永続的な問題の1つ、特に大量のデータがレイテンシの影響を受けています。
待ち時間 は、タスクの実行の遅延に基づくシステム内の遅延です。遅延は、通信、データ管理、システムパフォーマンスなど、コンピューティングのあらゆる面で問題となります。 あなたが無線電話を使ったことがあるなら、あなたは直接待ち時間を経験しました。それはあなたとあなたの発信者との間の送信の遅れです。企業が新製品のリリースを計画するために舞台裏で結果を分析する必要がある場合など、待ち時間は顧客満足度にほとんど影響しません。おそらく、即時の応答やアクセスは必要ありません。
しかし、意思決定時に回答が顧客に近いほど、待ち時間は重要です。分散コンピューティングと並列処理技術は、顧客、サプライヤ、およびパートナーが経験するレイテンシに大きな違いをもたらす可能性があります。多くのビッグデータアプリケーションは、速度とデータの量と種類に大きなデータ要件があるため、レイテンシが低いことに依存しています。高性能が必要な場合、高レイテンシ環境で大きなデータアプリケーションを構築することは不可能かもしれない。ほぼリアルタイムでデータを検証する必要性は、レイテンシの影響を受ける可能性もあります。リアルタイムデータを処理する場合、高いレイテンシは成功と失敗の違いを意味します。
巨大なデータ需要が解決策を導く
コマースから医薬品まですべてのプラットフォームのインターネットの成長は、次世代のデータ管理の需要を変えました。 1990年代後半には、Google、Yahoo! 、およびAmazon。コンピューティングとストレージのための安価なハードウェアを活用してビジネスモデルを拡張することができました。
次に、これらの企業は、顧客から獲得した膨大な量のデータを収益化するための新しい世代のソフトウェア技術が必要でした。これらの企業は、分析処理の結果を待つことができませんでした。彼らは、このデータをほぼリアルタイムで処理し分析する能力が必要でした。