ビデオ: クラウド上に効率的なビッグデータ処理基盤を構築するには?~データ特性に応じたシステム設計~ | AWS Summit Tokyo 2016 2024
時には、大きなデータに近づくと、企業は膨大な量のデータに直面し、次にどこへ行くのかほとんど考えられません。データストリーミングを入力してください。洞察を得るために大量のデータをほぼリアルタイムで素早く処理する必要がある場合、ストリーミングデータの形式で動いているデータが最善の答えです。
安心して でないデータは何ですか?これは、アクティブなトランザクションを管理しているため、永続性が必要なシステムになります。このような場合、データは運用データストアに保存されます。ただし、他の状況では、これらのトランザクションは実行されており、データウェアハウスまたはデータマートでそのデータを分析する必要があります。 <! --1 - >
これは情報がリアルタイムではなくバッチ処理されていることを意味します。組織が未来を計画しているときは、顧客が購入している情報とその理由から、多くのデータを分析できる必要があります。変化の先行指標を理解することが重要です。言い換えれば、将来どのような製品やサービスが組織に提供するのか、どのような変化が影響を与えますか?<! - 2 - >
多くの研究機関がこの種のビッグデータ分析を使用して新薬を発見しています。保険会社は、広い地域の交通事故のパターンを天気の統計と比較したい場合があります。このような場合、この情報をリアルタイムで管理する利点はありません。明らかに、分析は迅速かつ実用的でなければならない。さらに、組織はデータを分析して、新しいパターンが出現するかどうかを確認します。<! - 3 - >
ストリーミング・データは、スピードに焦点を当てた分析コンピューティング・プラットフォームです。これは、これらのアプリケーションでは、処理されることが多い非構造化データの連続ストリームが必要となるためです。したがって、データはディスクに格納される前に、メモリ内で継続的に分析および変換されます。データのストリームを処理することは、サーバーのクラスタ全体のメモリ内のデータの「時間窓」を処理することによって機能します。これは、Hadoopを活用してデータを管理するときのアプローチと似ています。主な違いは速度の問題です。 Hadoopクラスタでは、データはバッチモードで収集され、処理されます。データストリーミングよりもHadoopの方が重要です。ストリームを使用することが最も適切であることを定義するいくつかの重要な原則があります。
ソーシャルメディアまたは許可ベースのメッセージングを介して、エンゲージメントポイントでの小売買収の機会を判断する必要があるとき
-
安全なサイト
-
サービスの停止や患者の病状の変化などの即時対応が必要なイベントに対応できるようにする
-
使用量や使用量などの変数に依存するリアルタイムのコスト計算利用可能なリソース
-
ストリーミングデータは、データが動いている間にリアルタイムで分析を行う必要がある場合に便利です。実際、分析の価値(しばしばデータ)は時間とともに減少します。たとえば、すぐに分析して行動できない場合、販売機会が失われたり、脅威が検出されなくなる可能性があります。
以下は、これがどのように役立つかを説明するのに役立ついくつかの例です。
発電所は、許可されていない個人が顧客への電力供給を妨げないように、非常に安全な環境である必要があります。企業はしばしば、移動を検出するためにセンサをサイトの周囲に配置します。しかし、問題が存在する可能性があります。サイト周辺を駆け抜けているウサギと、迅速かつ意図的に運転している車には大きな違いがあります。したがって、実際の脅威が存在する場合にのみアラームが鳴るように、これらのセンサーからの膨大なデータをリアルタイムで分析する必要があります。高度に競争の激しい市場の電気通信会社は、停電が慎重に監視されるようにして、検出されたサービスレベルの低下を適切なグループにエスカレートさせることを望んでいます。通信システムは、大量のデータを生成し、適切な処置をとるためにリアルタイムで分析する必要があります。エラーの検出が遅れると、顧客満足度に重大な影響を与える可能性があります。言うまでもなく、企業はリアルタイムで処理および分析が必要な多くのデータを処理しています。したがって、このレベルの応答性をサポートする物理的環境は非常に重要です。ストリーミングデータ環境では、通常、クラスタ化されたハードウェアソリューションが必要となるため、分析を処理するには大規模な並列処理アプローチが必要になることがあります。
ストリーミングデータ分析に関する重要な要素の1つは、それがシングルパス分析であるという事実である。つまり、アナリストはストリーミング後にデータを再分析することはできません。これは、データの欠如を探しているアプリケーションでは一般的です。
いくつかのパスが必要な場合、データを追加の分析を実行できる何らかの倉庫に入れなければなりません。例えば、文脈を確立することがしばしば必要である。このストリーミングデータは履歴データとどのように比較されますか?この相関関係は、何が変わったのか、その変化があなたのビジネスにとって何を意味しているのかを多く知ることができます。