目次:
- 大規模データの探索段階
- ビッグデータ分析と運用データの関係を成文化するには、データを統合する必要があります。
- 非構造化データとストリーミングデータの新しい世界への移行は、従来のデータ統合の概念を変えます。ストリーミングデータの分析をビジネスプロセスに組み込む場合は、リアルタイムで意思決定を行うのに十分速い高度なテクノロジーが必要です。
ビデオ: Getting started with Firebase Analytics, BigQuery - Firecasts 2024
あなたの大規模なデータプロジェクトで扱っているデータの種類を取り上げます。新しいデータを活用することで、多くの組織は、過去に内部的に生成された多くのデータが最大限に活用されていないことを認識しています。
組織は、新しいツールを活用することで、電子メール、顧客サービス記録、センサーデータ、セキュリティログなどの未構造データの未利用の情報源から新たな洞察を得ています。さらに、ソーシャルメディア、携帯電話の位置、交通状況、天気など、主に組織の外部にあるデータの分析に基づいて、新しい洞察を求めることに多くの関心が寄せられています。
大規模データの探索段階
分析の初期段階では、データ内のパターンを検索する必要があります。非常に大量のデータを調べるだけで、要素間の新しい予期しない関係や相関関係が明らかになることがあります。これらのパターンは、例えば、新製品の顧客の好みについての洞察を提供することができる。これらのパターンを探すために大きなデータを整理するためのプラットフォームが必要です。
<! - 2 - >Hadoopは、ビッグデータをキャプチャして処理するための基盤となるビルディングブロックとして広く使用されています。 Hadoopは、大きなデータの処理を高速化し、比較的短時間で膨大なデータのパターンを識別できるように設計されています。 Hadoop - Hadoop分散ファイルシステム(HDFS)とMapReduceの2つの主要なコンポーネントは、大きなデータの管理と処理に使用されます。
<!大規模データ統合のためのFlumeNG大量のストリーミングデータを収集、集約、移動して、大きなデータの隠れパターンを検索する必要があることがよくあります。 ETLなどの従来の統合ツールでは、リアルタイムの不正検出などの分析結果を提供するために、大量のデータ・ストリームを時間通りに移動するには十分に高速ではありません。 FlumeNGは、データをHadoopにストリーミングすることにより、リアルタイムでデータをロードします。通常、Flumeは、分散サーバーから大量のログデータを収集するために使用されます。 Flumeインストールの物理ノードと論理ノードをすべて追跡します。エージェントノードはサーバーにインストールされ、データの単一のストリームが開始点から宛先点に転送および処理される方法を管理します。
さらに、コレクタは、データストリームをHadoopファイルシステムまたは他の大きなデータストレージコンテナに書き込むことができるより大きなストリームにグループ化するために使用されます。 Flumeはスケーラビリティのために設計されており、効率的な方法で大量のデータを処理するために、システムに継続的にリソースを追加することができます。Flumeの出力をHadoopおよびHiveと統合して、データの分析を行うことができます。
Flumeには、データに使用する変換要素もあり、Hadoopインフラストラクチャを非構造化データのストリーミングソースに変えることができます。
ビッグデータのパターン
ビッグデータ分析から競争優位性を実現し始めた企業の多くの例があります。多くの企業にとって、ソーシャルメディアのデータストリームはますますデジタルマーケティング戦略の不可欠な要素になっています。探索段階では、この技術を使用して膨大なストリーミングデータをすばやく検索し、特定の製品や顧客に関連する傾向パターンを引き出すことができます。
大規模データのコード化段階
数百の店舗と数千のお客様が、パターン識別から新しい製品選択の実施、よりターゲットを絞ったマーケティングへの飛躍を繰り返すプロセスが必要です。大きなデータ分析で興味深いものを見つけたら、それをコード化してビジネスプロセスの一部にする。
ビッグデータ分析と運用データの関係を成文化するには、データを統合する必要があります。
ビッグデータ統合と組み込み段階
ビッグデータは、データ統合を含むデータ管理の多くの側面に大きな影響を与えています。従来、データ統合は、メッセージの受け渡しに関する仕様やアプリケーションプログラミングインターフェイス(API)の要件など、ミドルウェアによるデータの移動に重点を置いていました。これらのデータ統合の概念は、動いているデータではなく、安静時のデータを管理するのに適しています。
非構造化データとストリーミングデータの新しい世界への移行は、従来のデータ統合の概念を変えます。ストリーミングデータの分析をビジネスプロセスに組み込む場合は、リアルタイムで意思決定を行うのに十分速い高度なテクノロジーが必要です。
大規模なデータ分析が完了したら、ビッグデータ分析の結果をビジネスプロセスとリアルタイムのビジネスアクションに統合または統合できるアプローチが必要です。
企業は、大規模なデータ分析から実際のビジネス価値を得ることに対する高い期待を持っています。実際、多くの企業では、技術的な限界のためにこれまで可能ではなかったセキュリティログデータなど、内部で生成された大きなデータの詳細な解析を開始したいと考えています。大規模で高速なデータを高速に転送するための技術は、分散型の大規模なデータソース間および大規模なデータと運用データ間の統合の要件です。非構造化データソースは、共有およびコラボレーションのために、広範囲の地理的距離にわたって素早く移動する必要があります。
従来のソースを大きなデータと関連付けることは、大きなデータソースをストリーミングしてすべてのデータを見て、関連するパターンを特定した後は、多段階のプロセスです。管理と分析が必要なデータ量を絞り込んだら、統合について考える必要があります。