ダミー用ビッグデータチートシート - ダミー

Judith Hurwitz、Alan Nugent、Fern Halper、Marcia Kaufman

企業は競争力を維持するために大きなデータを処理する実用的な方法を見つけなければなりません。顧客、製品、サービスに関する情報を提供します。構造化および非構造化の方法でデータがますます複雑になりつつあります。新しいデータソースはセンサなどのマシンからのものです。ソーシャルビジネスサイト。クリックストリームデータなどのウェブサイトのやりとりが含まれます。変化するビジネス要件を満たすためには、適切な情報が適切なタイミングで利用可能であることが求められます。

<！大規模データの定義：ボリューム、速度、およびバラエティ大規模なデータを使用すると、大量の異種データを適切な速度で適切なタイミングで保存、管理、操作できます。適切な洞察を得るために、大きなデータは通常、

ボリューム：

データ量

速度： データ処理速度
バラエティ： データの種類
<！大きなデータを3つのVに単純化すると便利ですが、それは誤解を招きすぎて過度に単純化する可能性があります。たとえば、比較的少量の複雑なデータを管理している場合や、大量の非常に単純なデータを処理している場合があります。その単純なデータは、すべて構造化されていても、すべて非構造化されていてもよい。さらに重要なのは、第4のV、
真実である。

そのデータはビジネス価値を予測するのにどれだけ正確ですか？大きなデータ分析の結果は実際には意味がありますか？正確性と文脈の両方に基づいてデータを検証できる必要があります。革新的なビジネスは、膨大な量のデータをリアルタイムで分析して、その顧客の価値とその顧客に追加のオファーを提供する可能性を迅速に評価できるようにすることが必要な場合があります。ビジネス成果に影響を与えるためにリアルタイムで分析できる適切な金額とデータの種類を特定する必要があります。

<！ - 3 - > ビッグデータには、電子メール、ソーシャルメディア、テキストストリームなどの構造化データや非構造化データを含む、あらゆる種類のデータが組み込まれています。この種のデータ管理では、企業は構造化データと非構造化データの両方を活用する必要があります。非構造化データの理解

構造化されていないデータは構造が予測できないという点で構造化データとは異なります。非構造化データの例には、文書、電子メール、ブログ、デジタル画像、ビデオ、および衛星画像が含まれます。また、機械やセンサーによって生成されるデータも含まれます。実際に、非構造化データは、企業や社外にあるTwitterやFacebookなどのプライベートおよびパブリック・ソースのデータの大半を占めています。

これまで、大部分の企業はこの膨大な量のデータをキャプチャまたは格納することができませんでした。それは単に高すぎたり、あまりにも圧倒的だった。たとえ企業がデータを取得することができたとしても、データを簡単に分析して結果を使用して意思決定を行うツールはありませんでした。これら膨大な量のデータを理解できるツールはごくわずかです。存在していたツールは、使用するのが複雑であり、妥当な時間枠で結果を出さなかった。

結局のところ、このデータを分析するために多大な努力をしたがっている人は、データのスナップショットを作成することを余儀なくされました。これは、特定のスナップショットにないため、重要なイベントを逃すという望ましくない影響を与えます。

非構造化データからビジネス価値を得る方法としてますます評価されつつあるアプローチの1つは、

テキスト分析、

非構造化テキストの分析、関連情報の抽出、および構造化情報への変換様々な方法で活用される。分析および抽出プロセスは、計算言語学、統計、および他のコンピュータサイエンス分野で生まれた技術を利用しています。

ビッグデータ環境での従来の運用データの役割格納されているデータとストアされている場所を知ることは、大規模データ実装の重要な構成要素です。実装の中核にはRDBMSを使用することはほとんどありませんが、RDBMSに格納されたデータに頼って、大きなデータを使ってビジネスに最高の価値を生み出す必要があります。ほとんどの大企業および中小企業は、大部分の重要な運用情報を、リレーショナルデータベース管理システム（RDBMS）に格納することがあります。これらは、1つまたは複数の関係で構築され、表で表されます。これらのテーブルは、データの格納方法によって定義されます。データはテーブルと呼ばれるデータベースオブジェクトに格納されます。テーブルは行と列で構成されています。 RDBMSは、データが格納され検索される方法において一貫したアプローチに従います。非構造化データのリアルタイム分析から最大のビジネス価値を得るためには、顧客、製品、トランザクション、およびオペレーションに関する履歴データとの関連でそのデータを理解する必要があります。つまり、非構造化データを従来の運用データと統合する必要があります。

ビッグデータインフラストラクチャの基礎

ビッグデータは高速性、大容量性、幅広いデータの多様性を対象としているため、物理インフラストラクチャは文字通り実装を「成立または中断」します。ほとんどのビッグデータ実装は高可用性を必要とするため、ネットワーク、サーバー、および物理ストレージは復元性と冗長性を備えている必要があります。

弾力性と冗長性は相互に関係している。インフラストラクチャーまたはシステムは、十分な冗長リソースが実行に移される準備ができている場合に、障害または変更に対して復元力があります。復元力は、インフラストラクチャの単一障害点を排除するのに役立ちます。たとえば、ビジネスとインターネットの間にネットワーク接続が1つしかない場合、ネットワークの冗長性はなく、インフラストラクチャはネットワークの停止に対して回復力がありません。

ビジネス継続性要件を備えた大規模なデータセンターでは、大部分の冗長性が確保されており、大きなデータ環境を構築するために活用することができます。新しい実装では、設計者はコストとパフォーマンスに基づいてビジネスのニーズにデプロイメントをマッピングする責任があります。

Hadoopでの大規模データの管理：HDFSとMapReduce

Hadoopはオープンソースのソフトウェアフレームワークで、HDFS（Hadoop Distributed File System）とMapReduceを使用して、商品ハードウェアのクラスタ上の大きなデータを分析します。分散コンピューティング環境。

Hadoop分散ファイルシステム（HDFS）は、企業が大量のデータを簡単かつ実用的な方法でより簡単に管理できるように開発されました。 Hadoopを使用すると、大きな問題を小さな要素に分解できるため、分析を迅速かつコスト効率良く行うことができます。 HDFSは、大規模なデータ環境でファイルを管理するための、多機能で復元力のあるクラスター化されたアプローチです。

HDFSはファイルの最終的な場所ではありません。むしろ、それは、データ量および速度が高いときに必要とされる独自の能力セットを提供するデータ「サービス」である。

MapReduceは、開発者が膨大な量の構造化されていないデータを分散したプロセッサグループにわたって並列に処理できるプログラムを記述できるソフトウェアフレームワークです。 MapReduceはバッチモードで大量のデータに対する一連の関数を効率的に実行する方法としてGoogleによって設計されました。

「マップ」コンポーネントは、プログラミング上の問題を多数のシステムに分散し、負荷のバランスをとって障害からの復旧を管理する方法でタスクの配置を処理します。分散計算が完了した後、「reduce」と呼ばれる別の関数はすべての要素を集約して結果を返します。 MapReduceを使用する例は、書籍のページ数を50種類の言語ごとに何ページ作成するかを決定することです。

大規模なデータ戦略のための基礎づけ

企業は大きなデータで泳いでいます。問題は、未来を予測したり、重要なビジネスプロセスを実行したり、単に新しい洞察を得るために、そのデータを実際にどのように使用するかをしばしば知らないということです。大きなデータ戦略と計画の目標は、より予測可能なビジネス成果のためにデータを活用する実用的な方法を見つけることです。

発見プロセスに着手することで、大きなデータ戦略を開始します。あなたは、すでに持っているデータ、その場所、所有者と管理者、そして現在どのように使用されているかを把握する必要があります。たとえば、会社が依存しているサードパーティのデータソースは何ですか？このプロセスでは、多くの洞察を得ることができます。

存在するデータソースの数と重複の程度を判断できます。