Hadoopでのデータ解析 - ダミー

ログ分析は、最初のHadoopプロジェクトの一般的な使用例です。確かに、Hadoopの初期の使用は、クリックストリームログの大規模分析のためのものでした。ログには、人々が訪問し、どの順序で訪問するかに関するデータが記録されています。

ITインフラストラクチャによって生成されるデータのすべてのログは、データ排出と呼ばれることがよくあります。ログは、機能しているサーバーの副産物であり、動作中のエンジンの排気管からの煙のようなものです。データ排出には公害や廃棄物の意味があり、多くの企業はそのような考え方を念頭に置いてこの種のデータに疑いの余地はありません。

<！ - 1 - >

ログデータはしばしば急速に増加し、大量のデータが生成されるため、分析が面倒な場合があります。そして、このデータの潜在的な価値はしばしば不明です。したがって、IT部門の誘惑は、できるだけ短い時間でこのログデータを保存することです。

しかし、Hadoopは数学を変更しています。データを保存するコストは比較的安く、Hadoopはもともとログデータの大規模バッチ処理

<！ - 2 - >

ログデータ分析ユースケースは、作業中のデータが削除されているか、または「床に落ちた」可能性が高いため、Hadoopの旅を開始するのに便利な場所です。「1週間に1テラバイト（TB）以上の顧客のWebアクティビティを一貫して記録している企業では、分析を行わずにデータを破棄しているため、収集に困った理由がわかります。

すぐに使い始めるために、このユースケースのデータは入手しやすく、他の（管理された）データでHadoopの旅を始める場合に遭遇する同じ問題を一般に網羅していません。

<！業界アナリストが、急速に増加するデータ量（2014年時点で1億4,000万台以上の1TBハードドライブ）について議論すると、ログデータがこの増加の大部分を占めています。そして、不思議ではありません。ほとんどすべての人生がデータを生成します。スマートフォンは、音声、テキスト、およびデータ転送だけでなくジオロケーションデータも追跡して、アクティブユーザーのために1日に数百のログエントリを生成することができます。

ほとんどの世帯は現在、電気使用量を記録するスマートメーターを持っています。新しい車には、その状態と使用方法の側面を記録する何千ものセンサーがあります。インターネットをブラウズ中にクリックやマウスの移動を行うと、ログエントリのカスケードが生成されます。

クレジットカードやデビットカードを使わなくても、システムはデータベースとログにアクティビティを記録します。より一般的なログデータのソースは、ITサーバー、Webクリックストリーム、センサー、トランザクションシステムなどがあります。

特定の種類のアクティビティをゼロにして、結果を他のデータセットと相関させてコンテキストを提供することができる場合は、すべての業界（今説明されているすべてのログタイプ）が貴重な分析の可能性を秘めています。

例として、この典型的なWebベースのブラウズと購入の経験を考えてみましょう。

サイトを調べて、購入するアイテムを探します。

目を引く製品の説明を読むにはクリックします。
結局、商品をショッピングカートに追加し、チェックアウト（購入行動）に進みます。
配送コストを確認した後、アイテムが価格に見合うものではないと判断し、ブラウザウィンドウを閉じます。あなたが作成したすべてのクリックは、この電子商取引サイトの背後にある会社に貴重な洞察を提供する可能性があります。

この例では、顧客がより良いサービスを提供する方法を理解する目的でクリックストリームデータ（訪問者が触れるすべてのマウスクリックおよびページビューに関するデータ）を収集すると仮定します。電子商取引ビジネスの共通の課題の1つは、放棄されたショッピングカートの主な要因を認識することです。クリックストリームのデータをより詳細に分析し、サイトのユーザー行動を調べると、パターンが出現するようになります。

あなたの会社は、一見単純な質問に対する答えを知っていますか？「特定の製品は他の製品よりも多く放棄されていますか？あるいは、カートの放棄率を10％引き下げれば、どれくらいの収入を取り戻すことができるのでしょうか？ "以下は、あなたのビジネスリーダーにあなたのHadoop原因への投資を求めるために示すことができるレポートの一例です。

表示されたグラフを作成するためのデータを生成するには、個々のユーザーのWebブラウジングセッションを分離して（

セッション化と呼ばれるプロセス）、ショッピングカートのコンテンツを特定しますセッションの終了時にトランザクションの状態を確立することができます。すべては、クリックストリームデータを調べることによって行います。以下は、すべてのクリックとURLアドレスをIPアドレスでグループ化してユーザーのWebブラウジングセッションを組み立てる方法の例です。

Hadoopのコンテキストでは、常にキーと値を操作しています.MapReduceの各フェーズでは、データがキーと値のセットで入力および出力されます。キーはIPアドレスで、値はタイムスタンプとURLで構成されます。マップフェーズでは、Hadoopクラスタに格納されているクリックストリームデータセットのすべてのファイルブロックに対して、ユーザーセッションが並行してアセンブルされます。

訪問された最終ページ