大規模データ用のマイニング - ダミー

ビデオ: You Bet Your Life: Secret Word - Book / Dress / Tree 2025

データマイニングでは、大量のデータを探索して分析し、大きなデータのパターンを見つけることが必要です。技術は、統計や人工知能（AI）の分野から出てきました。データベース管理の一部は、ミックスに投入されました。

一般に、データマイニングの目的は、分類または予測のいずれかです。分類では、データをグループに分類することが考えられます。たとえば、マーケティング担当者は、回答したユーザーの特性と販促に応答しなかったユーザーの特性に関心を持つ可能性があります。

<！ - 1 - >

これは2つのクラスです。予測では、連続変数の値を予測することが考えられます。例えば、マーケティング担当者は、プロモーションに応答する人を予測することに関心があるかもしれない。分類木： 1つまたは複数の予測変数の測定値に基づいて従属カテゴリ変数を分類するために使用される一般的なデータマイニング手法。結果は、ノードと、if-thenルールを形成するために読むことができるノード間のリンクとを有するツリーである。

<！ - 2 - >

ロジスティック回帰： 標準回帰の変形であるが分類を扱う概念を拡張する統計的手法。それは、独立変数の関数として発生の確率を予測する式を生成する。
ニューラルネットワーク：
動物の脳の並列構造の後にモデル化されたソフトウェアアルゴリズム。ネットワークは、入力ノード、隠れ層、および出力ノードで構成されています。各ユニットには重みが割り当てられます。データは入力ノードに与えられ、試行錯誤のシステムによって、アルゴリズムは一定の停止基準を満たすまで重みを調整する。一部の人々は、これをブラックボックスの手法に似ている。 <！ - 3 - >
K-最近隣のようなクラスタリング技術： 類似のレコードのグループを識別する技術。 K-最近隣法は、履歴（トレーニング）データ内のレコードとポイント間の距離を計算します。次に、このレコードをデータセットの最も近い隣のクラスに割り当てます。
分類ツリーの例を次に示します。電話会社が、どの住宅顧客がサービスを切断する可能性が高いかを判断したい場合を考えてみましょう。
電話会社には、サービスを受けた期間、サービスにどれくらい費やしているか、サービスに問題があるかどうか、自分が必要とする最高の電話プランを持っているかどうか、彼が他のサービスを一緒にバンドルしているかどうか、他のキャリアプランに関する競争力のある情報、そして彼がまだサービスを持っているかどうかなど、もちろん、これより多くの属性を見つけることができます。最後の属性は結果変数です。これはソフトウェアが顧客を2つのグループの1つに分類するために使用するもので、おそらく滞在者と飛行リスクと呼ばれます。データセットは、トレーニングデータおよびテストデータセットに分割される。トレーニングデータは、観測（属性と呼ばれる）と結果変数（分類モデルの場合はバイナリ） - この場合、滞在者または飛行リスクから構成されます。

アルゴリズムはトレーニングデータ上で実行され、一連のルールのように読み取ることができるツリーが表示されます。たとえば、顧客が会社に10年以上勤務していて、55歳以上の場合、顧客は忠実な顧客のままになる可能性があります。

これらのルールは、テストデータセット上で実行され、このモデルが「新しいデータ」上でどのくらい良いかを判断します。モデルの精度測定値が提供されます。たとえば、一般的な手法は混乱行列です。このマトリックスは、正しく分類されたケースと正しく分類されなかったケースに関する情報を提供する表です。

モデルが見た目が良ければ、利用可能な他のデータに展開することができます（つまり、飛行リスクの新しいケースを予測するために使用します）。そのモデルに基づいて、たとえば、会社は、飛行リスクと考えている顧客に特別オファーを送ることを決定するかもしれません。