Predictive Analysisのデータクラスタの基礎

A （またはデータ収集）は、予測分析の項目の集合です。たとえば、一連のドキュメントは、データアイテムがドキュメントであるデータセットです。ソーシャルネットワークユーザーの情報（名前、年齢、友達リスト、写真など）は、ソーシャルネットワークユーザーのデータ項目であるデータセットです。データクラスタリング

は、データセットを類似アイテムのサブセットに分割するタスクである。アイテムは、インスタンス、観測、エンティティ、またはデータオブジェクトとも呼ばれます。ほとんどの場合、データセットはデータ行列の表形式で表されます。データ行列は、次のように行と列で表される数値、ドキュメント、または式の表です。 <！ - 1 - >

各行は、データセット内の特定の項目に対応します。

行は、

項目、オブジェクト、インスタンス、または観察と呼ばれることがあります。各列は項目の特定の特性を表します。
列は

フィーチャまたは属性と呼ばれます。データクラスタリングをデータセットに適用すると、同様のデータアイテムのグループが生成されます。これらのグループは、

クラスタ - 同様のデータ項目の集合と呼ばれます。 <！同様の

項目は、それらの間で強くて測定可能な関係を持っています。例えば、新鮮な野菜は、冷凍食品よりも互いに類似しています。そして、クラスタリング技術は、アイテム。 2つ以上の項目間の関係の強さは、999の類似度として定量化することができる。数学関数は、2つのデータ項目間の相関を計算する。その計算の結果は、

類似性値と呼ばれ、は基本的に特定のデータ項目をデータセット内の他のすべての項目と比較します。これらの他のアイテムは、その特定のアイテムと比較して、より類似しているか、またはあまり類似していません。

<！ - 3 - > 計算された類似点は、項目をグループに割り当てる際に重要な役割を果たす（クラスタ）。各グループには、それを最もよく表す項目があります。このアイテムは代表クラス

と呼ばれます。バスケット内のいくつかのタイプの果物からなるデータセットを考える。バスケットにはリンゴ、バナナ、レモン、ナシなどさまざまな種類の果物があります。この場合、果物はデータ項目です。データクラスタリングプロセスは、このデータセット（異なる果実のバスケット）から類似の果物のグループを抽出する。

データクラスタリングプロセスの第1段階は、このデータセットをデータマトリックスに変換することです。このデータセットをモデル化する1つの方法は、行がデータセット（果物）のアイテムを表すようにすることです。列は、項目を説明する特徴または特徴を表す。例えば、フルーツの特徴は果物の種類（バナナやリンゴなど）、体重、色、価格などです。この例のデータセットでは、アイテムに果物の種類、色、重量の3つの機能があります。ほとんどの場合、前述のように果物データセットにデータクラスタリング手法を適用すると、類似アイテムのグループ（クラスタ）を取得できます。あなたの果実はN個のグループであることがわかります。その後、ランダムな果物を選ぶと、N個のグループのうちの1つにそのアイテムに関する声明を出すことができます。各グループのクラスタ代表を取得します。

この例では、クラスター代表がバスケットから1つの果物タイプを選び、それを脇に置きます。この果実の特性は果物がそれが属するクラスターを最もよく表しているようなものです。

クラスタリングが完了すると、データセットが編成され、自然なグループに分けられます。

データクラスタリングは、データセットから自然なグループを抽出することによって、データの構造を明らかにする。したがって、クラスタを発見することは、データ構造についてのアイディアや仮説を立て、それをよりよく理解するための洞察を導き出すために不可欠なステップです。

データクラスタリングは、データをモデル化する方法でもあります。これは、クラスタまたはクラスタの代表によって、より大きなデータ本体を表します。

市場セグメンテーション がターゲット市場データを
同じ利益を共有する消費者のようなグループに分割した場合（ 同様の項目のグループにデータを単に分割することもできます類似の顧客のクラスターを特定することで、特定のクラスターのニーズに対応するマーケティング戦略を策定するのに役立つことがあります。

一般的なニーズを持つ消費者（例えば、特定の食品アレルギーを持つ消費者）さらに、データクラスタリングは、新しいデータアイテムの性質、特に新しいデータを予測と結び付ける方法を特定、学習、予測するのにも役立ちます。たとえば、

パターン認識

では、データ内のパターン（特定の地域または年齢グループのパターンを購入するなど）を分析することで、予測分析を開発できます。この場合、将来のデータ項目の性質を予測できます確立されたパターンによく合います。

フルーツバスケットの例では、データクラスタリングを使用して、異なるデータ項目を区別しています。あなたのビジネスがカスタムフルーツバスケットを組み立て、新しい未知の果物が市場に導入されたとします。フルーツバスケットに追加すると、新しいアイテムがどのクラスターに属するのかを学習したり、予測したりすることができます。既にフルーツデータセットにデータクラスタリングを適用しているので、4つのクラスタがあります。これにより、新しいアイテムに適したクラスタ（特定のタイプの果物）を簡単に予測できます。あなたがしなければならないことは、未知の果実を他の4つのクラスタの代表者と比較し、どのクラスタが最もマッチしているかを特定することだけです。このプロセスは、小さなデータセットを扱う人にとっては明らかですが、大規模ではあまり明らかではありません。データセットが大きく、多様で、比較的インコヒーレントな場合、複雑さは指数関数的になります。そのため、クラスタリングアルゴリズムが存在します。コンピュータは、そのタイプの作業を最善に行います。