個人財務 Predictive Analysisのデータクラスタの基礎

Predictive Analysisのデータクラスタの基礎

ビデオ: 【機械学習】決定木(CART)| 決定木の理論と実装 2024

ビデオ: 【機械学習】決定木(CART)| 決定木の理論と実装 2024
Anonim

A (またはデータ収集)は、予測分析の項目の集合です。たとえば、一連のドキュメントは、データアイテムがドキュメントであるデータセットです。ソーシャルネットワークユーザーの情報(名前、年齢、友達リスト、写真など)は、ソーシャルネットワークユーザーのデータ項目であるデータセットです。 データクラスタリング

は、データセットを類似アイテムのサブセットに分割するタスクである。アイテムは、インスタンス、観測、エンティティ、またはデータオブジェクトとも呼ばれます。ほとんどの場合、データセットは データ行列 の表形式で表されます。データ行列は、次のように行と列で表される数値、ドキュメント、または式の表です。 <! - 1 - >

各行は、データセット内の特定の項目に対応します。
  • 行は、

    項目、オブジェクト、インスタンス、または観察と呼ばれることがあります。 各列は項目の特定の特性を表します。

  • 列は

    フィーチャまたは属性と呼ばれます。 データクラスタリングをデータセットに適用すると、同様のデータアイテムのグループが生成されます。これらのグループは、

クラスタ - 同様のデータ項目の集合と呼ばれます。 <!同様の

項目は、それらの間で強くて測定可能な関係を持っています。例えば、新鮮な野菜は、冷凍食品よりも互いに類似しています。そして、クラスタリング技術は、アイテム。 2つ以上の項目間の関係の強さは、999の類似度として定量化することができる。数学関数は、2つのデータ項目間の相関を計算する。その計算の結果は、

類似性値と呼ばれ、 は基本的に特定のデータ項目をデータセット内の他のすべての項目と比較します。これらの他のアイテムは、その特定のアイテムと比較して、より類似しているか、またはあまり類似していません。

<! - 3 - > 計算された類似点は、項目をグループに割り当てる際に重要な役割を果たす( クラスタ )。各グループには、それを最もよく表す項目があります。このアイテムは 代表クラス

と呼ばれます。バスケット内のいくつかのタイプの果物からなるデータセットを考える。バスケットにはリンゴ、バナナ、レモン、ナシなどさまざまな種類の果物があります。この場合、果物はデータ項目です。データクラスタリングプロセスは、このデータセット(異なる果実のバスケット)から類似の果物のグループを抽出する。

データクラスタリングプロセスの第1段階は、このデータセットをデータマトリックスに変換することです。このデータセットをモデル化する1つの方法は、行がデータセット(果物)のアイテムを表すようにすることです。列は、項目を説明する特徴または特徴を表す。 例えば、フルーツの特徴は果物の種類(バナナやリンゴなど)、体重、色、価格などです。この例のデータセットでは、アイテムに果物の種類、色、重量の3つの機能があります。 ほとんどの場合、前述のように果物データセットにデータクラスタリング手法を適用すると、類似アイテムのグループ(クラスタ)を取得できます。 あなたの果実はN個のグループであることがわかります。その後、ランダムな果物を選ぶと、N個のグループのうちの1つにそのアイテムに関する声明を出すことができます。 各グループのクラスタ代表を取得します。

この例では、クラスター代表がバスケットから1つの果物タイプを選び、それを脇に置きます。この果実の特性は果物がそれが属するクラスターを最もよく表しているようなものです。

クラスタリングが完了すると、データセットが編成され、自然なグループに分けられます。

データクラスタリングは、データセットから自然なグループを抽出することによって、データの構造を明らかにする。したがって、クラスタを発見することは、データ構造についてのアイディアや仮説を立て、それをよりよく理解するための洞察を導き出すために不可欠なステップです。

データクラスタリングは、データをモデル化する方法でもあります。これは、クラスタまたはクラスタの代表によって、より大きなデータ本体を表します。

  • 市場セグメンテーション がターゲット市場データを

  • 同じ利益を共有する消費者のようなグループに分割した場合( 同様の項目のグループにデータを単に分割することもできます類似の顧客のクラスターを特定することで、特定のクラスターのニーズに対応するマーケティング戦略を策定するのに役立つことがあります。

一般的なニーズを持つ消費者(例えば、特定の食品アレルギーを持つ消費者)さらに、データクラスタリングは、新しいデータアイテムの性質、特に新しいデータを予測と結び付ける方法を特定、学習、予測するのにも役立ちます。たとえば、

パターン認識

では、データ内のパターン(特定の地域または年齢グループのパターンを購入するなど)を分析することで、予測分析を開発できます。この場合、将来のデータ項目の性質を予測できます確立されたパターンによく合います。

フルーツバスケットの例では、データクラスタリングを使用して、異なるデータ項目を区別しています。あなたのビジネスがカスタムフルーツバスケットを組み立て、新しい未知の果物が市場に導入されたとします。フルーツバスケットに追加すると、新しいアイテムがどのクラスターに属するのかを学習したり、予測したりすることができます。 既にフルーツデータセットにデータクラスタリングを適用しているので、4つのクラスタがあります。これにより、新しいアイテムに適したクラスタ(特定のタイプの果物)を簡単に予測できます。あなたがしなければならないことは、未知の果実を他の4つのクラスタの代表者と比較し、どのクラスタが最もマッチしているかを特定することだけです。 このプロセスは、小さなデータセットを扱う人にとっては明らかですが、大規模ではあまり明らかではありません。データセットが大きく、多様で、比較的インコヒーレントな場合、複雑さは指数関数的になります。そのため、クラスタリングアルゴリズムが存在します。コンピュータは、そのタイプの作業を最善に行います。

Predictive Analysisのデータクラスタの基礎

エディタの選択

キーボードからQuickBooksアクションへのショートカット - ダミー

キーボードからQuickBooksアクションへのショートカット - ダミー

QuickBooks 2012には便利なショートカットが用意されています重要な会計業務を遂行する。この表では、最も便利なQuickBooksショートカットをいくつか紹介しています。ショートカットキーまたはキーの組み合わせ結果+選択した番号または日付ファイルに表示されている値に1を加算 - 表示されている値から1を引く...

QuickBooks 2012を介して給与サービスに登録する - ダミー

QuickBooks 2012を介して給与サービスに登録する - ダミー

QuickBooks 2012 Intuit QuickBooks Payroll Servicesページから特定のオプションを選択した後、一連のWebページフォームを記入します。あなたの会社名と住所を入力し、会社の雇用者識別番号またはEINを入力し、Intuitのようにクレジットカード情報も入力します。

同時にQuickBooks 2012に領収書と請求書を記録する - ダミー

同時にQuickBooks 2012に領収書と請求書を記録する - ダミー

はQuickBooks 2012で、アイテムの領収書を記録すると同時に受け取ったアイテムの請求書を記録します。これは、明細受領伝票登録ウィンドウの上部付近に表示される請求受領チェックボックスを選択するだけで実行できます。

エディタの選択

公正なダミーを戦うことによる結婚作業

公正なダミーを戦うことによる結婚作業

いくつかのカップルは、彼らが決して論じることはないと主張する。これは、両方のパートナーが自由に相違点を表現できるような結婚では不可能です。他のカップルは頻繁に非常に大声を出す頻繁な議論を持っています。しかし、戦いの量と頻度はあまり知られていない - カップルが戦う問題でもありません。最も重要なのは...

事件後のあなたの関係の再構築 - ダミー

事件後のあなたの関係の再構築 - ダミー

不倫は離婚の主要な原因ですが、離婚するよりも事件。事件後の再建は、カップルが不倫やパターンをさまざまな形で直面することを要求します。時間は癒えますが、それだけではありません。ここではいくつか...

苦しい関係の警告サインを認識する - ダミー

苦しい関係の警告サインを認識する - ダミー

完全な関係はありません。カップルは、紛争の公正な分配を期待する必要がありますが、これらの紛争にどのように対処するかは、強さや苦痛の兆候となります。毎日の問題が時間の経過とともに克服できない問題になる可能性を見失うと、困ってしまうことがあります。ここにいくつかの警告兆候があります...

エディタの選択

セキュリティで保護されたWebサーバーをSEOフレンドリにする方法 - ダミー

セキュリティで保護されたWebサーバーをSEOフレンドリにする方法 - ダミー

Ifユーザーがクレジットカード番号や他のタイプのアカウント情報などの機密データを提供するWebサイト上のページがある場合、これらのページを安全かつSEOに適したものにすることができます。機密情報を保護するためのインターネットソリューションは、これらのWebページを安全なサーバーに置くことです。技術的には、これは...

あなたのウェブページをローカライズする方法 - ダミー

あなたのウェブページをローカライズする方法 - ダミー

ローカルでは、あなたのページにローカルな用語があることを確認することです。理想的には、「お問い合わせ」ページだけではなく、すべてのページにこれらの用語を載せてください。いくつかのウェブサイトでは、地域の検索用語をランク付けする必要がありますが、やりたいことが少しでもありません。

検索エンジンがあなたのウェブサイトを索引付けしているかどうかを調べる方法 - ダミー

検索エンジンがあなたのウェブサイトを索引付けしているかどうかを調べる方法 - ダミー

Ifあなたは検索エンジンの最適化(SEO)を心配しているので、あなたのサイトが実際に検索エンジンやディレクトリにあるかどうかを調べることが重要です。あなたのサイトは、誰かがGoogleで検索したときに現れませんか? Bingでそれを見つけることができませんか?おそらくそれは単にそこにないと思ったことはありますか?