個人財務 Predictive Analysisのデータクラスタの基礎

Predictive Analysisのデータクラスタの基礎

ビデオ: 【機械学習】決定木(CART)| 決定木の理論と実装 2025

ビデオ: 【機械学習】決定木(CART)| 決定木の理論と実装 2025
Anonim

A (またはデータ収集)は、予測分析の項目の集合です。たとえば、一連のドキュメントは、データアイテムがドキュメントであるデータセットです。ソーシャルネットワークユーザーの情報(名前、年齢、友達リスト、写真など)は、ソーシャルネットワークユーザーのデータ項目であるデータセットです。 データクラスタリング

は、データセットを類似アイテムのサブセットに分割するタスクである。アイテムは、インスタンス、観測、エンティティ、またはデータオブジェクトとも呼ばれます。ほとんどの場合、データセットは データ行列 の表形式で表されます。データ行列は、次のように行と列で表される数値、ドキュメント、または式の表です。 <! - 1 - >

各行は、データセット内の特定の項目に対応します。
  • 行は、

    項目、オブジェクト、インスタンス、または観察と呼ばれることがあります。 各列は項目の特定の特性を表します。

  • 列は

    フィーチャまたは属性と呼ばれます。 データクラスタリングをデータセットに適用すると、同様のデータアイテムのグループが生成されます。これらのグループは、

クラスタ - 同様のデータ項目の集合と呼ばれます。 <!同様の

項目は、それらの間で強くて測定可能な関係を持っています。例えば、新鮮な野菜は、冷凍食品よりも互いに類似しています。そして、クラスタリング技術は、アイテム。 2つ以上の項目間の関係の強さは、999の類似度として定量化することができる。数学関数は、2つのデータ項目間の相関を計算する。その計算の結果は、

類似性値と呼ばれ、 は基本的に特定のデータ項目をデータセット内の他のすべての項目と比較します。これらの他のアイテムは、その特定のアイテムと比較して、より類似しているか、またはあまり類似していません。

<! - 3 - > 計算された類似点は、項目をグループに割り当てる際に重要な役割を果たす( クラスタ )。各グループには、それを最もよく表す項目があります。このアイテムは 代表クラス

と呼ばれます。バスケット内のいくつかのタイプの果物からなるデータセットを考える。バスケットにはリンゴ、バナナ、レモン、ナシなどさまざまな種類の果物があります。この場合、果物はデータ項目です。データクラスタリングプロセスは、このデータセット(異なる果実のバスケット)から類似の果物のグループを抽出する。

データクラスタリングプロセスの第1段階は、このデータセットをデータマトリックスに変換することです。このデータセットをモデル化する1つの方法は、行がデータセット(果物)のアイテムを表すようにすることです。列は、項目を説明する特徴または特徴を表す。 例えば、フルーツの特徴は果物の種類(バナナやリンゴなど)、体重、色、価格などです。この例のデータセットでは、アイテムに果物の種類、色、重量の3つの機能があります。 ほとんどの場合、前述のように果物データセットにデータクラスタリング手法を適用すると、類似アイテムのグループ(クラスタ)を取得できます。 あなたの果実はN個のグループであることがわかります。その後、ランダムな果物を選ぶと、N個のグループのうちの1つにそのアイテムに関する声明を出すことができます。 各グループのクラスタ代表を取得します。

この例では、クラスター代表がバスケットから1つの果物タイプを選び、それを脇に置きます。この果実の特性は果物がそれが属するクラスターを最もよく表しているようなものです。

クラスタリングが完了すると、データセットが編成され、自然なグループに分けられます。

データクラスタリングは、データセットから自然なグループを抽出することによって、データの構造を明らかにする。したがって、クラスタを発見することは、データ構造についてのアイディアや仮説を立て、それをよりよく理解するための洞察を導き出すために不可欠なステップです。

データクラスタリングは、データをモデル化する方法でもあります。これは、クラスタまたはクラスタの代表によって、より大きなデータ本体を表します。

  • 市場セグメンテーション がターゲット市場データを

  • 同じ利益を共有する消費者のようなグループに分割した場合( 同様の項目のグループにデータを単に分割することもできます類似の顧客のクラスターを特定することで、特定のクラスターのニーズに対応するマーケティング戦略を策定するのに役立つことがあります。

一般的なニーズを持つ消費者(例えば、特定の食品アレルギーを持つ消費者)さらに、データクラスタリングは、新しいデータアイテムの性質、特に新しいデータを予測と結び付ける方法を特定、学習、予測するのにも役立ちます。たとえば、

パターン認識

では、データ内のパターン(特定の地域または年齢グループのパターンを購入するなど)を分析することで、予測分析を開発できます。この場合、将来のデータ項目の性質を予測できます確立されたパターンによく合います。

フルーツバスケットの例では、データクラスタリングを使用して、異なるデータ項目を区別しています。あなたのビジネスがカスタムフルーツバスケットを組み立て、新しい未知の果物が市場に導入されたとします。フルーツバスケットに追加すると、新しいアイテムがどのクラスターに属するのかを学習したり、予測したりすることができます。 既にフルーツデータセットにデータクラスタリングを適用しているので、4つのクラスタがあります。これにより、新しいアイテムに適したクラスタ(特定のタイプの果物)を簡単に予測できます。あなたがしなければならないことは、未知の果実を他の4つのクラスタの代表者と比較し、どのクラスタが最もマッチしているかを特定することだけです。 このプロセスは、小さなデータセットを扱う人にとっては明らかですが、大規模ではあまり明らかではありません。データセットが大きく、多様で、比較的インコヒーレントな場合、複雑さは指数関数的になります。そのため、クラスタリングアルゴリズムが存在します。コンピュータは、そのタイプの作業を最善に行います。

Predictive Analysisのデータクラスタの基礎

エディタの選択

Word2016で文法チェッカーを使用する方法 - ダミー

Word2016で文法チェッカーを使用する方法 - ダミー

単語2016はオンザフライで提供しています文法チェック。 Mark Twainはかつて英語の綴りを "酔っぱらった"と言いました。 「そうだとすれば、英語の文法は幻覚でなければならない。それはちょうどあなたのコンピュータの中にあなたの8級の英語教師を持つようなものです - それはすべての時間だけではなく、3番目の期間中です。 Wordの文章校正機能はスペルチェッカーのように機能します。 ...

Word 2007で左タブストップを使用する方法 - ダミー

Word 2007で左タブストップを使用する方法 - ダミー

左タブストップ機能はTabキーを押すと、挿入ポインターが左のタブストップに移動し、そこでテキストを入力し続けることができます。

Word 2007でテーマを使用する方法 - ダミー

Word 2007でテーマを使用する方法 - ダミー

テーマは、グラフィックデザイナーが作成した一連のスタイルです。 Word 2007文書に統一されたプロフェッショナルな外観を与えます。テーマを使用すると、一貫した色、フォント、グラフィック効果を素早く簡単に適用できます。色:色のセットは、テキストの前景と背景、任意のグラフィックスまたはデザインをフォーマットするために選択されます。

エディタの選択

競合するWebサイトでソースコードを分析する方法 - ダミー

競合するWebサイトでソースコードを分析する方法 - ダミー

優れた検索エンジンの結果を得ているWebサイトのソースコードでは、自分が何を正しく行っているのか、そして自分のWebサイトにこれらのベストプラクティスを適用する方法を正確に知ることができます。たとえば、ページがベストプラクティスのルールをすべて破っているように見えるかもしれませんが、ランキングは...

Microsoftライブ検索で有料検索結果を購入する方法 - 必要に応じてダミー

Microsoftライブ検索で有料検索結果を購入する方法 - 必要に応じてダミー

有料の検索エンジンの結果に表示されるように広告を掲載するには、Microsoftの有料検索プログラムadCenterを使用できます。 AdCenterは、クリック単価の最新のオプションで、最も高度なものです。彼らが提供するものの1つは、Excelに基づいたキーワード調査と最適化ツールです。

エディタの選択

LinkedInグループを作成する方法 - ダミー

LinkedInグループを作成する方法 - ダミー

LinkedInを使用すると、グループを簡単に作成できます。グループはネットワーキングや求人検索に役立ちます。その理由を知っていれば、グループに参加することを躊躇しないでください。独自のLinkedInグループを作成する準備ができたら、次の簡単な手順に従います。

LinkedIn連絡先をOutlook Expressにエクスポートする方法 - ダミー

LinkedIn連絡先をOutlook Expressにエクスポートする方法 - ダミー

Outlook Expressを使いたい場合は、運が良ければ、あなたのLinkedInの連絡先は他の場所と同じように簡単にそこに住むことができます。 LinkedInがあなたの人生を楽にする方法を愛していませんか?エクスポートファイルを作成したら、以下の簡単な手順でOutlook Expressへの接続をエクスポートできます:...

LinkedInから電子メールアプリケーションに連絡先をエクスポートする方法 - ダミー

LinkedInから電子メールアプリケーションに連絡先をエクスポートする方法 - ダミー

As LinkedInを使用して連絡先ネットワークを構築すれば、あなたの電子メールプログラムに保存されているよりもLinkedInネットワークの「ファイル」上の連絡先が増えます。ただし、LinkedInのメッセージシステムに頼るのではなく、自分の電子メールシステムを使用して、すべてのLinkedIn一次接続と通信することができます。 ...