個人財務 予測分析でK平均クラスタアルゴリズムを使用する方法 - ダミー

予測分析でK平均クラスタアルゴリズムを使用する方法 - ダミー

ビデオ: 【機械学習】クラスタリングの実践|スクレイピング、kmeans 2024

ビデオ: 【機械学習】クラスタリングの実践|スクレイピング、kmeans 2024
Anonim

K は予測分析のためのアルゴリズムへの入力です。アルゴリズムがデータセットから抽出しなければならないグループ化の数を表し、代数的に k と表されます。 K平均アルゴリズムは、与えられたデータセットを999k 999クラスタに分割する。アルゴリズムは、以下の操作を実行する。データセットから ランダムな項目を選択し、クラスタ代表としてラベル付けする。 <! - 1 - >類似性関数によって計算されたユークリッド距離を使用して、データセットの残りの各アイテムを最も近いクラスタ代表に関連付けます。

  1. 新しいクラスタの代表を再計算します。 クラスタが変更されなくなるまで、手順2と3を繰り返します。 クラスタの代表は、同じクラスタに属するすべてのアイテムの数学的平均(999)(平均)である。この代表者は

    クラスタ重心
  2. とも呼ばれます。たとえば、果物データセットの3つの項目を考えてみましょう。

  3. <! - 2 - >

  4. タイプ1はバナナに対応します。

タイプ2はリンゴに対応する。 色2は黄色に対応する。 色3は緑色に対応する。これらのアイテムが同じクラスタに割り当てられていると仮定すると、これらの3つのアイテムの重心が計算される。特徴#1タイプ#999特徴#2色#999特徴#3重量(オンス)1 999 9 999 9999 33 9 2 9 9 9 9。 33 9 9 9 9 9 2。 1 <! - 3 - > ここでは、同じクラスタに属する3つのアイテムを表すクラスタの計算を示します。クラスター代表は、3つの属性のベクトルです。その属性は、問題のクラスター内の項目の属性の平均です。特徴#1タイプ#999特徴#2色#999特徴#3重量(オンス)1 999 9 999 9999 33 9 2 9 9 9 9。 33 9 9 9 9 9 2。 1 999(1 + 2 + 1)/ 3 = 1である。 33(2 + 3 + 2)/ 3 = 2である。次に示すデータセットは、AとBの2つの製品の7つの顧客格付けから構成されている。ランク付けは、ポイントの数(すなわち、 0から10までの間)、各顧客が製品に与えたものである - 与えられたポイントが多いほど、製品のランクが高くなる。 K平均アルゴリズムを使用し、 999が2であると仮定すると、データセットは2つのグループに分割される。残りの手順は次のようになります。

データセットから2つのランダムな項目を選択し、それらをクラスターの代表としてラベル付けします。

以下は、K平均クラスタリングプロセスが始まるランダム重心を選択する最初のステップを示す。最初の重心は、分析しようとしているデータからランダムに選択されます。この場合、2つのクラスタを探しているので、2つのデータ項目が無作為に選択されます。顧客1と5。

最初に、クラスタリングプロセスは、2つの初期(無作為に選択された)クラスタ代表を中心に2つのクラスタを構築します。次に、クラスタの代表が再計算されます。計算は各クラスター内の項目に基づいて行われます。

顧客ID

製品Aの顧客格付け

製品Bの顧客格付け1 2 999 999 3 999 3 6 9 9 10 9 9 10 9 9 9 9 9 9 10 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 7 999 9 999 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 999

ユークリッド距離 を使ってアイテムがアイテム群とどれほど似ているかを計算する: アイテムIとクラスタXの類似度= sqrt {{{left({{f_1} - {x_1 } ^ 2} + {{left} {{{{{{}}}} ^ 2} } 値{f_1}、; {f_2}、; ldots、; {f_n}は、問題の項目を説明するフィーチャの数値です。値{x_1}、; {x_2}、; ldots、; {x_n}は、各項目が
n 個の特徴を有すると仮定して、クラスタ代表(重心)の特徴(平均値)である。 たとえば、顧客2(3、4)という項目を考えてみましょう。製品Aの顧客の評価は3、製品Bの評価は4でした。クラスタの代表的な機能は(2、2)です。顧客2のクラスタ1に対する類似度は、以下のように計算される。 クラスタ1に対するアイテム2の類似度= sqrt {{{左({3-2}右)} ^ 2} + {{左クラスタ2と同様のプロセスは次のようになります。
アイテム2とクラスタ2の類似度= sqrt {{{left({3-10} right)これらの結果を比較すると、項目2(つまり得意先2)はクラスタ1に割り当てられます。これは、項目2は、クラスタ1に類似しています。 データセットの他のすべての項目に同じ類似性分析を適用します。 新しいメンバがクラスタに参加するたびに、クラスタの代表を再計算する必要があります。 これは、K平均アルゴリズムの第1の反復の結果を示す。
k は2に等しいので、2つのクラスタを探しています。これは、一連の顧客を2つの意味のあるグループに分けます。各顧客は別々に分析され、現在のクラスタ代表者のそれぞれに対する顧客の類似性に基づいてクラスタの1つに割り当てられる。 データセットをすべて繰り返し、すべての要素を繰り返します。各要素とその現在のクラスタ代表との間の類似性を計算する。 顧客3がクラスタ1からクラスタ2に移動したことに注目してください。これは、顧客3がクラスタ2を代表するクラスタとの距離がクラスタ1を代表するクラスタよりも近いためです。
クラスタ代表(セントロイドベクトル) 顧客ID 1(9)>顧客ID 1(9)>カスタマーID#1(9)>カスタマーID#5(10,14)

2 検査対象顧客

クラスタ1に属する顧客ID クラスタ代表 クラスタ1に属する顧客ID クラスタ代表
1 (2、2) > 599(10,14)2 999,2999(2。4、3) 5 (10、14)
3 1、2、3 (3。6、4 6) 5
(10、 1 14) 4 1、2、3 (3。6、4 6)
4,5 (8。4、12) 6 、2、3

(3。6、4 6)

4、5、6 (8。6、11 4) 7

  1. 1、2、3 >(3。6、4 6)

    4、5、6、7

    (8。2、10 8)

    ここでは、顧客データにK平均アルゴリズムの2回目の反復です。各顧客は再分析されています。顧客2は同じシナリオがクラスター代表が新しいメンバがクラスタに割り当てられるたびに再計算されていることを顧客4注意に適用され、クラスタ2よりクラスタ1の代表に近いので、顧客2は、クラスタ1に割り当てられています。 #2 顧客クラスタ1
    顧客クラスタ2 検査する顧客1、 クラスタ代表
    クラスタに属する 顧客IDを顧客IDが2 をクラスタに属する反復>クラスタ代表 1、
    1、 (3。6、4 6) 5
    (8。2、10 8) 2 1、2 < (5。2、3)
    5 (8。2、10 8) 3
    1、2 (5。2、3) 5、 3
    (7。8、10 2) 4 1、2
  2. (5。2、3)

    4、5 3 (7。8、10 2) 6

    1、2

    (5。2、3) 4、5、6 3 (7。8、10 2)

    7 < 1、2

    (5。2、3)

    3、4、5、6、7

    (7。8、10 2)

予測分析でK平均クラスタアルゴリズムを使用する方法 - ダミー

エディタの選択

自転車の点検チェックリスト - ダミー

自転車の点検チェックリスト - ダミー

すぐに自転車の点検をするために数分。あなたの自転車を一時的に与えることは、あなたの次の乗り心地の安全性、快適性、そして楽しさを高めることができます。乗車準備の一環として、次の手順に従ってください:車輪のクイックリリースレバーを開閉して、確認します。

必須サイクリング用具 - ダミー

必須サイクリング用具 - ダミー

あなたはバイクの乗り心地をさらに楽しくするために何百万ものものを買うことができます。自転車用に必要なアクセサリーをいくつかご紹介します。ヘルメット:ヘルメットを着用することはオーストラリアとニュージーランドの法律です。

自転車の範囲を閲覧可能 - ダミー

自転車の範囲を閲覧可能 - ダミー

あなたはサイクリングをすることに決めましたが、その重要なキットを欠いている - バイク!あなたが望む自転車のタイプを正確に知っていない限り、良いアドバイスは、あなたの時間を費やして、自転車で何をするのか、どこに乗るのかを本当に考えてみることです。

エディタの選択

アプリとプライバシー - ダミーを特定する

アプリとプライバシー - ダミーを特定する

Spotifyアプリケーションに登録すると、あなたの個人的な詳細の一部にアクセスする。たとえば、Top10アプリを使用してプレイリストを公開するには、既存のFacebookアカウントにリンクする必要があります。このプロセス中、Facebookはあなたに特定の種類の共有を許可するかどうか尋ねます。

モバイル対応携帯電話を識別する - ダミー

モバイル対応携帯電話を識別する - ダミー

SpotifyモバイルはiPhoneで最も人気がありますが、優れたAndroidバージョン(basks Androidマーケットの5つ星評価のうち5つの評価では5位に入っています)が急速に追いついています。

特集 - ダミー

特集 - ダミー

スポットメイキングは、モバイルでも、あらゆる音楽への普遍的な即時アクセスを可能にしますデバイスまたはデスクトップコンピュータ。 Facebookは人々が古い友達と再会して新しい友達を作るのを助け、Spotifyの助けを借りて青春の歌を再発見し、友人や検索を通じて新鮮な音楽を発見しました。

エディタの選択

IOSアプリケーションでオブジェクト指向設計を使用する方法 - ダミー

IOSアプリケーションでオブジェクト指向設計を使用する方法 - ダミー

IOSは、動作がオブジェクトに関連付けられているプログラムを設計するさまざまな方法です。説明するために、紅茶とスープの作り方を検討することを検討してください。しかし、即座に代わりに活動に飛び込んではいけません。探偵が犯罪現場に入るように行動してください。

IOSアプリケーションでハイレベル抽象化を使用してビデオを再生する方法 - ダミー

IOSアプリケーションでハイレベル抽象化を使用してビデオを再生する方法 - ダミー

このセクションでは、MPMoviePlayerViewControllerクラスの高レベル抽象化を使用してiOSアプリケーションでビデオを再生する方法を説明します。 - (IBAction)playVideo:(id)sender {MPMoviePlayerViewController * moviePlayer = [[MPMoviePlayerViewController alloc] initWithContentURL:movieURL];このコードは、ビデオビューコントローラ内のTTTVideoViewControllerファイルからです。 [self presentMoviePlayerViewControllerAnimated:moviePlayer];}シンプルさ自体!必要なのはURLです。

IOSアプリケーションでJavaスクリプトオブジェクト表記を使用する方法 - ダミー

IOSアプリケーションでJavaスクリプトオブジェクト表記を使用する方法 - ダミー

JavaScript Object Notation (JSON)はiOSアプリのデータを表現する上で事実上の標準になっています。 JSONを使用して、Web上でデータを転送したり、長期保存データを保存および取得するためのフォーマットとして使用することができます。 JSONは、人間が読める形式であり、マシンが理解しやすい形式です。 JSONのデータは1つにまとめることができます...