ビデオ: 【機械学習】クラスタリングの実践|スクレイピング、kmeans 2024
K は予測分析のためのアルゴリズムへの入力です。アルゴリズムがデータセットから抽出しなければならないグループ化の数を表し、代数的に k と表されます。 K平均アルゴリズムは、与えられたデータセットを999k 999クラスタに分割する。アルゴリズムは、以下の操作を実行する。データセットから ランダムな項目を選択し、クラスタ代表としてラベル付けする。 <! - 1 - >類似性関数によって計算されたユークリッド距離を使用して、データセットの残りの各アイテムを最も近いクラスタ代表に関連付けます。
-
新しいクラスタの代表を再計算します。 クラスタが変更されなくなるまで、手順2と3を繰り返します。 クラスタの代表は、同じクラスタに属するすべてのアイテムの数学的平均(999)(平均)である。この代表者は
クラスタ重心 -
とも呼ばれます。たとえば、果物データセットの3つの項目を考えてみましょう。
-
<! - 2 - >
-
タイプ1はバナナに対応します。
タイプ2はリンゴに対応する。 色2は黄色に対応する。 色3は緑色に対応する。これらのアイテムが同じクラスタに割り当てられていると仮定すると、これらの3つのアイテムの重心が計算される。特徴#1タイプ#999特徴#2色#999特徴#3重量(オンス)1 999 9 999 9999 33 9 2 9 9 9 9。 33 9 9 9 9 9 2。 1 <! - 3 - > ここでは、同じクラスタに属する3つのアイテムを表すクラスタの計算を示します。クラスター代表は、3つの属性のベクトルです。その属性は、問題のクラスター内の項目の属性の平均です。特徴#1タイプ#999特徴#2色#999特徴#3重量(オンス)1 999 9 999 9999 33 9 2 9 9 9 9。 33 9 9 9 9 9 2。 1 999(1 + 2 + 1)/ 3 = 1である。 33(2 + 3 + 2)/ 3 = 2である。次に示すデータセットは、AとBの2つの製品の7つの顧客格付けから構成されている。ランク付けは、ポイントの数(すなわち、 0から10までの間)、各顧客が製品に与えたものである - 与えられたポイントが多いほど、製品のランクが高くなる。 K平均アルゴリズムを使用し、 999が2であると仮定すると、データセットは2つのグループに分割される。残りの手順は次のようになります。
データセットから2つのランダムな項目を選択し、それらをクラスターの代表としてラベル付けします。以下は、K平均クラスタリングプロセスが始まるランダム重心を選択する最初のステップを示す。最初の重心は、分析しようとしているデータからランダムに選択されます。この場合、2つのクラスタを探しているので、2つのデータ項目が無作為に選択されます。顧客1と5。
最初に、クラスタリングプロセスは、2つの初期(無作為に選択された)クラスタ代表を中心に2つのクラスタを構築します。次に、クラスタの代表が再計算されます。計算は各クラスター内の項目に基づいて行われます。
顧客ID
製品Aの顧客格付け
製品Bの顧客格付け1 2 999 999 3 999 3 6 9 9 10 9 9 10 9 9 9 9 9 9 10 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 7 999 9 999 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 999
ユークリッド距離 | を使ってアイテムがアイテム群とどれほど似ているかを計算する: | アイテムIとクラスタXの類似度= sqrt {{{left({{f_1} - {x_1 } ^ 2} + {{left} {{{{{{}}}} ^ 2} } | 値{f_1}、; {f_2}、; ldots、; {f_n}は、問題の項目を説明するフィーチャの数値です。値{x_1}、; {x_2}、; ldots、; {x_n}は、各項目が |
---|---|---|---|
n | 個の特徴を有すると仮定して、クラスタ代表(重心)の特徴(平均値)である。 | たとえば、顧客2(3、4)という項目を考えてみましょう。製品Aの顧客の評価は3、製品Bの評価は4でした。クラスタの代表的な機能は(2、2)です。顧客2のクラスタ1に対する類似度は、以下のように計算される。 | クラスタ1に対するアイテム2の類似度= sqrt {{{左({3-2}右)} ^ 2} + {{左クラスタ2と同様のプロセスは次のようになります。 |
アイテム2とクラスタ2の類似度= sqrt {{{left({3-10} right)これらの結果を比較すると、項目2(つまり得意先2)はクラスタ1に割り当てられます。これは、項目2は、クラスタ1に類似しています。 | データセットの他のすべての項目に同じ類似性分析を適用します。 | 新しいメンバがクラスタに参加するたびに、クラスタの代表を再計算する必要があります。 | これは、K平均アルゴリズムの第1の反復の結果を示す。 |
k | は2に等しいので、2つのクラスタを探しています。これは、一連の顧客を2つの意味のあるグループに分けます。各顧客は別々に分析され、現在のクラスタ代表者のそれぞれに対する顧客の類似性に基づいてクラスタの1つに割り当てられる。 | データセットをすべて繰り返し、すべての要素を繰り返します。各要素とその現在のクラスタ代表との間の類似性を計算する。 | 顧客3がクラスタ1からクラスタ2に移動したことに注目してください。これは、顧客3がクラスタ2を代表するクラスタとの距離がクラスタ1を代表するクラスタよりも近いためです。 |
2 検査対象顧客
クラスタ1に属する顧客ID | クラスタ代表 | クラスタ1に属する顧客ID | クラスタ代表 |
---|---|---|---|
1 | (2、2) > 599(10,14)2 999,2999(2。4、3) | 5 | (10、14) |
3 | 1、2、3 | (3。6、4 6) | 5 |
(10、 1 14) | 4 | 1、2、3 | (3。6、4 6) |
4,5 | (8。4、12) | 6 | 、2、3 |
(3。6、4 6)
4、5、6 (8。6、11 4) 7
-
1、2、3 >(3。6、4 6)
4、5、6、7
(8。2、10 8)
ここでは、顧客データにK平均アルゴリズムの2回目の反復です。各顧客は再分析されています。顧客2は同じシナリオがクラスター代表が新しいメンバがクラスタに割り当てられるたびに再計算されていることを顧客4注意に適用され、クラスタ2よりクラスタ1の代表に近いので、顧客2は、クラスタ1に割り当てられています。 #2 顧客クラスタ1 顧客クラスタ2 検査する顧客1、 クラスタ代表 クラスタに属する 顧客IDを顧客IDが2 をクラスタに属する反復>クラスタ代表 1、 1、 (3。6、4 6) 5 (8。2、10 8) 2 1、2 < (5。2、3) 5 (8。2、10 8) 3 1、2 (5。2、3) 5、 3 (7。8、10 2) 4 1、2 -
(5。2、3)
4、5 3 (7。8、10 2) 6
1、2
(5。2、3) 4、5、6 3 (7。8、10 2)
7 < 1、2
(5。2、3)
3、4、5、6、7
(7。8、10 2)
、