ビデオ: はじめてのP:第4週: アルゴリズム入門 ―プログラミングの理論を体験で学ぼう!3 2024
クラスタリングアルゴリズムを使用して、データセットを、あらかじめ定義された属性に最も類似するデータポイントのクラスタに細分します。特定の機能に関する複数の属性を記述し、それらの属性の類似性に従ってデータポイントをグループ化するデータセットがある場合は、クラスタリングアルゴリズムを使用します。
Country IncomeとEducationのデータセットの単純な散布図は、ここに表示されているグラフをもたらします。
<! - 1 - >管理されていないクラスタリングでは、このデータから始めて、それをサブセットに分割します。これらのサブセットは クラスター と呼ばれ、互いに最も類似するデータポイントで構成されています。最低2つのクラスターがあり、おそらく低所得層と教育圏の底に3つあり、高等教育国は低所得層と高所得層に分かれるように見えます。
<! - 9 - >次の図は、このデータセットのクラスタを視覚的に見積もった視覚化 の結果を示しています。 クラスタリングの視覚的な見積もりを生成することはできますが、アルゴリズムを使用してクラスタを生成することで、より大規模なデータセットを処理する場合には、より正確な結果を得ることができます。視覚的見積もりは、最小限の複雑さのより小さなデータセットでのみ有用な大まかな方法です。アルゴリズム - 正確で再現性のある結果を生成し、アルゴリズムを使用してデータセット内の複数次元のデータに対してクラスタリングを生成することができます。
<!教師なし機械学習では、クラスター化アルゴリズムがアプローチの1つのタイプであり、他のアプローチには、マルコフ(Markov)方法および次元削減方法が含まれる。クラスタリングアルゴリズムは、以下の特性が真である状況で適切です。
分析しているデータセットを理解していること。クラスタリングアルゴリズムを実行する前に、サブセット(クラスタ)の性質を正確に把握する必要はありません。多くの場合、アルゴリズムを実行する前に、データセット内にいくつのサブセットがあるかを知ることさえありません。
-
サブセット(クラスタ)は、分析している1つのデータセットだけによって決定されます。
-
あなたの目標は、単一のデータセットとこのデータセットのみのサブセットを記述するモデルを決定することです。
-
データを追加する場合は、完全かつ正確なモデル結果を得るために、分析を最初から再実行する必要があります。