予測分析のためのK-MeansとDBSCANクラスタリングモデルの基礎 - ダミー

教師なし学習には、アルゴリズムの実行時に何を期待するかなど予測分析には多くの課題があります。各アルゴリズムは異なる結果を生成します。ある結果が他の結果より優れているかどうか、あるいは結果が何らかの価値を持っているかどうかは決して確かではありません。

結果がどのようなものであるべきかを知ったら、アルゴリズムを微調整して望ましい結果を生み出すことができます。実際のデータセットでは、この贅沢はありません。モデルを作成する際に使用する初期化パラメータとアルゴリズムを決定するために、データの事前知識や直感に頼る必要があります。

<！しかし、実際の監督されていない学習課題では、この先行知識は利用できず、所望の結果を見つけることは困難である。適切な数のクラスタを選択することが重要な問題です。適切な数のクラスタを見つけると、正確な予測を行うためのデータが得られます。反面、クラスタの数が間違っていると推測すると、結果は控えめなものになる可能性があります。

<！ K-meansアルゴリズムは、比例サイズと線形分離可能なデータを持つ少数のクラスタを持つデータセットに適しています。非常に大きなデータセットでアルゴリズムを使用するようにスケールアップすることができます。直線的に分離可能な999データを、直線を使用して分離することができるグラフの点群として考える。データが線形に分離できない場合は、より高度なバージョンのK平均を採用する必要があります。これは計算コストが高くなり、非常に大きなデータセットには適さない可能性があります。標準的な実装では、クラスタの中心と距離を計算する複雑さは低いです。

<！ - 3 - >

K-meansは、使用が簡単で、効果的で、スケーラビリティが高いため、大きなデータの問題を解決するために広く採用されています。ほとんどの商用ベンダーが、予測分析パッケージの主要コンポーネントとしてK-meansアルゴリズムを使用しているのは不思議ではありません。

scikit-learnのDBSCAN（ノイズを伴うアプリケーションの密度ベースの空間クラスタリング）では、インスタンスを作成するためのユーザー定義の初期化パラメータは必要ありません。必要に応じて、初期化中にデフォルトのパラメータを上書きすることができます。残念ながら、デフォルトのパラメータを使用している場合、アルゴリズムは目的の結果に近い一致を提供できません。 DBSCANは、不均衡なクラスタ・サイズを持ち、データを非線形に分離できるデータセットに適しています。K平均のように、DBSCANはスケーラブルですが、非常に大きなデータセットで使用すると、より多くのメモリと計算能力が必要になります。