ビデオ: Apache - Oh Wah 2024
予測分析でユニークに役立つオープンソースのツールはApache Mahoutです。この機械学習ライブラリには、クラスタリング、分類、コラボレーティブフィルタリング、および大規模な予測分析モデルをサポートするその他のデータマイニングアルゴリズムの大規模バージョンが含まれています。
このようなモデルに必要なデータを処理するためには、既にHadoopを実行しているシステムでMahoutを実行することを強くお勧めします。 Hadoopは、分散処理に使用される他のマシン(Map MachineやReduceマシンなど)をオーケストレーションするマスターマシンを指定します。 Mahoutは、そのマスターマシンにインストールする必要があります。
<! - 1 - >ストリーミングされたデータ(Googleニュース記事)が大量にあり、クラスタリングアルゴリズムの1つを使ってトピック別にクラスタリングしたいとします。 HadoopとMahoutをインストールしたら、データにK平均などのアルゴリズムの1つを実行できます。
Mahoutの下でのK-meansの実装は、MapReduceアプローチを使用します。これは、K-meansの通常の実装とは異なります。 Mahoutは、K平均アルゴリズムを以下のサブ手順に細分する。
<! - 2 - >-
KmeansMapper は入力データセットを読み込み、各入力ポイントを最も近い最初に選択された手段(クラスタ代表)に割り当てます。
-
KmeansCombiner 手続きは、KmeansMapperによって生成されたすべてのレコード対を取り、後続のクラスタ代表の計算を容易にするために部分和を生成する。 KmeansReducer
-
は、すべてのサブタスク(コンバイナ)によって生成された値を受け取り、K平均の最終出力であるクラスタの実際の重心を計算する。 <! - 3 - >
KmeansDriver -
は、すべてのクラスタが収束するまでプロセスの反復を処理します。所与の反復の出力(部分的なクラスタリング出力)は、次の反復の入力として使用される。レコードとクラスタの割り当てが変更されなくなるまでデータセットをマッピングして縮小するプロセス。 Apache Mahoutは最近開発されたプロジェクトです。その機能にはまだ拡張機能に対応するためのスペースがたくさんあります。その間、Mahoutは既にMapReduceを使用して分類、クラスタリング、その他の機械学習の手法を実装しており、大規模に行うことができます。