目次:
- フィールドの絞り込み
- 関連するケースの選択
- 最近、普及している概念は、より多くのデータがより良いデータであるということです。これは新しい考えではありません。データマイニングアプリケーションは、大量のデータを処理するために常に開発されています。 「データマイニング」という名前でさえ、大量を示唆しています。しかし、しばしば、あなたのデータのサンプルを使って作業することは、あなたにとって有用な情報を提供し、作業を容易にし、時間とリソースを節約します。
ビデオ: The Gift from Pleiades 2024
データマイニングでは、特定のプロジェクトに必要なデータよりも多くのデータがあることがあります。あなたが必要とするものだけを手にする方法は次のとおりです。
フィールドの絞り込み
データセットに変数が多数ある場合は、関心のあるものを見つけたり表示したりするのが難しい場合があります。また、データセットが大きく、すべての変数を必要としない場合は、追加情報を保持することでリソースが不必要に吸収されます。したがって、いくつかの変数を保持し、他の変数を削除する必要があることがあります。図はKNIMEの例を示しています。右ツールはColumn Filterです。
<! - 1 - >このツールの設定例を次の図に示します。
フィールドを絞り込むには、データマイニングアプリケーションで変数選択ツールを探します。これらはデータ操作のための他のツールでも見られます。他のデータマイニングツールと同様に、名前は製品によって異なります。 列、変数、 または フィールド、 および 選択 または フィルタリングのバリエーションを探します。
関連するケースの選択
不完全なデータのケースは、モデルを構築する前に除外することができます。不完全なケースを削除することは、データ選択やフィルタリングの一般的な例の1つです。 しかし、あなたが関心を持つ各セグメントについて、どのように関連するケースだけを選択しますか?データ選択ツールを使用します。
次の図は、別のデータマイニングアプリケーションのデータ選択ツールを示しています。
<! - 3 - >
次の図は、このツールを別の種類の選択肢、つまり変数の値に基づいて設定する方法を示しています。この種のデータ選択を使用するのは一般的ですが、アプリケーションによっては、必要なケースを正確に定義するのに役立つあらゆる種類の組み込み関数が用意されています。これにはいくつかの例外的な機能があります。変数の要約統計情報が表示され、選択基準を満たすケースの数が正確に表示されます。
ほとんどのデータマイニングアプリケーションには、必要なケースだけを選択するツールがあります。メニュー(または検索)で
または フィルタを選択します。 サンプリング
最近、普及している概念は、より多くのデータがより良いデータであるということです。これは新しい考えではありません。データマイニングアプリケーションは、大量のデータを処理するために常に開発されています。 「データマイニング」という名前でさえ、大量を示唆しています。しかし、しばしば、あなたのデータのサンプルを使って作業することは、あなたにとって有用な情報を提供し、作業を容易にし、時間とリソースを節約します。
サンプリングはデータマイニングにおいて重要な役割を果たします。データが均衡している場合は、比較されている各グループで同じ数のケースが使用されています(この例では、グループは手とプロパティを変更したプロパティです)。オリジナルデータ内の他のものその後、データを分割し、1つのサブセットに分けてモデルのトレーニングに使用し、別のサブセットに分けてテスト用にしました。パラレル座標プロットのサンプルデータのみを使用すると、表示と解釈がより簡単になります。 (何千もの点を持つ散布図は、読みにくいかもしれません!)おそらく最も重要なのは、サンプリングするだけでデータ量が減るため、処理が速くなります。