目次:
- このタスクの成果物は、包含と排除の根拠です。その中で、今後のデータマイニング作業に使用されるデータとそうでないデータについて説明します。
- このタスクの成果物は、データをきれいにするために使用されたすべての決定とアクションを詳細に記録するデータクリーニングレポートです。このレポートは、プロセスのデータ理解段階でデータ品質の検証タスクで確認された各データ品質の問題を網羅し、参照する必要があります。また、レポートでは、データの消去中に選択した結果に与える影響についても説明します。
- このタスクの成果物には、2つのレポート
- このタスクの成果物はマージされたデータです。 (そして、マージがどのように行われたかを文書化することは害ではありません)。
- このタスクの成果物は、あなたの再フォーマットされたデータです。 (そして、あなたが行った変更を記述した少しのレポートは、賢明なものです)。
データマイニング担当者は、データマイニング(CRISP-DM)プロセスモデルの第3段階:データ準備の大半を費やします。データマイニングに使用されるほとんどのデータは、もともとは収集され、他の目的のために保存されていました。
データ準備フェーズには、5つの タスク が含まれます。これらは
-
データの選択
<!データの整理 -
データの書式設定
-
データの書式設定
-
CRISP-DMのステップバイステップガイドでは、データセットの各セットの成果物として明示的に言及していません。これらのデータセットは、より良く存在し、適切にアーカイブされ、文書化されていました。データセットはタスクと一対一に対応しませんが、使用されるデータに関する情報は、各成果物レポートに含める必要があります。
-
タスク:データの選択
データのどの部分を実際にデータマイニングに使用するかを決定します。このタスクの成果物は、包含と排除の根拠です。その中で、今後のデータマイニング作業に使用されるデータとそうでないデータについて説明します。
あなたの目標、データ品質、技術的問題(例えば、ツールのフィールドや行数の制限など)との関連性に基づいて、データの各部分を含めたり除外したりする理由を説明しますデータ形式のニーズに合わせた適切な処理を行うことができます。
<! - 3 - >
タスク:データのクリーニング
使用するように選択されたデータは、完全にきれい(エラーなし)になる可能性は低いです。特定のケースや個別のセル(データ項目)を除いた特定のデータ修正を行うためにソースを追跡したり、より洗練されたモデリング手法で選択されたデフォルト値または代替データで一部のデータを置き換えたりするなど、データマイニング作業のすべてまたは一部に対して、データのサブセットのみを使用することもできます。このタスクの成果物は、データをきれいにするために使用されたすべての決定とアクションを詳細に記録するデータクリーニングレポートです。このレポートは、プロセスのデータ理解段階でデータ品質の検証タスクで確認された各データ品質の問題を網羅し、参照する必要があります。また、レポートでは、データの消去中に選択した結果に与える影響についても説明します。
タスク:データの作成
新しいフィールドをいくつか派生させる必要があるかもしれません(例えば、顧客が注文を受けたときの納期と日付を使用して顧客が注文を受け取るまでの時間を計算する)新しい形式のデータを作成することができます。
このタスクの成果物には、2つのレポート
派生属性:
作成した新しいフィールド(列)、作成方法、および理由を示すレポートが含まれます。
-
生成レコード: 作成した新しいケース(行)、作成した方法、およびその理由を説明するレポート。
-
マージ・データとフォーマット・データ・タスクは、プロセスのこの段階で最後にリストされますが、必ずしも最後になるとは限りません。データ準備段階の早い段階でマージや再フォーマットが必要な場合があります。 タスク:データの統合
あなたのデータは、いくつかの異なるデータセットに存在する可能性があります。これらの異種データセットの一部またはすべてをまとめてモデリング段階に備える必要があります。
このタスクの成果物はマージされたデータです。 (そして、マージがどのように行われたかを文書化することは害ではありません)。
タスク:データのフォーマット
データは、モデリングに最も便利なフォーマット以外のフォーマットであなたに来ることがよくあります。 (書式の変更は、通常、ツールの設計によって行われます。)したがって、これらの書式を今すぐ変換してください。
このタスクの成果物は、あなたの再フォーマットされたデータです。 (そして、あなたが行った変更を記述した少しのレポートは、賢明なものです)。
データマイニングプロセスのデータ準備フェーズは、モデリングの準備ができたデータセットとデータセットを記述した徹底的なレポートで終了する必要があります。