個人財務 CRISP-DMプロセスフェーズ3:データ準備 - ダミー

CRISP-DMプロセスフェーズ3:データ準備 - ダミー

目次:

Anonim

データマイニング担当者は、データマイニング(CRISP-DM)プロセスモデルの第3段階:データ準備の大半を費やします。データマイニングに使用されるほとんどのデータは、もともとは収集され、他の目的のために保存されていました。

データ準備フェーズには、5つの タスク が含まれます。これらは

  • データの選択

    <!データの整理
  • データの書式設定

  • データの書式設定

  • CRISP-DMのステップバイステップガイドでは、データセットの各セットの成果物として明示的に言及していません。これらのデータセットは、より良く存在し、適切にアーカイブされ、文書化されていました。データセットはタスクと一対一に対応しませんが、使用されるデータに関する情報は、各成果物レポートに含める必要があります。

  • -

タスク:データの選択

データのどの部分を実際にデータマイニングに使用するかを決定します。

このタスクの成果物は、包含と排除の根拠です。その中で、今後のデータマイニング作業に使用されるデータとそうでないデータについて説明します。

あなたの目標、データ品質、技術的問題(例えば、ツールのフィールドや行数の制限など)との関連性に基づいて、データの各部分を含めたり除外したりする理由を説明しますデータ形式のニーズに合わせた適切な処理を行うことができます。

<! - 3 - >

タスク:データのクリーニング

使用するように選択されたデータは、完全にきれい(エラーなし)になる可能性は低いです。特定のケースや個別のセル(データ項目)を除いた特定のデータ修正を行うためにソースを追跡したり、より洗練されたモデリング手法で選択されたデフォルト値または代替データで一部のデータを置き換えたりするなど、データマイニング作業のすべてまたは一部に対して、データのサブセットのみを使用することもできます。

このタスクの成果物は、データをきれいにするために使用されたすべての決定とアクションを詳細に記録するデータクリーニングレポートです。このレポートは、プロセスのデータ理解段階でデータ品質の検証タスクで確認された各データ品質の問題を網羅し、参照する必要があります。また、レポートでは、データの消去中に選択した結果に与える影響についても説明します。

タスク:データの作成

新しいフィールドをいくつか派生させる必要があるかもしれません(例えば、顧客が注文を受けたときの納期と日付を使用して顧客が注文を受け取るまでの時間を計算する)新しい形式のデータを作成することができます。

このタスクの成果物には、2つのレポート

派生属性:

作成した新しいフィールド(列)、作成方法、および理由を示すレポートが含まれます。

  • 生成レコード: 作成した新しいケース(行)、作成した方法、およびその理由を説明するレポート。

  • マージ・データとフォーマット・データ・タスクは、プロセスのこの段階で最後にリストされますが、必ずしも最後になるとは限りません。データ準備段階の早い段階でマージや再フォーマットが必要な場合があります。 タスク:データの統合

あなたのデータは、いくつかの異なるデータセットに存在する可能性があります。これらの異種データセットの一部またはすべてをまとめてモデリング段階に備える必要があります。

このタスクの成果物はマージされたデータです。 (そして、マージがどのように行われたかを文書化することは害ではありません)。

タスク:データのフォーマット

データは、モデリングに最も便利なフォーマット以外のフォーマットであなたに来ることがよくあります。 (書式の変更は、通常、ツールの設計によって行われます。)したがって、これらの書式を今すぐ変換してください。

このタスクの成果物は、あなたの再フォーマットされたデータです。 (そして、あなたが行った変更を記述した少しのレポートは、賢明なものです)。

データマイニングプロセスのデータ準備フェーズは、モデリングの準備ができたデータセットとデータセットを記述した徹底的なレポートで終了する必要があります。

CRISP-DMプロセスフェーズ3:データ準備 - ダミー

エディタの選択

を探る

を探る

遠く離れた場所でコンタクトを作るためにステーションを押す)は、すべてのハムラジオで2番目に古いアクティビティです。エーテルのどこかで、駅はいつも手の届かないところにあり、その駅に連絡するという挑戦がDX-ingの目的です。何千ものハムを横切っています...

エディタの選択

Excel 2007の開始と終了 - ダミー

Excel 2007の開始と終了 - ダミー

Microsoft Office Excel 2007には、プログラムを開始および終了するためのいくつかの方法があります。 [スタート]メニューまたはデスクトップショートカットを使用してExcelを開くことができます。 Excelを終了するには、Officeボタン、閉じるボタン、またはキーボードショートカットを使用します。 [スタート]メニューからExcel 2007を起動する。

Excelピボットテーブルの小計を抑制する - ダミー

Excelピボットテーブルの小計を抑制する - ダミー

Excelのピボットテーブルを使用すると、ダッシュボードとレポートの管理に時間を費やし、他の有益なことを行う時間を増やします。ピボットテーブルにフィールドを追加するたびに、Excelはそのフィールドの小計を追加します。ただし、小計を含めると小計を含めることができない場合もあります。

Excel 2007にあなたが印刷したいものを伝える - ダミー

Excel 2007にあなたが印刷したいものを伝える - ダミー

Excel 2007には、エリア。ワークエリア上の任意のセル選択を印刷領域として定義することができます。

エディタの選択

SharePoint 2010のダッシュボードデザイナ - ダミー

SharePoint 2010のダッシュボードデザイナ - ダミー

Business Intelligence(BI)サイトのホームページには、SharePoint 2010を使用するための2つのシナリオビジネスインテリジェンスのため。主な2つのシナリオは、Excel ServicesとPerformancePoint Servicesです。 Excel Servicesを使用すると、Excelスプレッドシートの一部をSharePointサイトに表示することができます。 Excel Servicesのサンプルを見ることができます。

SharePoint 2010検索ボックスWebパーツ、結果、および分析 - ダミー

SharePoint 2010検索ボックスWebパーツ、結果、および分析 - ダミー

サイトを検索する。エンドユーザーは、おそらく、すべてのSharePoint 2010サイトの右上隅にある使い慣れた検索ボックスを表示することに驚くことはありません。ユーザーはこの検索ボックスを使用して、表示しているサイトまたはリストを検索できます。サイトのカスタマイズされた検索エクスペリエンスが必要な場合があります。 By ...

SharePoint 2010リストタイプ - ダミー

SharePoint 2010リストタイプ - ダミー

SharePoint 2010は、情報の追跡に使用できるさまざまな種類のリストを提供します。リストは、ExcelスプレッドシートまたはAccessデータベースの表に似ています。最初に作成したときに空白のスプレッドシートとは異なり、SharePointにはいくつかの事前定義リストが用意されています。これらのリストには、列とフォームが含まれています。