目次:
Cross-Industry Standard Process for Data Mining(CRISP-DM)プロセスモデルの第2フェーズでは、データを取得して検証しますそれがあなたのニーズに合っていること。ビジネスの理解に戻って計画を修正する原因となる問題を特定することができます。目標や計画を再考するもう一つの理由は、ビジネス理解の欠陥を発見するかもしれません。
データの理解フェーズには、4つの タスク が含まれます。これらは
-
データの収集
-
データの記述
-
データの調査
-
データの品質の確認
タスク:データの収集
目標を設定し、データマイニング計画を定義しました。計画のすべてのステップは、適切なデータを持っているかどうかによって異なります。あなたは本当にそのデータを持っていることを確認してください!
このタスクには、最初のデータ収集レポートの1つだけが存在します。レポートでは、データを取得したこと、または少なくともデータへのアクセス権を取得し、データアクセスプロセスをテストし、データが存在することを確認する必要があります。また、データマイニングに使用するツールにデータをロードして、ツールがデータと互換性があることを確認する必要があります。
<! - 2 - >このレポートを作成する前に、必要なデータを集めるために多くの作業を行うことがあります。まず、次のようにプランを作成します。
-
データ要件の概要: データマイニングの目標に対応するために必要なデータタイプのリストを作成します。必要な時間範囲やデータ形式などの詳細を含むリストを展開します。
-
データの可用性を確認する: 必要なデータが存在し、使用できることを確認します。必要なデータの一部が利用できない場合は、その問題の対処方法を決定します。
<! (999)新規データの収集-
選択基準の定義:
-
特定のデータソース(データベース、ファイル、ドキュメントなど)を使用します。これらのソース内で、このプロジェクトに関連するテーブル、フィールド、およびケース範囲を指定します。
-
これらの手順を完了したら、実際にデータを取得する必要があります。この段階で、プロジェクトに使用するデータマイニングプラットフォームにデータをインポートして、それが可能であることを確認し、プロセスを理解するようにします。この試行では、
-
-
ケースやフィールドの数や使用可能なメモリ量などの、期待していなかったソフトウェア(またはハードウェア)の制限を検出する可能性があります。 あなたのソースのデータフォーマット
データの不完全さを扱うことの難しさ(たとえば、不完全なデータセットをインポートまたは分析しない製品に遭遇する可能性があります)
-
最後に、収集プロセスをレポートで要約します。レポートには、要件を記述し、収集したデータとどのような情報源かを正確に説明する必要があります。実際にデータを取得し、データマイニングプラットフォームと互換性があることを確認します。困難に遭遇した場合は、自分が何だったのか、どのように対処したのか(代替ソースの使用、計画の改訂、フォーマットの変更など)を説明します。
-
このタスクの成果物は単なる単純なレポートですが、そのレポートを書く前に行う必要がある作業は単純ではありません!データアクセスは、データマイニングプロセスの中で最も困難かつ不満足な部分の1つであり、技術的およびビジネス上の課題があります。
-
タスク:データの記述
データが完成しましたので、あなたの持つ一般的な説明を準備します。
このタスクの成果物はデータ記述レポートです。そこには、データのソースとフォーマット、ケースの数、フィールドの数と説明、その他重要な情報が記載されています。また、データマイニングの目標に対するデータの適合性を簡単に評価します。たとえば、データに、期待するフィールドとそこにある必要があるフィールドが含まれていること、および分析に十分なケースが含まれていることを確認します。
タスク:データの調査
このタスクでは、データをより詳細に調べます。各変数について、値の範囲とその分布を調べます。さらにデータをチェックするために、簡単なデータ操作と基本的な統計手法を使用します。データの探索はいくつかの目的をサポートします:
データに精通してください。
データ品質問題の兆候
データ準備ステップのステージを設定します。
-
このタスクの成果物はデータ調査レポートです。データの探索中に作成した仮説や初期の発見を文書化する場所です。このレポートには、配布、要約、データ品質の問題の兆候など、データ記述レポートよりもデータの詳細な説明が含まれている必要があります。
-
タスク:データの品質の確認
-
データがあり、それを調べた後、目標を達成するのに十分なのかどうかを判断する必要があります。あなたはしばしばいくらか問題を抱えていますが、引き続き進むことができますが、データ品質が非常に悪いために計画をサポートできず、代替案を探す必要があります。最悪のデータ問題には、
必要なデータは存在しません。 (存在しないか、それとも捨てられましたか?このデータを収集して将来の使用のために保存できるかどうか)
存在しますが、それを持つことはできません。 (この制限を克服できますか?)
重大なデータ品質の問題があります(紛失または誤った値がたくさんあり、修正できません)。
-
このタスクの成果物はデータ品質レポートです。これはあなたが持っているデータ、見つけた軽度かつ重大な品質問題、品質問題または代替案(代替データリソースの使用など)の可能な救済策をまとめたものです。本当に深刻なデータ品質の問題に直面しており、適切なソリューションを特定できない場合は、目標や計画を再検討することを推奨する必要があります。