目次:
- タスク:モデリング手法の選択
- 訓練データはデータモデルに数式を適合させるために使用され、テストデータはモデル訓練プロセス中に使用され、
- パラメータ設定:
- モデルレビューで作成された情報を要約します。複数のモデルを作成した場合は、特定のアプリケーションの価値の評価に基づいてランク付けすることができます。
モデリングは、データマイニング(CRISP-DM)プロセスモデルの一部であり、ほとんどのデータ最高の鉱夫。あなたのデータはすでに良い形になっています。そして、あなたはあなたのデータ内の有用なパターンを検索することができます。
モデリング段階は4つのタスクを含む。これらは、
-
モデリング手法の選択
-
テストの設計
-
ビルディングモデル
-
モデルの評価
<! - 1 - >
タスク:モデリング手法の選択
素晴らしいデータマイニングの世界では、モデリング技術の恩恵がありますが、それらのすべてがニーズに合うわけではありません。関係する変数の種類、ツールで利用可能なテクニックの選択、およびあなたにとって重要なビジネス上の考慮事項に基づいてリストを絞ります。例えば、多くの組織は、解釈が容易な出力を持つメソッドを好むので、意思決定ツリーやロジスティック回帰は受け入れられるかもしれませんが、ニューラルネットワークはおそらく受け入れられません。
<!このタスクの成果物には、2つのレポートが含まれます。
モデリング技法:使用する技法を指定します。
-
モデリングの前提条件: 多くのモデリング手法は、特定の前提に基づいています。たとえば、モデルタイプは、特定のタイプの分布を持つデータでの使用を意図している場合があります。これらの仮定をこの報告書に文書化する。
-
統計学者は、十分に情報を与えられており、厳格であり、前提条件については綿密です。データマイナーには必ずしも当てはまるわけではありません。データマイナーになる必要はありません。統計的な知識が豊富で、選択したモデルの背後にある前提を理解しているならば、厳格かつ厳しい仮定をすることができます。 <! - 3 - >
しかし、多くのデータマイナー、特に初心者のデータマイナーは、前提をはるかに凌駕しません。代わりに、あなたのモデルのテスト(たくさんのテストとたくさんのテスト)があります。
タスク:テストの設計このタスクのテストは、モデルがどれほどうまくいくかを判断するために使用するテストです。モデル訓練のためのケースのグループとモデルテストのための別のグループにデータを分割するのと同じくらい簡単かもしれません。
訓練データはデータモデルに数式を適合させるために使用され、テストデータはモデル訓練プロセス中に使用され、
オーバーフィットを回避します:
1つのデータセットには完璧なモデルを作成します。追加のテストのために、モデルトレーニングプロセスで使用されない ホールドアウトデータ データを使用することもできます。 このタスクの成果物は、あなたのテストデザインです。それは精巧である必要はありませんが、トレーニングデータとテストデータが似ていることと、データに偏りがないように注意する必要があります。 タスク:ビルディング・モデル(999)モデリングは、データ・マイナーの全仕事であると多くの人々が想像していることですが、それは数十のタスクの1つです!それにもかかわらず、特定のビジネス目標に対応するためのモデリングは、データマイニング業界の中心です。
このタスクの成果物には、
パラメータ設定:
モデルを構築する際に、多くのツールがさまざまな設定を調整するオプションを提供します。これらの設定は最終モデルの構造に影響します。これらの設定をレポートに記録します。
モデルの説明:
-
モデルについて説明します。モデルのタイプ(線形回帰やニューラルネットワークなど)と使用される変数を記述します。モデルがどのように解釈されるかを説明する。モデリングプロセスで発生した問題を文書化する。 モデル:
-
この成果物はモデル自体です。いくつかのモデルタイプは簡単な方程式で簡単に定義できます。他のものははるかに複雑であり、より洗練された形式で送信する必要があります。 タスク:モデルの評価
-
あなたは、技術的な見地から、そしてビジネスの立場から(あなたのプロジェクトチームのビジネスエキスパートからの入力が多い)作成したモデルを見直します。 モデル評価:
モデルレビューで作成された情報を要約します。複数のモデルを作成した場合は、特定のアプリケーションの価値の評価に基づいてランク付けすることができます。
パラメータ設定の変更:
モデルの作成に使用された設定を微調整し、別のモデルを実行して結果を改善することができます。
-
データマイニングは、タマネギ、Dobos torte、または堆積岩のように、多くの層があります。データマイニングを始めたばかりのときは、パラメータ設定をデフォルト値のままにしておくことで開始することができます(実際には、それを探す努力をしない限り、オプションに気づかないかもしれません)。 あなたが新しいデータマイニングの仕事に慣れたら、モデルパラメータについて知り、その使用方法を知ることが理にかなっています。オプションは、使用しているモデルの種類と特定のツールによって大きく異なります。
-