ビデオ: Dragnet: Eric Kelby / Sullivan Kidnapping: The Wolf / James Vickers 2024
予測分析を実行する前に、データが無関係なものではないことを確認してから、モデル。これには、誤った値を含むレコードを見つけて訂正し、欠損値を記入することが含まれます。また、重複レコード(2つの顧客アカウントなど)を含めるかどうかを決定する必要もあります。
全体的な目標は、予測モデルを構築するために使用している情報の完全性を確保することです。データの完全性、正確性、適時性に特に注意してください。
<! - 1 - >分と最大の計算、頻度分布のチェック (何かが起こる頻度など)など、さまざまな分野の記述統計量 (量的特性)を作成すると便利です。 )、期待される範囲を検証する。定期的なチェックを実行すると、今後の調査のために予想された範囲外のデータにフラグを立てるのに役立ちます。 1990年代に生年月日のある退職者を示す記録には、この方法でフラグを立てることができます。 <! - 2 - > また、情報をクロスチェックすることは、データが正確であることを確認する上で重要です。データ特性の詳細な分析とデータレコード間の関係の識別のために、
データプロファイリング(データ可用性の分析とデータ品質に関する統計の収集)とビジュアライゼーションツールを使用できます。 欠落しているデータは、特定の情報が記録されなかったことが原因である可能性があります。このような場合、可能な限り多くの情報を入力してください。特定のフィールドの空白を埋めるために適切なデフォルトを簡単に追加することができます。 <!例えば、ジェンダーフィールドに価値がない病院の産科病棟の患者の場合、アプリケーションは単純に女性として記入することができます。そのことに関して、妊娠状態のレコードが不足している病院に入院した男性の場合、そのレコードは同様に該当しないものとして記入することができます。
住所の郵便番号の紛失は、その住所に記載されている通りの名前と都市から推測できます。情報が不明であるか推測できない場合、分析の正確さに影響を与えずにデータが欠落していることを示すために、
otherという値を空白スペースよりも使用する必要があります。データ内の空白は、複数のものを意味する可能性があります。そのほとんどは、良くないまたは有用ではありません。可能な限り、意味のある場所充填材でそのブランクの性質を特定する必要があります。
トウモロコシ畑ではバラを雑草として定義することができるのと同じように、異常値は異なる分析に対して異なることを意味する可能性があります。一部のモデルは、これらのアウトライヤーを追跡してフラグを立てるためにのみ構築されるのが一般的です。
詐欺検出モデルおよび犯罪活動監視は、そのような場合に望ましくないことを示すこれらの異常値に関心がある。このようなケースでは、データセットに異常値を保持することをお勧めします。しかし、外れ値がデータ内の異常とみなされ、分析をスキューして誤った結果につながる場合は、データからそれらを削除します。 データの重複も有用であるか、迷惑である可能性があります。その一部は必要であり、価値を示すことができ、データの正確な状態を反映することができます。たとえば、複数のアカウントを持つ顧客のレコードは、(技術的にはとにかく)重複して同じレコードの繰り返しである複数のエントリで表すことができます。同じように、複製されたレコードが分析に価値を提供せず、必要でない場合、それらを削除することは莫大な価値があります。これは、重複したレコードを削除することでデータの複雑さを簡素化し、分析に必要な時間を短縮できる大規模なデータセットの場合に特に当てはまります。 いくつかの特定の手順を採用することで、不正なデータのシステムへの侵入を事前に防ぐことができます。
研究所の品質チェックと収集されるすべてのデータのデータ検証。
お客様の個人データの検証と自己修正を許可します。
あなたのクライアントに、可能な値と期待値を提供します。
データの整合性、一貫性、および正確性を定期的にチェックします。