ビデオ: The Case of the White Kitten / Portrait of London / Star Boy 2024
データウェアハウスを設計しているときに、必要な外部データを決定するときは、注文するだけです(オンラインサイトの衣服やフルーツバスケットの注文に似ています)。ストリーム、ファイル転送、または他の手段を介してデータを受信し始めると、スムーズなセーリングが行われますか?そうですか?
着信データの品質はどうですか?あなたは、自分の内部システムから来るデータに対して、外部から提供されるデータに同じ品質保証(QA)手順を適用する必要があります。オープンマーケットの情報を購入しただけでも、データが完全であることが保証されるわけではありません。
次の手順に従って、受信データバッチごとにQA手順を適用します。
-
受信データにチェック値がファイルに付加されているかどうかを調べます。
チェック値の例には、各ファイルのレコード数、各数値列の合計値(すべてのレコードの総売上高、すべてのレコードの総販売台数など)、合計列値のサブセット(例えば、売上高と州別の合計金額)。
<! - 2 - >チェック値が提供されている場合は、それらを格納してエンドツーエンドのロード手順の一部として使用する必要があります。チェック・トータルが、ロードするデータを準備したときの計算と一致するまで、誰も倉庫の内容を正式に更新する必要はありません。
-
チェック値が提供されない場合は、それらを要求します。 (例えば、数週間または数ヶ月)を要することがあるが、高いレベルの顧客サービスを提供することを望むデータプロバイダは、この種の要求を真剣に受け止め、要求された制御情報を作成するよう努力する利用可能です。
<! - 3 - >
ロードの手順で、各行をフィルタリングします。 -
次の条件が満たされていることを確認します。すべての情報で
キー
-
(各レコードの一意の識別子)が正しいことを確認します。たとえば、SalesMasterRecordデータ・グループの各レコードがSalesDetailRecord内の正確に12の関連レコード(毎月1つ)を持っている必要がある場合は、レコード・キー値を比較することによってすべての詳細レコードが存在することを確認します。 値の範囲は正しいです。たとえば、1か月あたりの製品販売は、そのタイプの製品の合理的な範囲内でなければなりません(飛行機はボルトなどとは異なります)。欠落している情報フィールド(外的に提供されるデータではほとんど不可避である)は、入ってくるデータの意味を歪ませない。
-
たとえば、補足データ(特定の業界または組織のビジネスルールに従って定義されている)が欠けていても問題はそれほど深刻ではないかもしれませんが、入稿レコードの半分に空きスペースがある場合、UnitsSold、TotalSalesPrice、またはその他の重要な種類の情報がなければならない場合、データの価値には疑問があります。
-
特に外部データ(初期の3か4か月など)を取得する初期段階では、第10章で説明した分析ツールを使用して、ユーザーが同じツールを使用してビジネスを実行する前にデータ品質分析を行います分析。
奇妙、異常、不思議な結果、不一致、明らかなパラドックス、そして奇妙に見えるものを検索します。次に、データのルーツまで掘り下げて、奇妙な原因を調べます。
-
おそらく、何百万行もの着信データを扱っていることを覚えておいてください。すべての行を個人的にチェックアウトできないことに加えて、すべての条件に対してフィルタリングとQAチェック基準を設定するのが難しい場合があります。
外部から提供されたソースデータを使って何かをしたことがある人は、あらゆる種類の奇妙な不一致と入ってくる情報の欠落を経験しています。ユーザーの代わりに自分自身を使用し、使用するツールと同じツールを使用することで、訂正できるものを発見することができ、貴重なビジネス情報をデータウェアハウスに保存することができます。
-