目次:
ビデオ: Final of Africa Business Idea Cup 2016 (full ver.) | 決勝戦フルver (日本語字幕有) 2024
ミドルウェアサービスの流れには、2つの異なる品質保証(QA)サービスを確立する必要があります。ミドルウェアサービスを実行する前に、データソースからの抽出に対して最初のQAタスクを実行する必要があります。
データ品質保証:パートI
プロセスの早い段階で、エラーや問題を可能な限りキャッチ(および修正)してください。問題が非常に重大であり、プロセスの後半で修正するために大幅に多くの労力を要したり、単純に修正できない場合、データをパイプラインからデータウェアハウスに移動することは無意味です。
<! - 1 - >だから、どのようなタイプの問題を探すべきですか?以下はいくつかあります:
-
妥当な範囲を超えるデータ要素の値: 顧客は過去1ヶ月間に150,000,000件の注文書を提出しています。たとえば、従業員は4,297年間従業員データベースと保存された採用日に従って
-
許容値の公式および完全なリストに適合しないデータ要素の値: たとえば、そのフィールドの許容値がMおよびFの場合、値にはAコードが含まれます。そのフィールドはGENDERとラベル付けされていますが、Aはアンドロニクスを意味するかもしれません!)
<! CUSTOMER_ORDER表の項目の場合、対応する項目(CUSTOMER_IDによって識別される)はCUSTOMER_MASTER_TABLEに存在しません。 - > 表間の不一致: -
フィールド間の矛盾:
-
都市の州または郵便番号が間違っているレコード。 値がありません:
-
内容が必要な特定のフィールドに値がないレコードです。 <!たとえば、ソース表には、過去2年間の各月の売上高および売上高を含む1行のデータが含まれている必要があります。ただし、多数の顧客の場合、少なくとも1か月間に行が存在しません。
不完全なデータ: -
会社が販売しているすべての製品に関する情報が入手可能と思われる場合、たとえば、抽出物に含まれるすべての製品がありますか? ビジネスルールの違反:
-
卸売業者が唯一の会社の顧客に商品を販売できるというビジネスルールが記載されている場合、顧客レコードが複数の卸売業者による販売を示しているかどうかを確認する必要があります。ソース内の不正なデータを示す可能性があります。 最後の抽出以降のデータ破損:
-
たとえば、抽出が毎月行われる場合は、顧客の月間売上高など一定であるべきデータ値または合計を追跡する必要があります。次の月に特定の顧客の前月の売上高(CUSTOMER PER MONTH)の値が変更された場合、基礎となるデータが破損している可能性があります。 綴りの矛盾:
-
顧客の名前は、例えば、いくつかの異なる形で綴られています。 問題を見つけたらどうしますか?次のいずれかの方法を試すことができます:
-
自動修正ルールを適用します。 矛盾したスペルが見つかった場合、たとえば、以前のスペル修正のマスターテーブルで検索し、自動的にデータを変更します。
後で分析して修正するチームメンバーの記録を脇に置きます。
-
この場合、QAの人的部分を自動補正と併用することができます。 たとえば、可能であれば自動修正が行われ、他の問題に関するレポートが別ファイルに入れられ、QA担当者に送信されます。 QA担当者がすべての手動修正を行うと、自動QAプロセスを経たデータに修正内容が戻されます。
-
ジェットを冷やす。 重大な問題を発見した場合や、不確定な研究が必要な場合は、問題を見つけて解決するまでプロセス全体を停止することを検討してください。
徹底したソースシステム分析を実行すると、QAプロセスの効率性を大幅に向上させることができます。それぞれのデータソースでどのような種類のデータ問題が発生しているかについてかなり良い考えがある場合は、QAプロセスを再プログラムして、問題を検出してからうまく解決してから続行してください。
-
歴史的に、組織はデータウェアハウスのQAプロセスを一方向のフローとして扱いました。データがミドルウェアプロセスの流れにさらに移動する前に問題は修正されますが、データソースで修正されることはありません。ほとんどの新しいデータウェアハウスには、ソースデータのデータ品質の問題を修正するQAプロセスのフィードバックループが組み込まれています。 データ品質保証:パートII
変換プロセスが完了した後、データをQAする必要があります。どのようなタイプのエラーや矛盾がデータに導入されたのかはわかりません。変更が行われた後、以前のQAプロセスは無効になります。
統合された変換済みのデータは、ここで説明した同じタイプのQAステップで実行します。最初のレベルのQAで徹底的に仕事をした場合、おそらく多くの基本的なエラー(スペルミスや範囲外の値など)が見つからないかもしれませんが、依然として確実にしたいと考えています。さらに、データ変換に使用されるコードが誤って新しいエラーを引き起こさないようにしてください。