あなたのデータは正しいか？ - ダミー

ほとんどのデータセットにはメタデータが付いています。ファイル。メタデータには通常、フォーマットの説明、各データフィールドにどのような値があるか、これらの値が意味するものが含まれています。

新しいデータセットに直面したときは、メタデータを額面で使用しないでください。大きなデータの本質は、それを生成するシステムができるだけ稼働し続けていることが必要です。このため、変更が実装されたときにこれらのシステムのメタデータを更新することは、必ずしも最優先事項ではありません。データが実際にメタデータの主張と同じであることを確認する必要があります。

<！ - 1 - >

ソースを確認する

明らかなように、データがどこから来たのかを信じることが重要です。これは、データを購入するときに特に重要です。数千のベンダーが、想像を絶する種類のデータを提供しています。そして、彼らはすべての平等な信頼性ではありません。

データを購入する前に、ベンダーがどこでどのように収集しているかを正確に理解してください。神秘と曖昧さは赤旗です。

<！ - 2 - >

彼らの言葉で売り手を連れてはいけません。ベンダーが提供するWebサイトまたはクライアント参照の顧客満足度の掲示にのみ依存しないでください。可能であれば、データを使用している、またはデータを使用しているユーザーを追跡してください。

あなたのデータが内部システムから来ている場合、ソースを評価することは依然として重要です。異なるシステムは異なる目的を持っているため、異なるデータに焦点を当てています。また、異なる時期にデータを収集することもあります。

<！ - 3 - >

たとえば、一部のホテルチェーンでは、ゲストがチェックインする際にフロントデスクで使用するシステムとは別のシステムで予約を予約することは珍しいことではありません。ゲストは、予約とチェックインの間の割引オファー。これは、予約システムの客室料金がフロントシステムの料金と一致しない可能性があることを意味します。さらに、予約は取り消され、決してフロントには行かないかもしれません！

ここで、都市別のホテル収入の分析を行っているとします。客室料金データが予約システムではなくフロントシステムから供給されていることがわかっていることは重要です。しかし、あなたの会社のスーパーボウルのコマーシャルによって予約がいくつ生成されたのか分析しようとしている場合はどうでしょうか？この場合、予約システムからのデータを参照する必要があります。

ホテルの例では、本質的にクリーンなデータであっても問題があることが示されています。たとえデータが正確であり、正確に何が目的であるとしても、タイミングが問題になる可能性があります。データは時間とともに変化します。

フォーマットの確認

この章の前半で説明したように、メタデータが提供するものの1つは、データのフォーマット方法を示すものです。はフォーマットされ、はそれぞれの特定のデータ要素がどのように見えるかを意味します。「製品コード」は文字か数字ですか？「開始日」は日付ですか、それとも本当に日時スタンプですか？

データ型は、どの統計および統計的手順をどのデータ要素に適用できるかを決定するため、統計分析において重要である。「名字」のような文字フィールドの平均値を取ろうとすると、毎回エラーメッセージが表示されます。

通常、このタイプのメタデータはかなり正確です。一般に、データを保持するシステムによって保存され、自動的に生成されます。フォーマットを確認することは、一般的にはかなり簡単です。このような検証は、本質的に、次のセクションで説明するデータ範囲の検証の副産物です。しかし、少し難しい場合があります。

このようなシナリオの1つは、私たちが気にするよりも多くの時間を思い出しました。システムが最初に設計されたときに、開発チームは、将来の拡張機能に対応するために、データ構造に柔軟性を持たせようとします。場合によっては、各レコードの末尾に空白（およびワイド）英数字データ列を追加することもあります。これらの補助列は、最初は何も使用されません。アナリストは、

よりも多くのデータを求めるのではなく、より多くのデータを要求する側で常に誤りを犯します。この事実は、データを迅速に取得する必要性と相まって、データ・ダンプをもたらすことがあります。このダンプには通常、補助列が含まれています。このような場合、メタデータは「Fields 1-11」のようなものを「200英数字」と書いています。 " そのような情報は事実上役に立たない。このようなデータフィールドを理解するには、手を汚さなければなりません。何十ページものレコードでページを除いてできることはたくさんありませんし、実際に何が現場にあるかについての情報に基づいた推測を試みてください。ほとんどの場合、これらのフィールドは空である傾向があります。しかしいつもではない。良いことは、フィールドが実際に使用されている場合、そのフィールドが何のために使用されているかを知っているどこかでプログラマーを見つけることができるということです。データの型キャスト統計分析を実行する上で最も重要なステップの1つは、データが目的とするものであることを確認することです。データ形式に関する有効な情報を提供していないと、統計処理は常にクラッシュします。しかし、これらの手順は、データの妥当性に関する問題をほとんど盲目にしています。

データフィールドのフォーマット方法を理解するだけでは不十分です。データセットを統計プロシージャに変換する前に、使用している各フィールドで実際にデータが何であるかを理解する必要があります。