ビデオ: The 4 Types of ZeroP2W 2024
大規模データの世界では、データ品質に関する正しい視点を得ることは非常に困難です。大きなデータソースの大部分では、きれいではないデータを扱っていると仮定する必要があります。実際に、ソーシャルメディアデータの流れの中で見かけ上ランダムで切断されたデータが圧倒的に豊富にあることは、ビジネスにとって非常に有用なものの1つです。
データのパターンを探し始めると、あなたが見つけたかもしれないものを知らずに、ペタバイトのデータを検索することから始めます。あなたは、多くのノイズがデータに存在するという事実を受け入れる必要があります。検索やパターンマッチングだけで、非常に汚いデータの中で真実の火花を見つけることができます。
<!もちろん、RFIDタグやセンサーからのデータなどの大きなデータソースには、ソーシャルメディアデータよりも優れたルールがあります。センサデータは、きれいであるべきですが、何らかのエラーが発生することが予想されます。大量のデータを分析してそのデータの品質レベルを計画するときは、常にあなたの責任です。第1段階:
: データ品質に関係なく、大きなデータのパターンを探します。 <! - 2 - >
フェーズ2:
パターンを見つけてビジネスにとって重要な結果を確立したら、従来のデータソースに適用するのと同じデータ品質基準を適用します。ビジネスにとって重要ではない大きなデータの収集と管理を避け、Hadoopや他の大きなデータプラットフォームの他のデータ要素を破壊する可能性があります。 ビッグデータ分析の成果をビジネスプロセスに組み込むにあたって、企業が健全なビジネス上の意思決定を行うためには、高品質のデータが不可欠であることを認識してください。これは、大きなデータだけでなく従来のデータにも当てはまります。
<! - 3 - >
データの品質とは、一貫性、正確性、信頼性、完全性、適時性、合理性、妥当性など、データに関する特性を指します。データ品質ソフトウェアは、異なるデータ・ストアまたはシステム間でデータ要素が同じ方法で表され、データの一貫性が高まるようにします。たとえば、あるデータストアは顧客の住所に2行を使用し、別のデータストアは1行を使用することがあります。このデータの表現方法の違いにより、1つの顧客が2つの異なる顧客として識別されるなど、顧客に関する不正確な情報が得られる可能性があります。
企業は製品を購入するときに会社名の数十種類を使用することがあります。データ品質ソフトウェアを使用して、異なるデータストア内の会社名のすべてのバリエーションを特定し、この顧客があなたのビジネスから購入したすべてを知ることができます。
このプロセスは
と呼ばれ、顧客または製品の単一のビューを提供します。 データ品質ソフトウェアは、異なるシステム間でデータを照合し、冗長データをクリーンアップまたは削除します。データ品質プロセスは、使用、解釈、理解が容易な情報をビジネスに提供します。 データプロファイリングツールは、データの内容、構造、および状態を理解するのに役立つデータ品質プロセスで使用されます。データベースやその他のデータ・ストア内のデータの特性に関する情報を収集して、データをより信頼できる形式に変換するプロセスを開始します。これらのツールはデータを分析して、エラーと不一致を特定します。
これらの問題を調整し、エラーを修正することができます。このツールは、許容可能な値、パターン、および範囲を確認し、重複するデータを識別するのに役立ちます。例えば、データプロファイリングプロセスは、データがアルファまたは数値であると予想されるかどうかをチェックする。これらのツールは、依存関係をチェックしたり、データが他のデータベースのデータとどのように関連しているかを確認したりします。
ビッグデータ用のデータプロファイリングツールは、従来のデータ用のデータプロファイリングツールと同様の機能を備えています。 Hadoopのデータプロファイリングツールは、Hadoopクラスタのデータに関する重要な情報を提供します。これらのツールは、一致を探して重複を取り除くために使用できます。その結果、大きなデータが一貫していることを保証することができます。 HiveQLやPig LatinなどのHadoopツールを変換プロセスに使用できます。