目次:
- データウェアハウスでは、CRMやERPシステムなどの従来のソースシステムからデータが抽出されます。これらのさまざまなシステムの要素が正しく一致することが重要です。
- ビッグデータモデルへの情報のロードは、従来のデータウェアハウスで期待されるものとは異なります。データウェアハウスでは、データが成文化された後、決して変更されません。典型的なデータウェアハウスは、在庫や販売などの監視が必要な特定のビジネス問題を分析する必要性に基づいて、データのスナップショットをビジネスに提供します。
ビデオ: D1-2-S07_オンプレミスのデータウェアハウス基盤を BigQuery へ 2024
データウェアハウスの機能と大きなデータ環境を一緒に持っていく価値があります。大きなデータとデータウェアハウスを連携させるハイブリッド環境を構築する必要があります。
まず、今日設計されたデータウェアハウスは短期間で変化しないことを認識することが重要です。したがって、データウェアハウスを設計したものを使用する方がより現実的です。ビジネスを分析したいトピックに関する真実を十分に検証したバージョンを提供することです。倉庫には、特定の企業の製品ライン、顧客、サプライヤー、および1年間のトランザクションの詳細に関する情報が含まれている場合があります。
<! - 1 - >
データウェアハウスまたは部門データマートで管理される情報は、メタデータが正確であるように慎重に構築されています。新しいWebベースの情報の増加に伴い、過去のデータとの関連で膨大な量のデータを分析することが現実的であり、しばしば必要となります。これは、ハイブリッドモデルが登場する場所です。データウェアハウスと大きなデータを結びつけるという特定の側面は比較的簡単です。たとえば、大きなデータソースの多くは、よく設計されたメタデータを含むソースからのものです。複雑な電子商取引サイトには、明確に定義されたデータ要素が含まれています。したがって、倉庫と大きなデータソースの間で分析を行う場合、情報管理組織は合理化しなければならない慎重に設計されたメタデータモデルを持つ2つのデータセットを使用して作業しています。
<!もちろん、状況によっては、情報源に明示的なメタデータが不足していることもあります。アナリストが過去のトランザクションデータを構造化されていない大きなデータと組み合わせる前に、作業を行う必要があります。一般に、ペタバイトのデータの初期分析は、患者の診断に対するビジネスまたは潜在的な解決策の微妙な変化を予測するのに役立つ興味深いパターンを明らかにするでしょう。
初期解析は、MapReduceのようなHadoop分散ファイルシステムフレームワークを使用して完了することができます。この時点で、対処されている問題を評価するのに役立つかどうかを理解することができます。<! - 3 - >
分析の過程では、ビジネスコンテキストに関連するデータを特定するために、不要なデータを削除することと同じくらい重要です。このフェーズが完了すると、メタデータ定義が正確になるように残りのデータを変換する必要があります。このように、巨大なデータが倉庫の伝統的な履歴データと組み合わされると、結果は正確で意味があります。
大規模データ統合lynchpinこのプロセスには、明確に定義されたデータ統合戦略が必要です。データ統合は大きなデータを管理するうえで重要な要素ですが、データウェアハウスでハイブリッド分析を作成する場合も同様に重要です。実際に、データを抽出してハイブリッド環境で変換するプロセスは、従来のデータウェアハウス内でこのプロセスがどのように実行されるかと非常に似ています。
データウェアハウスでは、CRMやERPシステムなどの従来のソースシステムからデータが抽出されます。これらのさまざまなシステムの要素が正しく一致することが重要です。
データウェアハウスの再抽出、変換、およびロード
データウェアハウスでは、リレーショナルデータベーステーブル、フラットファイル、および非リレーショナルソースの組み合わせが頻繁に見つかります。うまく構築されたデータウェアハウスは、データが共通の形式に変換されるように設計され、正確かつ一貫してクエリを処理できるようにします。抽出されたファイルは、データウェアハウスが分析するように設計されたサブジェクトエリアのビジネスルールおよびプロセスと一致するように変換する必要があります。つまり、大きなデータソースからデータを抽出して、これらのソースが安全に連携して有意義な結果を生むようにする必要があります。さらに、ソースは、過去のデータと、大きなデータソースから得られるよりダイナミックでリアルタイムのデータとの関係を分析するのに役立つように、変換する必要があります。
ビッグデータモデルへの情報のロードは、従来のデータウェアハウスで期待されるものとは異なります。データウェアハウスでは、データが成文化された後、決して変更されません。典型的なデータウェアハウスは、在庫や販売などの監視が必要な特定のビジネス問題を分析する必要性に基づいて、データのスナップショットをビジネスに提供します。
大規模データの分散構造は、多くの場合、組織に最初に一連のノードにデータをロードしてから、抽出と変換を実行します。従来のデータウェアハウスとビッグデータ環境のハイブリッドを作成する場合、ビッグデータ環境の分散された性質は、ビジネスとの関連で大量のデータを分析する組織の能力を劇的に変える可能性があります。