ビデオ: D1-3-S01: データ ウェアハウスのあるべき姿と BigQuery の新機能 2024
データウェアハウスライトは、データを提供するためのノンフリルで素朴な、ローテクなアプローチです。あなたのビジネス意思決定。 No-Fillとは、可能な限り、組織内ですでに実績のある機能とツールを組み合わせてシステムを構築することです。
データウェアハウスライトのサブジェクトエリアとデータ内容
データウェアハウスライトは、1つまたはおそらく2つのサブジェクトエリアのみのレポートまたは分析に焦点を当てています。電話会社の無線部門の職場で、ネットワーク内の分、ネットワーク外の分、テキストメッセージング、インターネットアクセス、その他のモバイル使用などのサービスの売上を消費者家計に分析するとします。
<! - 1 - >この目的のためだけにデータウェアハウスライトを構築する場合は、消費者市場向けの分析とレポート作成をサポートするために必要なすべての情報があります。ただし、この図に示すように、ビジネスユーザーと支払い履歴についての情報は、別のサブジェクトエリアの一部であるため、情報はありません。
<!データウェアハウスライトは、主題領域の制限に基づいて、環境の主目的を満たすのに十分なデータコンテンツを備えていますが、ユーザーが作成する多くの非構造化仮想シナリオでは十分ではありません。したがって、すべての可能なデータ要素のセットから慎重に選択し、管理可能なサブセットを選択する必要があります。要素は間違いなく重要です。このプロセスは、データウェアハウスの実装でも同じですが、コンテンツを含めるかどうかを決定する際には非常に慎重に扱う必要があります。<! - 3 - >
データウェアハウスライトのデータコンテンツを決定するための主要なガイドの1つとして、標準的なレポート、特に手動で大量の準備が必要なレポートを使用します。
データソースデータウェアハウスライトは、限られた数のデータソースを持っています。たとえば、全体的な単一アプリケーション環境の一部として、データウェアハウスライトは、アプリケーションのデータの再構成エージェントとして機能し、より多くのクエリとレポートに対応します。
単一のアプリケーションのデータを再構築する最も一般的な方法は、アプリケーションのリレーショナルデータベーステーブルの内容を非正規化して、多数の
リレーショナルジョイン操作
(複数のデータベーステーブルからデータを集めるプロセス)ユーザーがレポートを実行したり、簡単なクエリを実行したりするときに、 非正規化は、データベースのどのテーブルにどのデータ要素を入れるべきかを指示する幾分複雑なガイドラインの、正規化というリレーショナルデータベースの概念の逆です。 データベースを非正規化すると、重複したデータについて心配する必要はありません。単一のテーブルにデータの行を作成しようとすると、ユーザーが実行するレポートとクエリを反映する可能性が高くなります。この図は、非正規化に基づいて構築された単一ソースのデータウェアハウスライトの例を示しています。
データウェアハウスライトの実装で外部から提供されたデータを使用することはできますが、使用するデータは新規取得されることはめったにありません。分析のために既に使用しているデータを(おそらく、スタンドアロンで)組み込む可能性が高くなります。
ビジネスインテリジェンスツール データウェアハウスのユーザーは通常、質問をし、「何が起こったか教えてください」という視点を反映したレポートを作成します。これらのユーザーは大量の分析処理を行わないため、データウェアハウスにアクセスするために使用する製品は使いやすいものにする必要があります。 データの抽出、移動、読み込み
シンプリシティは、データウェアハウスライトのゲームの名前です。したがって、ソースからデータを抽出し、次の2つの要素を使用して、データを準備するために必要なすべての機能を実行するプロセスを作成します。
run-the-businessシステムからの単純なファイル抽出と、ソースからデータウェアハウスにデータを移動できますlite
データを抽出して移動できる簡単なカスタムコード(または使いやすいツール)
データウェアハウスライトのデータソースがリレーショナルデータベース上に構築され、データウェアハウスに同じデータベース製品を使用する予定がある場合は、SQLを使用してデータの抽出と移動を容易に処理します。これらの手順は、図に示すように、このプロセスの標準的な手順を提供します(もちろん、これらの手順を特定の環境に合わせて調整する必要があります)。
倉庫を格納するシステムでは、SQL CREATE TABLEデータウェアハウスの各テーブルの定義を作成します。
-
データをウェアハウスに提供するソースからすべてのテーブルのコピーを含むデータベース
-
バックアップ
を作成し、それらのテーブルをデータウェアハウスを配置する予定のシステム上のステージング領域にリロードします。
-
ファイル転送プログラムを使用して、すべてのソーステーブルをシステムにコピーするのに十分なネットワーク帯域幅と時間帯があることを確認する必要があります。
-
SQL INSERT文を使用して、ソース・テーブルと、データ・ウェアハウス・テーブルに移入する各カラム(およびテーブルの結合方法)を指定し、データ・ウェアハウス・ライトにデータをロードするネストしたSELECT文を使用します。 一連の品質保証(QA)ルーチンを実行して、すべてのデータが正しくロードされたことを確認します。 行数、数値合計などを確認します。
アーキテクチャ
-
データウェアハウスライトのアーキテクチャは、データを格納するために使用されるデータベース、データへのアクセスに使用されるフロントエンドビジネスインテリジェンスツール、データの移動方法、および件名エリア。この環境の言葉は最小限のものであり、鈴がなく、笛が鳴らず、空想的なものではありません。ユーザーに必要なデータにアクセスできるだけの十分な技術が環境に適用されています。
-
この図に示すように、データウェアハウスライトのアーキテクチャには、次の主要コンポーネントタイプが含まれています。
単一データベースにはウェアハウスのデータが含まれます。
そのデータベースは、倉庫にデータを提供する各ソースから直接供給されます。
ユーザーは倉庫から直接データにアクセスします。