ビデオ: Technology Stacks - Computer Science for Business Leaders 2016 2024
分析環境将来のように見えるかもしれませんが、Hadoopをベースにしたランディングゾーンのパターンを再び偶然見つけます。実際には、将来の企業がITコストを節約しようとしており、革新的なデータ分析のプラットフォームを提供するようになっているため、着陸地帯は 着陸地帯はどうですか?最も基本的なレベルでは、
ランディングゾーン は、企業の中にデータが格納される中心的な場所にすぎません。たとえば、運用データベースやログファイルを生成するシステムからデータを毎週抽出します。 Hadoopは、次の理由からデータを格納するための便利なリポジトリです。 <! - 1 - >
あらゆる種類のデータを扱うことができます。-
簡単に拡張できます。
-
安価です。
-
Hadoopにデータを格納すると、さまざまな方法でデータのクエリ、分析、または処理を柔軟に行うことができます。
-
この図はストーリーの一部のみを示しており、決して完全ではありません。結局のところ、データがどのようにランディングゾーンからデータウェアハウスに移動するかなどを知る必要があります。
<! - 2 - >
データウェアハウスの近代化に関する議論の出発点は、組織がデータウェアハウスをどのように使用し、IT部門が直面している課題であるかにあります。1980年代、組織は業務情報をリレーショナルデータベース(販売取引やサプライチェーンの状況など)に保存することができれば、ビジネスリーダーはこのリレーショナルデータからレポートを生成したいと考え始めました。最も初期のリレーショナルストアは運用データベースで、オンライントランザクション処理(OLTP)用に設計されているため、できるだけ早くレコードを挿入、更新、または削除することができました。
<! - 3 - >
これは、大規模なレポート作成および分析のための実用的でないアーキテクチャなので、Relational Online Analytical Processing(ROLAP)データベースは、このニーズを満たすために開発されました。これにより、まったく新しい種類のRDBMS(データウェアハウス、別のエンティティであり組織の運用データストアと並んで存在する)の進化がもたらされました。 これは、トランザクションを効率的に処理するために設計された運用データストアと、繰り返し分析およびレポートをサポートするように設計されたデータウェアハウスを備えています。 データウェアハウスのストレスはますます高まっています。理由は次のとおりです。
他の倉庫やデータマートで使用するためにデータを変換する処理リソースの需要が増加しました。
革新的な分析の需要が増加しました。アナリストは、すでに実行されている定期的なレポートの上に、倉庫データに関する質問を提出する必要があります。これにより、重大な追加処理が発生する可能性があります。
-
この図では、図の右端にリストされているさまざまな種類の分析の主要リソースとして提示されたデータウェアハウスを見ることができます。 Hadoopはさまざまな着信データソースからのデータを格納するランディングゾーンの概念を紹介しています。
-
Hadoopランディングゾーンを有効にするには、さまざまなデータソースからHDFSにデータを書き込む必要があります。リレーショナルデータベースの場合、良い解決策はSqoopを使うことです。
-
しかし、データの着陸は始まりにすぎません。
多くのソースからランディングゾーンにデータを移動する際には、必然的に問題になるのはデータの品質です。企業は、重要な詳細が異なる多くの運用データベースを持つことが一般的です。たとえば、顧客は「D. 1つのデータベースではdeRoos、別のデータベースでは「Dirk deRoos」です。
もう一つの品質問題は、顧客や職員からの手作業によるデータ入力に大きく依存しているシステムにあります。ここでは、データフィールドのファーストネームやラストネームの切り替えやその他の誤解を見つけることは珍しくありません。
データウェアハウス環境では、データ品質の問題は大きな問題です。そのため、他のシステムからのデータがウェアハウスにロードされるときに処理されるため、多くの努力がクレンジングと検証ステップに入ります。
trust
:質問するデータが汚れている場合は、レポート内の回答を信頼できません。
Hadoopのランディングゾーンではさまざまなソースからさまざまなデータセットにアクセスできる可能性がありますが、データの品質とデータの信頼性を考慮する必要があります。