ビデオ: Technology Stacks - Computer Science for Business Leaders 2016 2024
Hadoopのエンタープライズにおける最も初期の使用例の1つは、データウェアハウスにバインドされたデータを前処理するために使用されるプログラム変換エンジンでした。基本的に、このユースケースは、データウェアハウスにロードされる前にHadoopエコシステムの力を活用して変換を操作してデータに適用します(999)。 実際の変換エンジンは新しいものです(Hadoopのため、変換やデータフローはPigやMapReduceなどの言語でコード化されています)、アプローチ自体はExtract、Transform、Load(ETL)プロセスで使用されていました。 <! - 1 - >
OLTPとROLAPデータベースの進化について考えてみましょう。運用データベースを持つ多くの組織でもデータウェアハウスが導入されています。では、IT部門は、運用データベースからデータウェアハウスにデータをどのように取得しますか? (運用データは通常、分析に適した形式ではないことを覚えておいてください)。
ここでの答えはETLであり、データウェアハウスの使用と重要性が増したため、プロセスの手順がよく理解され、発展した。また、多くのソフトウェア企業が、IT部門が独自のカスタムコード開発を最小限に抑えることができるように、興味深いETLソリューションを提供し始めました。<! E
運用データベースからデータを取得し、
T分析に必要な形式に変換し、レポートツールを使用して、このデータをデータウェアハウスに送信します。 ETLの一般的なバリエーションの1つは、ELT - 抽出、ロード、および変換です。 ELTプロセスでは、ターゲット・リポジトリにデータをロードした後に、変換を実行します(ETLとは対照的に) 。このアプローチは、構造化されたデータに対する非常に高速なSQL処理エンジンのメリットが大きく寄与する場合によく使用されます。 (リレーショナルデータベースは、非構造化データの処理には優れていないかもしれませんが、どのような構造化データが非常に高速に処理されますか?) - 3 - > 変換しているデータがデータウェアハウス用で、それらの変換の多くをSQLで実行できる場合は、データウェアハウス自体で変換を実行することもできます。 ELTは、スキルセットの大半がSQLベースのツールを使用している場合に特に魅力的です。 HadoopはSQLクエリを処理できるようになり、ETLとELTの両方のワークロードをHadoopでホストすることができます。図は、参照アーキテクチャに追加されたETLサービスを示しています。 Hadoopベースのランディングゾーンを導入した場合、Hadoopを変換エンジンとして使用するために必要なものはほとんどすべて用意されています。あなたはすでに、抽出ステップをカバーするSqoopを使用して、運用システムからHadoopにデータを読み込んでいます。この時点で、MapReduceまたはPigアプリケーションに変換ロジックを実装する必要があります。データが変換された後、Sqoopを使用してデータウェアハウスにデータをロードできます。
データ変換エンジンとしてHadoopを使用すると、可能性も高まります。データウェアハウスでデータを変更しない場合(レポート作成のみ)、変換プロセスを使用して生成したデータを保持することができます。このモデルでは、データは操作上のデータベースから抽出され、ランディングゾーンで変換され、データウェアハウスにロードされる図の左から右へと流れるだけです。 変換されたすべてのデータが既にランディングゾーンにあるため、データをHadoopにコピーする必要はありません。もちろん、データは倉庫で変更されます。