ビデオ: Technology Stacks - Computer Science for Business Leaders 2016 2024
Hadoopの影響を受けたETLエンジンのアイデアは、近年大きな牽引力を発揮しています。結局のところ、Hadoopは膨大な量のデータとそのデータに対する操作をサポートできる柔軟なデータストレージと処理プラットフォームです。同時に、耐障害性があり、資本やソフトウェアのコスト削減の機会を提供します。
EHDエンジンとしてのHadoopの人気にもかかわらず、有名なアナリスト企業を含む多くの人々は、HadoopをETL戦略の唯一の技術として推奨していません。これは、ETLフローを開発するためには、組織の既存のデータベースシステム、データそのものの性質、およびそれに依存するレポートやアプリケーションについての多くの専門知識が必要となるためです。
<! - 1 - >つまり、IT部門のDBA、開発者、アーキテクトは、必要なETLフローを実装するためにHadoopに精通している必要があります。たとえば、最も簡単なデータフローを作成するには、Pig、Hive、またはMapReduceを使用した集中的なハンドコーディングが必要な場合があります。このパスに従えば、スキルを習得することができます。
並列デバッグ、アプリケーション管理サービス(チェックポインティング、エラー、イベント処理など)などの要素をコーディングする必要があります。また、用語集などの企業の要件を考慮して、データの系列を示すことができます。
<! - 2 - >多くの業界標準レポートには、データ系列が必要な規制要件があります。報告組織は、レポート内のデータポイントがどこから来たのか、どのようにデータが得られたのか、データに対して何が行われたのかを示すことができなければなりません。
リレーショナルデータベースシステムであっても、ETLは複雑であり、ETLフローを管理および開発するためのインターフェースを提供する一般的な専門製品が存在する。これらの製品の中には、HadoopベースのETLやその他のHadoopベースの開発を支援するものもあります。ただし、要件に応じて、変換ロジックをサポートするために独自のコードを記述する必要があります。