ビデオ: Developer Keynote: Get to the Fun Part (Cloud Next '19) 2024
ETLツールは、1つのビッグデータ環境からデータを取得するために必要な3つの重要な機能(抽出、変換、ロード)を組み合わせています。データウェアハウスは、ビジネスユーザーに情報を統合して、それを別のデータ環境に置きます。従来、ETLはデータウェアハウス環境でバッチ処理に使用されてきました。データウェアハウスは、ビジネスユーザーに、情報を統合してビジネスフォーカスに関連するデータを分析および報告する方法を提供します。 ETLツールは、データをデータウェアハウスに必要な形式に変換するために使用されます。
<! - 1 - >変換は実際には中間の場所で行われ、データウェアハウスにデータがロードされます。 IBM、Informatica、Pervasive、Talend、Pentahoなど、多くのソフトウェアベンダーがETLソフトウェアツールを提供しています。
抽出:
-
ソースデータベースからデータを読み取ります。
-
抽出されたデータのフォーマットを、ターゲットデータベースの要件に適合するように変換します。変換は、ルールを使用するか、他のデータとデータをマージすることによって行われます。 ロード:
-
ターゲットデータベースにデータを書き込みます。 しかし、ETLは従来のデータウェアハウスよりはるかに多くの統合をサポートするように進化しています。 ETLは、トランザクションシステム、運用データストア、BIプラットフォーム、MDMハブ、クラウド、およびHadoopプラットフォーム間の統合をサポートできます。 ETLソフトウェアベンダーは、Hadoopと従来のデータ管理プラットフォームの間で大きなデータの抽出、変換、および読み込みを行うためにソリューションを拡張しています。
<! ETLとデータ・クレンジング、プロファイリング、監査などの他のデータ統合プロセスのソフトウェア・ツールはすべて、データのさまざまな側面を処理し、データが確実に信頼できるものとみなされます。 ETLツールはデータ品質ツールと統合されており、多くはデータクレンジング、データマッピング、データ系列の識別のためのツールを組み込んでいます。 ETLでは、統合に必要なデータのみを抽出します。
ETLツールは、構造化データおよび非構造化データのHadoopへのロードおよび変換に必要です。高度なETLツールは、複数のファイルをHadoopとの間で並列に読み書きし、データが共通の変換プロセスにどのようにマージされるかを簡素化します。一部のソリューションには、Hadoopまたは従来のグリッドインフラストラクチャで実行されるトランザクションデータとインタラクションデータの両方に、事前作成されたETL変換のライブラリが組み込まれています。データ変換は、さまざまなアプリケーションで使用できるようにデータのフォーマットを変更するプロセスです。これは、データが格納される形式から、データを使用するアプリケーションが必要とする形式に変更されることを意味します。このプロセスには、
マッピング
命令も含まれているため、アプリケーションは処理する必要があるデータを取得する方法を指示されます。 非構造化データの量が驚異的に増加したため、データ変換のプロセスははるかに複雑になりました。顧客関係管理などのビジネスアプリケーションには、データの保存方法に関する特定の要件があります。データは、リレーショナルデータベースの整列された行と列で 構造化される可能性があります。データが厳格なフォーマット要件を満たさない場合、データは半構造化されているか、または構造化されていない999
電子メールメッセージに含まれる情報は、たとえば、構造化されていないとみなされます。会社の最も重要な情報の一部は、文書、電子メールメッセージ、複雑なメッセージング形式、顧客サポートのやりとり、トランザクション、ERPやCRMなどのパッケージ化されたアプリケーションからの情報などの非構造化および半構造化された形式です。 データ変換ツールは、非構造化データでうまく機能するようには設計されていません。その結果、非構造化情報をビジネスプロセスの意思決定に組み込む必要がある企業は、必要なデータ統合を達成するために多大な量の手作業によるコーディングに直面していました。 主要ベンダーのETLソリューションは、非構造化データの意思決定への成長と重要性を考慮して、非構造化データの変換に標準化されたアプローチを提供し始めています。