このユースケースは、パフォーマンスミッションクリティカルなシステムに格納されていないデータに対してHadoopスキルセットを構築することができるため、組織に与える影響は小さくなります。
さらに、データを手に入れるのに苦労する必要はありません。 (アーカイブされたデータは、通常、使用率の低いシステムに保存されるため、データウェアハウスなどのパフォーマンスミッションクリティカルなシステムでは「脚光を浴びている」データよりも簡単に取得できます)。Hadoopを着陸あなたはあなたのアーカイブの基礎を持っています!アーカイブしたいものをそのまま残し、そうでないものは削除します。
<! Hadoopのランディングゾーンについて考えると、図に示すクエリ可能なアーカイブはHadoopの価値を拡大し、すでに企業内に存在する可能性の高い部分を統合し始めます。これは、Hadoopを使用したスケールメリットとコスト削減の機会を見出す素晴らしい例です。ここで、アーカイブコンポーネントは、ランディングゾーンとデータウェアハウスを接続します。アーカイブされるデータは、倉庫内で発生し、Hadoopクラスタに格納され、Hadoopクラスタはランディングゾーンをプロビジョニングします。要するに、同じHadoopクラスタを使用してデータをアーカイブし、着陸ゾーンとして機能させることができます。
<! - 2 - >
アーカイブを実行するために使用する主なHadoopテクノロジは、データウェアハウスからHadoopにアーカイブするデータを移動できるSqoopです。 Hadoopクラスタでどのような形式のデータを使用するかを検討する必要があります。一般に、圧縮されたハイブファイルは良い選択です。もちろん、倉庫構造からのデータを他の形式に変換することもできます(たとえば、冗長性を減らすために正規化された形式など)が、これは一般的には良い考えではありません。ウェアハウス内のデータと同じ構造にデータを保持することで、Hadoop内のアーカイブされたデータとウェアハウス内のアクティブなデータ間で完全なデータセットクエリを実行することがはるかに簡単になります。
<!アクティブなデータセットとアーカイブされたデータセットの両方を照会するというコンセプトは、別の考慮事項をもたらします。実際には2つの選択肢があります。つまり、データウェアハウスでデータが追加および変更されるたびにすべてをアーカイブするか、寒いと思われるデータのみをアーカイブします。
すべてをアーカイブすると、データセット全体で1つのインターフェイスからクエリを簡単に発行できる利点があります。完全なアーカイブがなければ、結果を統合する連合クエリソリューションを把握する必要がありますアーカイブとアクティブなデータウェアハウスを管理します。しかし、ここでの欠点は、データウェアハウスのホットデータの定期的な更新がHadoopベースのアーカイブの頭痛を引き起こすことです。これは、個々の行と列のデータを変更するには、既存のデータセットの完全削除と再カタログ化が必要になるためです。
アーカイブデータはHadoopベースのランディングゾーンに保存されます(前述の圧縮Hiveファイルのようなオプションを使用していると仮定した場合)。これは、Hadoopソリューション上のSQLが面白くなる場所です。
可能なことの優れた例は、Hadoopに格納されたアーカイブされたデータのレポートや分析を直接実行するための分析ツール(図の右側)です。これはデータウェアハウスを置き換えるものではありません。結局のところ、Hadoopは複雑な質問をしている数百人以上の同時ユーザーをサポートするために、倉庫のパフォーマンス特性を一致させることができませんでした。
ここでのポイントは、専用の倉庫やマートで答える新しい質問を試してみるために、Hadoopに対するレポートツールを使用することができることです。
倉庫データをアーカイブする最初のHadoopベースのプロジェクトを開始するときは、新しいHadoopソリューションで完全にテストするまで、現在のプロセスを中断しないでください。つまり、現在の倉庫管理戦略がテープにアーカイブされ、そのプロセスを維持し、シナリオを完全にテストするまでデータをHadoopとテープにデュアルアーカイブすることです(通常、ケースの場合に倉庫データを復元する倉庫の故障の)。
(短期間で)2つのアーカイブリポジトリを管理していますが、実証済みのプロセスを廃止する前に、堅牢なインフラストラクチャを構築し、テストします。このプロセスにより、現在の雇用主と一緒に雇用され続けることが保証されます。
このユースケースは既存の倉庫に変更がないため単純です。まれに使用されているデータをアーカイブに移行することで、ストレージとライセンスのコストを削減するというビジネス目標は変わりません。この場合の違いは、アーカイブの背後にあるテクノロジがテープなどのオフラインストレージではなくHadoopであることです。
さらに、様々なアーカイブベンダーがHadoopをソリューションに組み込み始めています(例えば、独自のアーカイブファイルをHDFS上に置くことを許可するなど)。
Hadoopスキル(Hadoopとリレーショナルデータベースの間でデータを交換し、HDFSでデータを照会するなど)を開発するときに、分析プロジェクトなどのより大きな問題に取り組み、組織のHadoopへの投資価値を高めることができます。