企業データウェアハウスのほとんどのデータはほとんど問合せされません。データベースベンダーは、どのようなデータがどこに配置されるかを分類するための独自の方法を実装することによって、そのような観察に応えてきました。
1つの方法では、データを暑い、暖かい、または寒い場所(多くのベンダーのために提案されているソリューションは、多くの場合、 アクティブな データと呼ばれる)が頻繁に使用され、 データウェアハウス・エンクロージャー内の低速ディスクにコールド・データを保管したり、ホット・データをメモリー内に保持するための賢明なキャッシング戦略を作成したりすることができます。 <! - 1 - > たとえ低速のストレージが使用されていても、倉庫内で冷たく、まれにしか使用されないデータを保管するのはまだ高価です。ハードウェアおよびソフトウェアのライセンス。同時に、寒さと休眠データはしばしばテープにアーカイブされます。 旧式のテープを要求しなくても、費用効果が高く比較的効率的な方法ですべての低温データを照会したい場合、この従来のデータアーカイブモデルは壊れてしまいます。 <! - 2 - > Hadoopのコストと運用上の特徴を見れば、確かに新しいバックアップテープになると思われます。 Hadoopシステムは、データウェアハウスシステムに通常配備されているものよりも低いハードウェアを使用するように設計されているため、Hadoopは安価です。もう1つの重要なコスト削減はソフトウェアライセンスです。
市販のHadoopディストリビューションライセンスは、高価であることで有名なリレーショナルデータウェアハウスソフトウェアライセンスのコストのほんの一部を必要とします。運用上の観点から、Hadoopは既存のクラスタに追加のスレーブノードを追加するだけで簡単に拡張できるように設計されています。スレーブノードが追加され、データセットの量が増えるにつれて、Hadoopのデータ処理フレームワークは、アプリケーションが増加したワークロードをシームレスに処理できるようにします。<! Hadoopは、文字通り何千ものサーバーに処理をプッシュするシンプルで柔軟性があり、安価な方法です。
スケーラブルで安価なアーキテクチャでは、Hadoopは倉庫データをアーカイブするのに最適な選択です。小さな問題を除いて:ほとんどのIT世界はSQL上で動作し、独自のSQLはHadoopでうまく機能しません。
もちろん、Hadoopに優しいNoSQLの動きが活発であるほどですが、大部分のパワーユーザーは、Tableau、Microsoft Excelなどの製品でSQLクエリを生成する一般的な既製のツールセットを使用してSQLを使用しています、IBM Cognos BIなどがあります。HadoopのエコシステムにはHiveが含まれているのは事実ですが、HiveはSQLのサブセットのみをサポートしていますが、パフォーマンスは向上しています(SQLのサポートとともに)。最近では、HadoopへのSQLアクセスに関する大きな進展があり、Hadoopがオンラインデータウェアハウスアーカイブの新しい宛先になる道が開けました。
<! - 1 - >
Hadoopベンダーによっては、SQL(またはSQLライクな)APIが利用できるようになっているので、より一般的な既製のレポート作成ツールや分析ツールでは、 Hadoop。たとえば、IBMはBig SQL APIを、ClouderaはImpalaを、Hive自体はHortonworks Stingerのイニシアチブを通じて、ますますSQLに準拠しています。Hiveの拡張を目的としたものもあれば、Hiveを拡張するものもあれば、代替物を提供するものもありますが、これらのソリューションはすべて2つの問題に取り組もうとしています.MapReduceは、 SQLアクセスはITスタッフが既存のSQLスキルを使用してHadoopに保存されているデータを活用するための鍵です。