ビデオ: Impala Hadoop Tutorial | Cloudera Impala Hands On | Hadoop Impala Architecture | COSO IT 2024
Clouderaは、大規模データ市場におけるApache Hadoopのソフトウェアとサービスの大手プロバイダーです。 Apache Drillと同様に、ClouderaのImpala技術は、Hadoopユーザーのインタラクティブなクエリ応答時間を改善することを目指しています。 Apache Hiveは、Hadoopユーザーにとって使い慣れた強力なクエリメカニズムを提供していますが、HiveがMapReduceに依存しているため、クエリ応答時間がしばしば許容できません。この問題に対するClouderaの答えはImpalaです。
<! - 1 - >Clouderaは、Apache Hiveが活用しているMapReduce層を置き換えるために、C ++で書かれたMPPクエリエンジンを開発しました。 DouleelとDrillとは異なり、Clouderaは、JavaエンジンではなくネイティブのC ++ MPPエンジンが高速かつインタラクティブなHadoopクエリの答えと判断しました。
ImpalaはプログラミングインターフェイスとしてHiveQLを使用し、ImpalaのQuery ExecエンジンはHDFSデータノードと同じ場所に配置され、データを処理タスクと同じ場所に配置するというHadoopのアプローチに対応しています。 Impalaでは、HBaseをデータストアとして使用することもできます。この意味で、ImpalaはApache Hadoopの拡張版で、Hive-on-Top-of-MapReduceモデルの代わりに非常に高いパフォーマンスを提供します。
<! - 2 - >ClouderaとTwitterは、新しいHadoopファイル形式の開発を主導しました。これはImpalaで使用でき、GitHubのオープンソースとして利用できます。 Parquetファイル形式は、Hadoopにデータを格納するための堅牢な円柱状媒体を提供します。これは、高効率の圧縮とエンコーディングをサポートし、ネストされたデータ構造を格納するのに有効です。
あなたはGoogleのDremelの発明からインスパイアされたClouderaのImpala技術を見つけることができます。