ビデオ: Google I/O 2012 - Crunching Big Data with BigQuery 2024
ほとんどの人にとって、 Dremel という用語は、家の周りのいろいろな職場でうまく機能する便利な高速、低トルクのツールに気づいています。しかし、GoogleがDremelを作成したことはご存知ですか?しかし、 別のハンドヘルド機械ツールを製作するのではなく、Googleは、大きなデータをインタラクティブに分析するための高速ソフトウェアツールを選択しました。 MapReduce、Google File System(HDFS)、BigTable(HBase参照)など、Hadoopエコシステムの一部にインスパイアされた他のGoogleテクノロジーと同様に、Googleは内部で使用するためにDremelを開発し、目的とデザイン技術の(言い換えれば、DremelはあなたのHadoopクラスタでダウンロードして使用できるものではありません。)
<! Googleは、ウェブクロールされた文書の分析、電子メールスパムの検出、アプリケーションクラッシュレポートの処理など、さまざまな業務にDremelを使用しています。 GoogleのBigQueryサービスは実際にDremelを使用します。
Googleは大量のデータをバッチ処理するためのMapReduce技術を設計しました。彼らのニーズが進展するにつれて、技術も向上しました。Googleは、大きなデータセットに対する対話型クエリのパフォーマンスを向上させるためにDremelを作成することに決めました。<! MapReduceのアプローチはスケーラビリティとクエリフォールトトレランスを提供しますが、基本的にはバッチベースのシステムなので、小さなクエリ(データセット全体のうちのほんの一部のみを含むクエリ)の応答時間は、ユーザが期待するものではないことが多い。
Googleはインタラクティブクエリ用に設計されたクエリ実行テクノロジを開発しました。これはGoogleファイルシステム(GFS)上の中間サーバーで実行されます。 (GFSは、HadoopのファイルシステムであるApache HDFSのインスピレーションでした。)
<! - 3 - >Hiveと同様に、DremelはSQLライクな言語(ほとんどのプログラマーにはよく知られています)を使用し、円柱データレイアウトを採用しています。 Dremelは、Apache Hiveにあるスケーラビリティとフォールト・トレランスを維持しながら、高速でインタラクティブなクエリ応答を提供します。 Dremelのホワイトペーパーでは、1兆行を超えるテーブルに対して数秒で集計クエリを実行する方法について説明しています。
Googleには内部で使用されているDremel技術がありますが、Dremel(「Drakkar Noir」にインスパイアされたすべての香水のようなもの)に触発されたすべての技術があります。