ビデオ: Excel VLOOKUPからのAccess #06 SQL入門(クエリ) 2024
多くの企業が、HadoopデータへのSQLアクセスのためのオープンソースプロジェクトと独自のソリューションを推進するために多額の投資を行っています。 SQLアクセス という言葉が聞こえたら、いくつかの基本的な前提に頼っていることを知っておくべきです:
-
言語標準: もちろん、最も重要な標準は言語そのものです。多くの「SQLライクな」ソリューションが存在しますが、一般的に特定の基本的な方法では測定しません。典型的なSQL文でさえも機能しないようにする方法です。
<! ANSIは公式の技術標準としてSQLを確立しました.IT業界は、ANSI SQL-92標準を基本SQL準拠のベンチマークとして受け入れています。 ANSIは、データベース技術が進化するにつれて、ますます高度なバージョンを徐々にリリースしてきました。ドライバ:
-
SQLアクセスソリューションのもう一つの重要なコンポーネントは、アプリケーションがデータストアに接続してデータを交換するためのインターフェイスである ドライバ です。ドライバがなければ、SQLクエリーの提出のために接続するクライアントアプリケーションやツール用のSQLインターフェイスはありません。 <!したがって、Hadoopソリューション上のSQLは、最も一般的に使用されるデータベースインターフェイス技術であるため、JDBCとODBCドライバを最低限必要とします。
リアルタイムアクセス:Hadoop 2まで、MapReduceベースの実行は、Hadoopに格納されたデータに対する分析の唯一のオプションでした。テーブル内のデータのフルスキャンを含む比較的単純なクエリの場合、Hadoopは従来のリレーショナルデータベースと比較して非常に高速でした。
-
は時間を意味します。しかし、データのサブセットを含むより複雑なクエリになったとき、Hadoopはうまく機能しませんでした。 MapReduceはバッチ処理のフレームワークなので、Hadoop 2の前にリアルタイムのクエリで高いパフォーマンスを達成するのは構造的に不可能でした。 ブロック上の新しいリソース管理およびスケジューリングシステムであるYARNの初期のモチベーション者は、インタラクティブなSQLクエリなどのリアルタイムのワークロードを可能にするために、他の処理フレームワークをサポートする必要がありました。確かに、適切なSQLソリューションは、合理的なクエリを待っている人を残すべきではありません。 変更可能なデータ:
HadoopでのSQLサポートに関する多くの議論でよくある質問は、「典型的なリレーショナルデータベースで実行できるように、、およびステートメントを使用できますか? 「今のところ、答えは「いいえ」です。これはHDFSの性質を反映しています。大きな不変ファイルに焦点を当てています。Hiveなどの技術は、これらのファイルへの読み取り専用アクセスを提供します。それにかかわらず、Hive Apacheプロジェクトでは作業が進行中です。
-