ビデオ: Doug Cutting: The Origins of Hadoop 2024
HadoopはApache Software Foundationによって開発されたオープンソースのデータ処理ツールです。 Hadoopは現在、大規模なコンピューティングをより手頃で柔軟性に富むように設計されているため、膨大な量のデータやさまざまなデータを処理するためのプログラムです。 Hadoopが登場したことで、大量のデータ処理が大幅に多くの人や組織に導入されました。
Hadoopは、構造化、半構造化、および非構造化データの大量ストリームを処理、グループ化、グループ化する優れたソリューションを提供します。 Hadoopをセットアップして導入することで、どこかの古いデータウェアハウスに座っているトランザクションデータセットだけに頼るのではなく、組織のすべてのデータから洞察を使い始める比較的手頃な方法が得られます。
<! - 1 - >Hadoopは、大規模なコンピューティング要件で利用できる最も一般的なプログラムの1つです。 Hadoopは大部分の大規模なデータプロジェクトのデータ処理要件を処理できるmap-and-reduceレイヤーを提供します。
Hadoopでさえ処理するには、データが大きすぎて高速になることがあります。このような場合、組織は代わりに、よりカスタマイズされた代わりのMapReduceの代わりの代わりの方法を採用しています。
<! - 2 - >Hadoopは、商品ハードウェアのクラスタを使用してデータを格納します。各クラスタのハードウェアが接続され、このハードウェアは、 コモディティ サーバー - 低コストでパフォーマンスの低い汎用サーバーで構成され、共有クラスタ全体で並列実行すると強力なコンピューティング機能を提供します。これらのコモディティサーバーは ノード とも呼ばれます。コモディティ化されたコンピューティングは、大きなデータの処理と保存に伴うコストを大幅に削減します。
<! Hadoopは以下の2つのコンポーネントで構成されています。分散処理フレームワーク:
-
Hadoopは分散処理フレームワークとしてHadoop MapReduceを使用します。ここでもまた、 分散処理フレームワーク は、処理タスクがノードのクラスタに分散される強力なフレームワークであり、大容量のデータボリュームをシステム全体で非常に迅速に処理できるようにします。 分散ファイルシステム:
-
Hadoopは分散ファイルシステムとしてHadoop分散ファイルシステム(HDFS)を使用します。 Hadoopで実行されるアプリケーションのワークロードは、Hadoopクラスタのノード間で分割され、出力はHDFSに格納されます。 Hadoopクラスタは、数千のノードで構成できます。入出力(I / O)プロセスのコストを低く抑えるため、Hadoop MapReduceジョブは可能な限りデータに近い状態で実行されます。
これは、削減タスクプロセッサが、処理する必要がある出力マップタスクデータにできるだけ近く配置されることを意味します。この設計により、大きなデータ処理での計算要件の共有が容易になります。
Hadoopは階層構造もサポートしています。そのノードのいくつかはマスターノードとして分類され、他のノードはスレーブとして分類されます。
JobTracker 、 と呼ばれるマスターサービスは、複数のスレーブサービスを制御するように設計されています。スレーブサービス( TaskTrackers とも呼ばれる)は、各ノードに1つずつ配布されます。 JobTrackerはTaskTrackerを制御し、Hadoop MapReduceタスクをタスクトラッカーに割り当てます。 Hadoop 2という新しいバージョンのHadoopでは、Hadoop YARNというリソースマネージャーが追加されました。 HadoopのMapReduceに関して、YARNはリソース管理とスケジューリング機能を実行する統合システムとして機能します。
Hadoopはデータを一括して処理します。したがって、リアルタイムのストリーミングデータを扱う場合、Hadoopを使用して大きなデータの問題を処理することはできません。これは、他の多くの種類の大きなデータ問題を解決するのに非常に役立つと述べています。