ビデオ: Kenneth Cukier: Big data is better data 2024
Yahooのような検索エンジンの革新者Googleはボグデータの問題に直面していました。彼らは、エンジンが集めていた大量のデータを理解する方法を見つける必要がありました。これらの企業は、収集している情報とビジネスモデルをサポートするためにデータを収益化する方法を理解する必要がありました。
Hadoopは、企業が膨大な量のデータを簡単に管理できるようにするための最も実用的な方法であるため開発されました。 Hadoopは大きな問題をより小さな要素に分割し、迅速かつ費用対効果の高い分析を可能にしました。
<! - 1 - >大きなデータの問題を並列処理できる小さな部分に分割することで、情報を処理し、小さな部分を再グループ化して結果を提示することができます。
HadoopはもともとYahoo! Doug Cuttingという名前のエンジニアであり、現在Apache Software Foundationによって管理されているオープンソースプロジェクトです。これはApache License v2で利用可能になりました。 Hadoopは、大きなデータをキャプチャして処理するという我々の願望の基本的な構成要素である。 Hadoopは、コンピューティングノード間でデータ処理を並列化して計算時間を短縮し、レイテンシを隠すように設計されています。 Hadoopの中核には、
-
信頼性が高く、帯域幅が広く、低コストのデータストレージクラスタで、複数のマシン間で関連ファイルの管理を容易にします。 MapReduceエンジン:
-
MapReduceアルゴリズムの高性能並列/分散データ処理インプリメンテーション。 Hadoopは膨大な量の構造化データと非構造化データ(テラバイト〜ペタバイト)を処理するように設計されており、Hadoopクラスタとして汎用サーバーのラックに実装されています。 Hadoopは「自己回復」するように設計されているため、サーバはクラスタに動的に追加または削除できます。言い換えれば、Hadoopは障害を含む変化を検出し、その変化に適応し、中断することなく動作を継続することができます。