目次:
- <! - 3 - >
- コンピューティング技術の進化により、膨大な量のデータを管理することが可能になりました。システムの価格が下がり、その結果、分散コンピューティングの新しい技術が主流になりました。本当のブレークスルーはYahoo! 、Google、Facebookは、大量のデータを収益化するための助けが必要であることを認識しました。
ビデオ: Everything You Need to Know About 5G 2024
あなたの大きなデータアーキテクチャは、組織のサポートインフラストラクチャと連携して実行する必要もあります。たとえば、温度、塩分、堆積物の再懸濁のリアルタイムデータ、およびその他の生物学的、化学的および物理的性質のホストを与えられたオフショア地域の石油を掘削することが安全であるかどうかを判断するモデルを実行することに興味があるかもしれません。水柱。
従来のサーバー構成を使用してこのモデルを実行するには数日かかる場合があります。しかし、分散コンピューティングモデルを使用すると、数日かかることがありました。
<! - 1 - >パフォーマンスによって、使用するデータベースの種類も決まります。たとえば、2つの非常に異なるデータ要素がどのように関連しているかを理解したい場合があります。ソーシャルネットワークの話題と売上の伸びとの関係は何ですか?これは、構造化されたリレーショナル・データベースの典型的な問合せではありません。
「ノード」またはエンティティを「プロパティ」またはそのエンティティを定義する情報、およびノードとプロパティの「エッジ」または関係から分離するように特別に設計されているため、グラフ化データベースを選択するほうがよいかもしれません。正しいデータベースを使用すると、パフォーマンスも向上します。通常、グラフデータベースは、科学技術的なアプリケーションで使用されます。
<!他の重要な運用データベースのアプローチには、列ではなく列に情報を効率的に格納する列データベースがあります。このアプローチは、入出力が非常に高速であるため、パフォーマンスが向上します。地理データ・ストレージが方程式の一部である場合、空間データベースは、オブジェクトが空間内でどのように関連しているかに基づいてデータを格納および照会するように最適化されます。大きなデータサービスとツールを整理する
<! - 3 - >
組織が使用するすべてのデータが運用可能なわけではありません。ますます多くのデータは、機械やセンサーからのデータ、膨大な公的および私的データソースを含む、きわめて整然としたものではないさまざまなソースからのものです。過去には、大部分の企業がこの膨大な量のデータをキャプチャまたは格納することができませんでした。それは単に高すぎたり、あまりにも圧倒的だった。企業がデータを収集することができたとしても、企業はデータを収集するツールを持っていませんでした。これら膨大な量のデータを理解できるツールはごくわずかです。存在していたツールは、使用するのが複雑であり、合理的な時間枠で結果を出さなかった。
結局のところ、このデータを分析するために多大な努力をしたがっている人は、データのスナップショットを作成することを余儀なくされました。これは、特定のスナップショットにないため、重要なイベントを逃すという望ましくない影響を与えます。
大規模データ用のMapReduce、Hadoop、Big Table
コンピューティング技術の進化により、膨大な量のデータを管理することが可能になりました。システムの価格が下がり、その結果、分散コンピューティングの新しい技術が主流になりました。本当のブレークスルーはYahoo! 、Google、Facebookは、大量のデータを収益化するための助けが必要であることを認識しました。
これらの新興企業は、大量のデータをほぼリアルタイムで保存、アクセス、分析できる新しいテクノロジーを見つける必要があったため、ネットワークの参加者に関するこの多くのデータを所有するメリットを享受することができました。
その結果得られたソリューションは、データ管理市場を変革しています。特に、画期的なMapReduce、Hadoop、Big Tableは、新しい世代のデータ管理をもたらすスパークであることが判明しました。これらのテクノロジは、膨大な量のデータを効率的に、コスト効率良く、タイムリーに処理することができる、最も根本的な問題の1つに対処しています。
MapReduce
MapReduceは、バッチモードで大量のデータに対する一連の関数を効率的に実行する方法として、Googleによって設計されました。 「マップ」コンポーネントは、プログラミング上の問題を多数のシステムに分散し、タスクの配置を処理します。また、負荷のバランスをとって障害回復を管理します。 「reduce」という別の関数は、すべての要素を集約して結果を返します。
Big Table
Big Tableは、スケーラビリティの高い構造化データを管理するための分散ストレージシステムとしてGoogleによって開発されました。データは、行と列を持つテーブルに編成されます。従来のリレーショナルデータベースモデルとは異なり、Big Tableは散在した永続的な多次元ソートマップです。コモディティサーバーに大量のデータを格納することを目的としています。
Hadoop
HadoopはMapReduceとBig Tableから派生したApache管理のソフトウェアフレームワークです。 Hadoopは、MapReduceに基づくアプリケーションをコモディティハードウェアの大規模クラスタ上で実行することを可能にします。このプロジェクトはYahoo!をサポートするコンピューティングアーキテクチャの基盤ですのビジネス。 Hadoopは、コンピューティングノード間でデータ処理を並列化して計算時間を短縮し、レイテンシを隠すように設計されています。
Hadoopには、ペタバイトのデータをサポートできる大規模にスケーラブルな分散ファイルシステムと、バッチで結果を計算する大規模スケーラブルなMapReduceエンジンという2つの主要コンポーネントがあります。