目次:
ビデオ: グリーの様々なサービスを支えるクラウド運用およびデータ分析基盤|AWS Summit Tokyo 2017 2024
ますます多くのデータを処理する必要があるため、ハイブリッドクラウド技術の世界で頻繁に使用されています。大きなデータに関する重要な事実は、大量の複雑なデータを管理するために組織が歴史的に導入した回避策の転換点に存在することです。大きなデータ技術は、人々が実際にこのデータを効果的に分析して利用することを可能にする。
ビッグデータは、一般的にボリューム、バラエティ、およびベロシティの3つの特性を持ちます:
ボリューム:
-
一般に、少なくとも複数テラバイトのデータを指します。ペタバイトの情報を分析するために、多くのビッグデータの実装が検討されています。 999 10 999 999バイト
テラバイト10 9 9 12 > 999 - > - > 種類: ビッグデータはさまざまな形とサイズで提供されます。これには、次の種類のデータが含まれます。 構造化データ は、アナリストが処理に使用する典型的な種類のデータです。これには、データベースに含めると考えるデータの種類である収益と売上数が含まれます。構造化されたデータは、センサーやRFIDタグなどの製品でも新しい形で生産されています。 <! - 3 - > 半構造化されたデータ には構造がありますが、データベースのテーブルについては考えません。これには、EDI形式とXMLが含まれます。 非構造化データ には、文書、電子メールメッセージ、ツイート、企業内またはインターネット上のブログなど、テキスト、イメージ、および音声が含まれます。非構造化データは、すべてのデータの約80%を占めます。 Velocity: これは、データが移動する速度です。ミリ秒ごとにデータをキャプチャするセンサーや医療機器から出力されるデータストリームについて考える。ビッグデータはストリーム内であなたに届くことが多く、それに関連したリアルタイム性があります。 クラウドは、拡張性の高いストレージ、計算能力、および弾力的なリソースのために、大きなデータにとって理想的な場所です。クラウドモデルは大規模です。 Apache Hadoop: Javaで書かれたオープンソースの分散コンピューティング・プラットフォームを含む、このモデルをサポートするためのさまざまなフレームワークと技術が登場しました。これは、コンピュータのクラスタ間で分散処理を可能にするソフトウェアライブラリです。それは本当に分散ファイルシステムです。これは、それぞれがHadoopファイルシステムを持つコンピュータプールを作成します。 Hadoopは、大量の複雑なデータを処理するように設計されています。データは、構造化、非構造化、または半構造化することができます。 Hadoopは、メモリやディスクを共有しない多くのサーバで実行できます。詳細については、Hadoopを参照してください。 MapReduce: 大規模なデータセットで分散コンピューティングをサポートするためにGoogleが導入したソフトウェアフレームワーク。 Hadoopが大きなデータと大きなデータ分析を行っていることの中心にあります。クラウドリソースを活用するように設計されています。このコンピューティングは、 クラスタ と呼ばれる多数のコンピュータで実行され、各クラスタは -
MapReduceは、構造化データと非構造化データの両方を処理できます。ユーザーは、キー/値のペアを処理して中間のペアのセットを生成するマップ関数と、これらのペアをマージするリダクション関数を指定します。 大きなデータ・データベース
-
Hadoopの重要な魅力の1つは、異なるタイプのデータを処理できることです。並列データベース管理システムは数十年にわたり市場に出回っています。ほとんどのテーブルはクラスタ内のノードに分割されており、SQLコマンドをクラスタ内のノードに分割されたプランに変換できるため、並列実行をサポートできます。ただし、構造化されていない自由形式のデータをリレーショナル・モデルの列と行に収めるのは難しいため、ほとんどが構造化データを処理します。 Hadoopは、SQLだけでなく
NoSQL、 -
と呼ばれるものの動きを始めました。この用語は、リレーショナルデータベースシステムとは異なる一連の技術を指します。主な違いの1つは、SQLを使用しないことです。また、分散データストア用に設計されています。 NoSQLは、人々がSQLを使用してはならないという意味ではありません。むしろ、あなたの問題に応じて、リレーショナルデータベースとNoSQLデータベースが組織内に共存できるという考えがあります。次のようなデータベースがあります。
-
Apache Cassandra: Facebookが独自に開発したオープンソースの分散データ管理システムです。構造要件が厳しくないため、すべての異なるタイプのデータを処理できます。専門家は、大量のリアルタイムトランザクション処理に優れていると主張しています。その他のオープンソースデータベースには、MongoDB、Apache CouchDB、Apache HBaseなどがあります。
-
-
Amazon Simple DB: Amazonは、このデータベースを属性と項目が格納された列と行があるという点でスプレッドシートに似ています。ただし、スプレッドシートとは異なり、各セルは複数の値を持つことができ、各項目は独自の関連属性セットを持つことができます。 Amazonはデータを自動的に索引付けします。最近、アマゾンは大きなデータNoSQLをクラウドにもたらす手段として、Amazon Dynamo DBを発表しました。
Google BigTable:
-
このハイブリッドは、一種の大きなテーブルのようなものです。テーブルは大きくなる可能性があるため、行境界でテーブルに分割されます(数百メガバイト程度の可能性があります)。 MapReduceは、BigTableに格納されているデータの生成と変更によく使用されます。