ビデオ: 【B-1】AI/IOTの導入に適したビッグデータ分析プラットフォーム(Data Platform for Hadoop)とサービス 2024
ダミーチートシートのビッグデータの一部
オープンソースのソフトウェアフレームワークであるHadoopは、HDFS(Hadoop Distributed File System)とMapReduceを使用して、つまり、分散コンピューティング環境で使用することができます。
Hadoop分散ファイルシステム(HDFS)は、企業が大量のデータを簡単かつ実用的な方法でより簡単に管理できるように開発されました。 Hadoopを使用すると、大きな問題を小さな要素に分解できるため、分析を迅速かつコスト効率良く行うことができます。 HDFSは、大規模なデータ環境でファイルを管理するための、多機能で復元力のあるクラスター化されたアプローチです。
<! - 1 - >HDFSは最終的なファイルの保存先ではありません。むしろ、それは、データ量および速度が高いときに必要とされる独自の能力セットを提供するデータ「サービス」である。
MapReduceは、開発者が膨大な量の構造化されていないデータを分散したプロセッサグループにわたって並列に処理できるプログラムを記述できるソフトウェアフレームワークです。 MapReduceはバッチモードで大量のデータに対する一連の関数を効率的に実行する方法としてGoogleによって設計されました。
<! - 2 - >「マップ」コンポーネントは、多数のシステムにプログラミングの問題を分散し、負荷のバランスをとる方法でタスクの配置を処理し、障害からの復旧を管理します。分散計算が完了した後、「reduce」と呼ばれる別の関数はすべての要素を集約して結果を返します。 MapReduceを使用する例は、書籍のページ数を50種類の言語ごとに何ページ作成するかを決定することです。