ビデオ: 【初級】AWSで構築するデータレイク基盤概要とアーキテクチャ例のご紹介 | AWS Summit Tokyo 2019 2024
多くの企業は、大きなデータ問題を探究し、いくつかの革新的なソリューションを考え出しています。今では、大きなデータの旅を始めるときに役立つ ベストプラクティス または基本原則に注意を払う時間があります。
実際には、大規模なデータ統合は、企業全体のデータ統合プロセス全体に適しています。したがって、従来のデータソースのデータ統合から学んだことのすべてを単に捨てることはできません。従来のデータ管理や大規模なデータ管理を考えている場合でも、同じルールが適用されます。
重要なデータ統合のために、優先リストの先頭に以下の重要な問題を残しておいてください。
-
データの品質を重視するかどうかは、大規模なデータ分析の段階によって異なります。膨大な量のデータに対して初期分析を行うときにデータ品質を制御できるとは思わないでください。ただし、大きなデータを絞り込んで組織にとって最も意味のあるサブセットを特定する場合は、データ品質に重点を置く必要があります。 <! - 2 - >
究極的には、履歴データとの関連で結果を理解したい場合は、データ品質が重要になります。あなたの会社は分析ツールを主要な計画ツールとしてますます利用しているため、データの品質は成功と失敗の違いを意味します。リアルタイムのデータ要件を考慮する。
-
ビッグデータはストリーミングデータを最前線にもたらします。したがって、予測可能な分析のために、動作中のデータを環境に統合する方法を明確に理解しておく必要があります。 <! - 3 - >
情報の新しいサイロを作成しないでください。 -
大きなデータに重点を置いているのは、Hadoopや他の構造化されていないソースや半構造化されたソースに重点を置いていますが、ビジネスとの関連でこのデータを管理する必要があることに注意してください。したがって、これらのソースをビジネス・データおよびデータ・ウェアハウスと統合する必要があります。