目次:
- ビッグデータデータビッグデータは、構造化データ、半構造化データ、および非構造化データで構成されます。あなたはしばしばそれをたくさん持っていて、それはかなり複雑かもしれません。分析するときは、データの潜在的な特性を認識する必要があります。
- これにより、何百回もモデルを繰り返し処理できます。ただし、分散環境全体で10億行のデータを回帰分析する場合は、データ量とクラスタ内の場所に関するリソース要件を考慮する必要があります。あなたのアルゴリズムはデータを認識する必要があります。
- 大量の異種データを格納:
ビデオ: Google Keynote (Google I/O'19) 2024
従来のビジネスインテリジェンス製品は、ビッグデータを扱うように設計されていなかったため、それらは高度に構造化されたよく理解されたデータを扱うように設計されており、しばしばリレーショナルデータリポジトリに格納され、デスクトップやラップトップコンピュータに表示されます。この従来のビジネスインテリジェンス分析は、通常、利用可能なデータの総量ではなく、データのスナップショットに適用されます。ビッグデータ分析とは何が違うのですか?
ビッグデータデータビッグデータは、構造化データ、半構造化データ、および非構造化データで構成されます。あなたはしばしばそれをたくさん持っていて、それはかなり複雑かもしれません。分析するときは、データの潜在的な特性を認識する必要があります。
信頼できない情報源から来る可能性があります。
-
大規模なデータ分析では、さまざまなソースからのデータを集計することがよくあります。これらには、内部データソースと外部データソースの両方が含まれます。これらの外部情報源はどの程度信頼できるものですか?たとえば、ソーシャルメディアのデータがツイートのようにどのように信頼できるのでしょうか?情報は未確認のソースからのものである可能性があります。このデータの完全性は、分析の際に考慮する必要があります。 <! - 2 - >
汚れている可能性があります。 -
ダーティデータとは、不正確、不完全、または誤ったデータを指します。これには、単語のスペルが含まれることがあります。破損しているか、適切に較正されていないか、または何らかの方法で破損しているセンサ。またはデータを複製することさえできます。データの科学者たちは、データをどこに近づけるか、リアルタイムでどこで掃除するかについて議論しています。もちろん、1つの考え方によれば、汚れたデータは興味深い異常値を含んでいる可能性があるため、まったくクリーニングしてはならないということです。クレンジング戦略は、おそらくデータのソースとタイプ、分析の目標に依存します。たとえば、スパムフィルタを開発している場合、データの不良要素を検出してクリーンアップしたくないという目標があります。 <! - 3 - >
信号対雑音比を低くすることができます。言い換えれば、信号(利用可能な情報)は、データのわずかな割合でしかない可能性がある。ノイズが残りの部分です。ノイズの多いデータから小さな信号を抽出できることは、ビッグデータ分析のメリットの1つですが、信号が実際には小さくなる可能性があることに注意する必要があります。
それはリアルタイムである可能性があります。 -
多くの場合、リアルタイムのデータストリームを分析しようとしています。 大規模なデータガバナンスは、分析方程式の重要な部分になるでしょう。ビジネスアナリティクスの下では、特に倉庫に保管されている既存の信頼できるデータと結合されているため、新しいデータソースからの正確性を確実にするために、ガバナンスソリューションを強化する必要があります。データセキュリティとプライバシーソリューションも、新しいテクノロジに格納された大きなデータの管理/管理をサポートするために強化する必要があります。
-
分析用の大規模データアルゴリズム 大規模なデータ分析を検討しているときは、デスクトップを超えて拡張する場合、使用するアルゴリズムを
リファクタリングする必要があります。内部コードを外部の機能に影響を与えることなく使用できます。大規模なデータインフラストラクチャの美しさは、時間や数分で済むモデルを実行できることです。
これにより、何百回もモデルを繰り返し処理できます。ただし、分散環境全体で10億行のデータを回帰分析する場合は、データ量とクラスタ内の場所に関するリソース要件を考慮する必要があります。あなたのアルゴリズムはデータを認識する必要があります。
さらに、ベンダーは、大規模なデータソースの近くに配置されるように設計された新しい分析機能を提供し始め、その場でデータを分析しています。データソースの近くで分析を実行するこのアプローチは、価値の高いデータのみを保持することで、格納されるデータの量を最小限に抑えます。リアルタイムの意思決定にとって重要なデータの早期分析も可能です。 もちろん、分析は進化し続けます。たとえば、継続的に変化するリアルタイムのデータを表示するために、リアルタイムのビジュアライゼーション機能が必要な場合があります。グラフプロットで10億ポイントを実際にどのようにプロットしていますか?または、予測アルゴリズムを使用して、絶え間なく拡張され複雑なデータセットを活用するために十分に速く、十分に深い分析を実行するにはどうしたらよいですか?これは活発な研究の領域です。 大規模なデータインフラストラクチャのサポート
プラットフォームを探している場合は、以下を達成する必要があると言えば十分です。
テクノロジの統合:
インフラストラクチャでは、すべての種類のビッグデータを処理し、従来の分析で消耗させることができるようにするために、
大量の異種データを格納:
構造化、半構造化、非構造化のいずれの場合でも、大量のデータを安静に処理/保存/管理できる企業向けのHadoopシステムが必要になる場合があります。動きのあるプロセスデータ:リアルタイムの意思決定をサポートするために、センサ、スマートデバイス、ビデオ、オーディオ、およびログによって連続的に生成される動きのデータを処理するために、ストリームコンピューティング能力が必要な場合がある。
-
倉庫データ: ますます増大する量の信頼できるデータを保存および管理するためには、運用上または深い分析作業負荷に最適化されたソリューションが必要な場合があります。
-
もちろん、既存のデータと大規模データ分析の結果を統合する機能が必要です。