ビデオ: 【初級】AWSでのデータ収集、分析、そして機械学習 | AWS Summit Tokyo 2019 2024
それをすべて保存することは困難であり、不可能でさえあります。実際、それをすべて保存することは役に立たないかもしれません。インターネット上で1分以内に起こると予想されるもののいくつかの数字があります。
- 1億5,000万通の電子メールが送信されました
- 350,000件の新しいツイートがTwitterで送信されました。 Googleでリクエストされた400万件のクエリ
- 700、Facebookのアカウントにログインしている人
- <! - 1 - >
<!明示的に到着するデータがさらに増えると予想され(データの量は毎日増えます)、新しいデータをプッシュする際に、リポジトリからデータを取り出すことは不可能ではないにしても難しくなります。新しいデータが流入すると、リポジトリから古いデータを引き出すことは、シジフスの処罰に似ています。シシフスは、ギリシア神話のナレーションとして、神からの恐ろしい罰を受けました。ゼウス:丘の頂上に永遠に巨大な岩を巻くように強制され、毎回ロールバックするのを見るだけです。
<!ディスクに書き込むことが不可能なように、データが非常に高速かつ大量に到着することがあります。新しい情報は、ディスクに書き込むために必要な時間よりも早く到着します。ハードディスク。これは、大型ハドロン・コライダーなどの粒子加速器による粒子実験に典型的な問題であり、科学者はどのデータを保存するかを決定する必要があります。もちろん、キューが急速に成長し、維持することが不可能になるので、しばらくの間、データをキューに入れることはできますが、あまり長くはしないでください。たとえば、メモリに保持されていると、キューのデータがすぐにメモリ不足エラーに繋がります。新しいデータフローは古いデータに対する以前の処理を廃止し、遅延を解決するものではないため、膨大かつ変化するデータ量を即座に処理するための複数の戦略を考案しました。人々は大量のデータを処理するために3つの方法を使用します。格納:
後で不明な質問に答えるのに役立つ可能性があるため、一部のデータが保存されます。この方法は、それがどれほど大量であってもすぐにそれを保存し、後でそれを非常に高速で分析する技術に依存しています。要約:
一部のデータは要約されています。重要なデータだけが保持されます。
- 消費: 残りのデータは、その使用量が予め決められているので消費される。アルゴリズムは即座にデータを読み取り、消化し、情報に変換することができます。その後、システムは永久にデータを忘れてしまいます。
- 大量のデータがコンピュータシステムに到着したときには、ストリーミングデータ、データストリーム、データ消防ホースなど、水に比べて聞こえることがよくあります。 データストリームが水道水を消費するようなものであることを発見しました。タップを開くと、水をカップや飲料ボトルに保存したり、料理、食器の洗浄、プレートの洗浄、手洗いに使用できます。いずれにしても、水のほとんどまたはすべてがなくなっていますが、それは非常に有用で実際に重要であることがわかります。