ストリーミングデータの流れ

ビデオ: 【初級】AWSでのデータ収集、分析、そして機械学習 | AWS Summit Tokyo 2019 2025

それをすべて保存することは困難であり、不可能でさえあります。実際、それをすべて保存することは役に立たないかもしれません。インターネット上で1分以内に起こると予想されるもののいくつかの数字があります。

1億5,000万通の電子メールが送信されました
350,000件の新しいツイートがTwitterで送信されました。 Googleでリクエストされた400万件のクエリ
700、Facebookのアカウントにログインしている人
<！ - 1 - >

このような量があれば、増分分析のために一日中データを蓄積することは効率的ではないように思われるかもしれません。どこかに保管しておいて、それを次の日または翌日に分析するだけです（データベースとデータウェアハウスの典型的な広範なアーカイブ戦略です）。しかし、有益なデータ問合せでは、ストリーム内の最新のデータを尋ねる傾向があり、データが古くなると有用性が低下します（金融などの一部のセクタでは、1日が長時間かかることがあります）。

<！明示的に到着するデータがさらに増えると予想され（データの量は毎日増えます）、新しいデータをプッシュする際に、リポジトリからデータを取り出すことは不可能ではないにしても難しくなります。新しいデータが流入すると、リポジトリから古いデータを引き出すことは、シジフスの処罰に似ています。シシフスは、ギリシア神話のナレーションとして、神からの恐ろしい罰を受けました。ゼウス：丘の頂上に永遠に巨大な岩を巻くように強制され、毎回ロールバックするのを見るだけです。

<！ディスクに書き込むことが不可能なように、データが非常に高速かつ大量に到着することがあります。新しい情報は、ディスクに書き込むために必要な時間よりも早く到着します。ハードディスク。これは、大型ハドロン・コライダーなどの粒子加速器による粒子実験に典型的な問題であり、科学者はどのデータを保存するかを決定する必要があります。もちろん、キューが急速に成長し、維持することが不可能になるので、しばらくの間、データをキューに入れることはできますが、あまり長くはしないでください。たとえば、メモリに保持されていると、キューのデータがすぐにメモリ不足エラーに繋がります。新しいデータフローは古いデータに対する以前の処理を廃止し、遅延を解決するものではないため、膨大かつ変化するデータ量を即座に処理するための複数の戦略を考案しました。人々は大量のデータを処理するために3つの方法を使用します。

格納：

後で不明な質問に答えるのに役立つ可能性があるため、一部のデータが保存されます。この方法は、それがどれほど大量であってもすぐにそれを保存し、後でそれを非常に高速で分析する技術に依存しています。

要約：

一部のデータは要約されています。重要なデータだけが保持されます。

消費： 残りのデータは、その使用量が予め決められているので消費される。アルゴリズムは即座にデータを読み取り、消化し、情報に変換することができます。その後、システムは永久にデータを忘れてしまいます。
大量のデータがコンピュータシステムに到着したときには、ストリーミングデータ、データストリーム、データ消防ホースなど、水に比べて聞こえることがよくあります。データストリームが水道水を消費するようなものであることを発見しました。タップを開くと、水をカップや飲料ボトルに保存したり、料理、食器の洗浄、プレートの洗浄、手洗いに使用できます。いずれにしても、水のほとんどまたはすべてがなくなっていますが、それは非常に有用で実際に重要であることがわかります。