目次:
ビデオ: 「時系列ビッグデータのリアルタイム予測」 熊本大学 大学院先端科学研究部 ビッグデータ工学分野 教授 櫻井保志 2024
統計 という単語は、初心者からデータの視覚化への恐怖を喚起するかもしれませんが、このトピックを無視すると、 Big Dataから真の洞察と価値を引き出す最も強力な方法です。
統計 は、数値データを大量に収集する実務または科学です。外出してデータ科学者になる必要はありません(変わったデータオタクで、通常博士号などの高度な学位を保持している統計学者に使用される用語ですが、あなたが興味を持っているならStatistics 101本またはクラス。
<! - 1 - >今日、確率、分散、予測などの統計式が普及しています。それらはどのデータセットにも適用するのがかなり容易で、ほとんどの読者がそれらをはっきりと理解するでしょう。次のセクションで説明する手法を使用して、Big Dataビジュアライゼーションにこれらの統計式の一部を組み込んで、ユーザーに真の価値を提供することができます。
イベントが発生する確率を知る
<! - 2 - >あなたがよく知っているかもしれない1つの統計式は、事象が起こる可能性や機会である p robability です。次の式は、線形シナリオの基本確率を計算します。 (非線形シナリオは初心者のために少し複雑であり、あまりにも多くの作業です)。
確率=イベントが発生する確率/可能な結果の数
次の図は、メッセージを読みやすく、最も重要なのは、即時のアクションが必要であることを明確に示すことです。
<! - 3 - >確率は、迅速な現実のチェックを提供し、データ視覚化が特定の期間(曜日、週、四半期など)に提供されるストーリーの全体的なトーンを設定します。
変化の大きさを示すために分散を適用する
もう1つの一般的な統計的尺度は、データ点の集合の差である である。 分散を計算するために最も一般的に使用される式は、 分散=最終目標 - 現在の状態 表示される出力が整数であるか百分率であるかにかかわらず、式は、データポイント。 分散を表示することは、常に迅速な勝利であり、ほとんどの視覚化で分散関係がどのように表示されるかを示す線/棒グラフのコンボの代わりになります。
下の図のグラフは、月ごとに分散を解読できるようにする行/棒グラフのコンボを示しています。
次の図に示す2番目のグラフは、分散を明確にプロットし、すべての推測をビジュアルから外しています。
将来の予測
あなたがよく知っているかもしれないもう1つのよくある統計式は、イベントやトレンドを予測または推定する
orecast
、
です。
予測を計算する際には、特定の量の履歴データを使用して、行動、特定のイベント、または傾向を予測しています。たとえば、1月は通常売上の5%を占めるという歴史的事実に基づいて、その年の売上を計算することができます。 1月に$ 500の売上を出した場合、次の式を使用して、年間の予想売上高を予測します。 $ 500 /。 05 = $ 10,000 この方程式では、$ 500が1月の売上です。 。 05は1月の売上高の歴史的な割合です。 $ 10,000がその年の予想売上です。 下の図は、ほとんどのデータ視覚化において、予測がチャート内の単純な線としてどのように表示されるかを示しています。予測は、特定のアクティビティが将来どのように実行されるかを示します。 この予測線の典型的な表示は、最終的にこの組織にとってキャッシュフローが問題になることを示しています。