目次:
ビデオ: Rで平均と標準偏差mean・sd 2025
ggplot2の非常に便利な機能の1つは、プロット内のRデータを要約する関数の範囲です。つまり、データをあらかじめ要約する必要がないことがよくあります。たとえば、ヒストグラム内の棒の高さは、データ内に何個あるかの観測数を示します。
これに関する統計的要約は、観測値を数えることです。統計学者はこのプロセスを binning と呼び、geom_bar()のデフォルトstatはstat_bin()です。
<! - 1 - >各ジオメトリーに関連するデフォルトのstatがあるのと同様に、各statもデフォルトのgeomを持っています。
それで、これは質問に答える:あなたは、幾何学や統計を使うかどうかをどうやって決めるのですか?理論的には、あなたがジオムかスタットを最初に選択するかどうかは関係ありません。しかし実際には、最初に一種のプロットから始めて、つまり、幾何学を指定するのが直感的です。統計サマリーの別のレイヤーを追加する場合は、statを使用します。
<! - 2 - >このプロットでは、同じデータを使ってgeom_point()で散布図を作成した後、stat_smooth()で滑らかな線を追加しました。
stat関数の使用例を見てみましょう。
Stat | 説明 | デフォルトのGeom |
---|---|---|
stat_bin() | ビン内の観測数をカウントします。 | geom_bar() |
stat_smooth() | 滑らかな線を作成します。 | geom_line() |
stat_sum() | 値を追加します。 | geom_point() |
stat_identity() | 要約はありません。データをそのままプロットします。 | geom_point() |
stat_boxplot() | ボックス・ウィスカー・プロットのデータを要約します。 | geom_boxplot() |
ggplot2でデータをビンする方法 |
ggplot2でRデータを平滑化する方法
ggplot2パッケージでは、データを通して回帰直線を作成することも非常に簡単です。このタイプの行を作成するには、stat_smooth()関数を使用します。
stat_smooth()の興味深い点は、デフォルトでローカル回帰を利用することです。 Rにはこれを可能にするいくつかの関数がありますが、ggplot2はローカル回帰にloess()関数を使用しています。つまり、線形回帰モデルを作成する場合は、よりスムーズな別の関数を使用するようにstat_smooth()に指示する必要があります。メソッドの引数でこれを行います。
スムーザーの使用法を説明するには、まず、longleyデータセットに失業の散布図を作成します。 >> ggplot(longley、aes(x = Year、y = Employed))+ geom_point()
よりスムーズにしてください。これは、あなたのコード行にstat_smooth()を追加するのと同じくらい簡単です。最後に、stat_smoothに線形回帰モデルを使用するように指示します。 >> ggplot(longley、aes(x = Year、y = Employed))+ + geom_point()+ stat_smooth()これを行うには、引数method = "lm"を追加します。
ggplot2にデータを残すように指示する方法
時にはあなたはあなたのデータを残しておきます。 >> ggplot(longley、aes(x = Year、y = Employed))+ + geom_point()+ stat_smooth(method = "lm" ggplot2がプロット内のデータを要約しないようにしてください。これは通常、データが事前に要約されている場合、またはデータフレームの各行を別々にプロットする必要がある場合に発生します。このような場合、ggplot2には何もしないように指示し、これを行うstatはstat_identity()です。
