ビデオ: 統計データのできるまで-第3章 様々な分布とその応用-第3回:ポアソン分布 2024
Excelによる統計解析を理解するのに役立つため、中心極限定理をシミュレートすることができます。ほとんど正しいとは言えません。正規分布していない母集団は、正規分布型の分布をどのようにして得られるでしょうか?
中心極限定理がどのように機能するかを知るために、シミュレーションがあります。このシミュレーションは、正規分布していない母集団に基づいて、非常に小さなサンプルの平均のサンプリング分布のようなものを作成します。あなたが見るように、母集団は正規分布ではなく、サンプルが小さいにもかかわらず、平均のサンプリング分布は正規分布のようにかなり見えます。
<! - 1 - >1、2、3の3つのスコアからなる巨大な母集団を想像してみましょう。それぞれの母集団は同じように標本に現れる可能性があります。また、この人口から3つのスコアのサンプルをランダムに選択できるとします。スコア1,2および3からなる集団からの3つのスコア(およびそれらの手段)のすべての可能なサンプル999平均999サンプル999平均999サンプル999平均911,1,1997。 00991,2,199991。 33 9,1,1,1991。 1 H NMR(400MHz、DMSO-d 6) 33 9,2,1,2999。 1 H NMR(400MHz、DMSO-d 6)δ1.67(d、3H)。 0099,1,19999,1。 67 9,2,1,3992。 00 9:1,399 3。 33 9 1、2,1 9 9 1。 33 9,2,2,1999。 1 H NMR(400MHz、DMSO-d 6):δ67.93,2.1999.2。 0099,2,2999。1。 67 9,2,2,2992。 00 9、2、2 9992。 33 97,2,3992。 00 9,2,2,3,992。 33 9 3、2、3 9 9 2。 1 H-NMR(CDCl 3):δ7.67(d、3H)。 2 H NMR(CDCl 3):δ67.9,2.3,1992。 00 9 3、3、1 999 2。 33,91,92,999,92,93,92,93,92,93,92,93,97,96,97,96,97,96,97,96,97,96,97,97,96,97,97,96,97,96,97,96,97,97,96,97,9 00 9、2、3、2 9 9 2。 33 9 3、3、2 9 9 2。 1 H-NMR(400MHz、DMSO-d 6)δ7.67(d、3H)。 33 9 2、3、3 9 9 2。 67 9.3、3、3.99 3。 00
テーブルをよく見れば、シミュレーションで何が起きるかほとんど見ることができます。最も頻繁に現れる標本平均は2.00である。標本は、最も頻繁に現れるのは1.00および3.00であることを意味する.Hmmm … | シミュレーションでは、母集団からランダムにスコアを選び、もっと。その3つのスコアのグループはサンプルです。次に、そのサンプルの平均を計算します。このプロセスを合計60個のサンプルについて繰り返し、60個のサンプル手段を得た。最後に、サンプル手段の分布をグラフで示します。 | <! - 3 - > | シミュレートされた平均のサンプリング分布はどのように見えますか?下の画像は、この質問に答えるワークシートを示しています。 | <! - 1 - > | ワークシートの各行はサンプルです。x1、x2、およびx3と表示された列は、各サンプルの3つのスコアを示します。列Eは各行のサンプルの平均を示す。列Gは、サンプル平均の可能な値をすべて示し、列Hは、各平均が60サンプルに現れる頻度を示す。列GおよびH、ならびにグラフは、試料平均が2.0であるときに分布がその最大周波数を有することを示す。試料が平均して去った周波数は、2. 00. |
<!すべての点は、人口が正規分布のように見えず、標本サイズが非常に小さいということです。これらの制約の下でさえ、60サンプルに基づく平均のサンプリング分布は、正規分布と非常によく似ています。 | 中心極限定理がサンプリング分布を予測するパラメータはどうですか?人口から始めましょう。母集団平均は2.00であり、母集団標準偏差はである。 (この種の人口には、パラメータを計算するために幾分かわいい数学が必要です。) | <! - 3 - > | サンプリング分布をオンにします。 60平均の平均は1.98であり、その標準偏差(平均の標準誤差の推定値)は、これらの数値は、中央限界定理 - 平均の標本分布の予測パラメータである2.00(母集団の平均に等しい)に非常に近似している。 47(標準偏差、.67を3の平方根で割ったもの、サンプルサイズ)。 | このシミュレーションに興味がある場合は、次の手順を実行します。 | 最初にランダムに選択した番号のセルを選択します。 |
セルB2を選択します。 | ワークシート関数 | RANDBETWEEN | を使用して1、2、または3を選択します。 | これは、等しい確率で1,2,3の数字からなる母集団から数値を抽出することをシミュレートします各番号を選択します。 | FORMULAS |を選択するか、 Math&Trig | RANDBETWEEN |
を開き、関数引数ダイアログボックスを使用するか、B2に | = RANDBETWEEN(1,3) | と入力してEnterを押します。最初の引数はRANDBETWEENが返す最小の数であり、2番目の引数は最大の数です。 | 元のセルの右側にあるセルを選択し、1から3の間の別の乱数を選択します。もう1つ右のセルの3番目の乱数をもう一度実行します。 | これを行う最も簡単な方法は、元のセルの右側にある2つのセルを自動入力することです。このワークシートでは、これらの2つのセルはC2とD2です。これらの3つの細胞をサンプルと見なし、第3の細胞の右側の細胞の平均を計算する。 | これを行う最も簡単な方法は、セルE2に |
= AVERAGE(B2:D2) | と入力してEnterキーを押すだけです。 | シミュレーションに含めるサンプル数だけ、このプロセスを繰り返します。各行をサンプルに対応させる。ここで60サンプルを使用した。これを行うためのすばやく簡単な方法は、ランダムに選択された3つの番号とその平均値の最初の行を選択し、残りの行を自動入力することです。列Eのサンプル手段のセットは、平均のシミュレートされたサンプリング分布である。 | AVERAGE | および | STDEVを使用します。平均値と標準偏差を求める。 |
このシミュレートされたサンプリング分布がどのように見えるかを見るには、E列のサンプル手段で配列関数 | FREQUENCY | を使用します。次の手順に従います。 。 | これには列Gを使用できます。セルに入力されたもののような小数形式(3/3、4/3,5/3,6/3,7 / 3,8 / 3、および9/3)のサンプル平均の可能な値を表現できますG2〜G8。 Excelは10進形式に変換します。これらのセルが数値形式であることを確認します。 | サンプル平均の可能な値の頻度の配列を選択します。 | 列Hを使用して周波数を保持し、セルH2からH8を選択することができます。 |
統計関数メニューから | FREQUENCY | を選択して、 | FREQUENCY | の関数引数ダイアログボックスを開きます。関数引数ダイアログボックスで、引数に適切な値を入力します。 | Data_arrayボックスに、サンプル手段を保持するセルを入力します。この例では、E2:E61です。 |
サンプル平均の可能な値を保持する配列を特定する。 | FREQUENCY | は、この配列をBins_arrayボックスに保持します。このワークシートでは、G2:G8がBins_arrayボックスに入ります。両方の配列を識別すると、関数引数ダイアログボックスに中括弧のペア内の周波数が表示されます。 | [Ctrl + Shift + Enter]を押して[関数引数]ダイアログボックスを閉じ、周波数を表示します。 | FREQUENCY | |
は配列関数であるため、このキーストロークの組み合わせを使用します。 | 最後に、H2:H8が強調表示された状態で、 | Insert |推奨グラフ | を開き、Clustered Columnレイアウトを選択して周波数のグラフを作成します。あなたのグラフは多分私とは多少違って見えるでしょう。違う乱数に巻き込まれる可能性が高いからです。 | ところで、Excelがワークシートを再計算するようなことをするたびに、Excelはランダム選択プロセスを繰り返します。効果は、あなたがこれを処理するときに数値が変わることができるということです。 (つまり、シミュレーションを再実行します)。たとえば、元の行に戻って再度入力を行うと、数値が変化してグラフが変化します。 |