ホワイト企業と就職活動

ホワイト企業は労働法を遵守する

統計学 標準偏差が分からない

スポンサーリンク

標準偏差が分からない


データのばらつきを表す統計量

データのばらつきを表す統計量には平方和、分散、標準偏差、範囲(レンジ)、変動係数、相対標準偏差などがあります。

この記事はこれらの統計量について記述しています。

範囲とは

範囲(レンジ)は最も単純な広がりの代表値。

範囲=最大値-最小値

歪度・ひずみa3とは

歪度はデータの分布の形に関する代表値。
標本の分布が左右対称であれば、歪度の値は0になる。

偏差とは

偏差は、各データの平均との差
それぞれのデータから平均値を引けば求まる。

平方和(偏差平方和) Sとは

S = Σ (測定値-平均値)2


(標本)分散s2、σ2とは

分散は、各データの偏差の2乗の平均値である。
分散は分布の広がりを表す代表値であり、下式で表される。

分散s2=Σ(xi-m)2
分散s2=偏差平方和S÷データ数n

xi:各々のデータ値
m:データの平均値

分散はデータの平均からの散らばり具合を表す。
なので、分散の値が小さいほど、データは平均値付近に集中していることになる。

s2=Σ(xi-m)2/n≧0であり、分散の値は必ず正になる。

ただし、データが全て同じ(xi=m)ときは、分散は0になる。

不偏分散s2とは

不偏分散s2=Σ(xi-m)2(n-1)
xi:各々のデータ値
m:データの平均値

不偏(ふへん)とは

不偏(ふへん)とは、ある母集団からランダムサンプリングを繰り返した時に、各サンプリングごとに求めた統計量が、母集団の統計量と一致することを指す統計用語である。


母集団と標本の違い

推測統計学で一番重要なのが、母集団と標本の違いを理解すること。

たとえば多くの調査研究では、時間とお金の都合から、研究者は母集団からランダムに標本を取り出し、その標本について調査研究を行っている。

しかし、研究者が本当に知りたいのは標本の情報ではなく、母集団の情報である。

そのため研究者は標本のデータから母集団の性質を推測することを目的として研究している。

しかし、研究者の手元には標本のデータだけしかない。


標本のことを研究して、本当に母集団のことが分かるのだろうか?

たとえば標本の標準偏差はあくまでも標本の標準偏差であって、母集団の標準偏差よりも少し小さな値をとることが分かっている。

標本の標準偏差 < 母集団の標準偏差

この現象は母集団から何度ランダムサンプリングを繰り返しても変わらない。

サンプリングごとに標準偏差を計算して、そうして得られたたくさんの標本の標準偏差の平均値を計算すると、
サンプリングの数が多いほど母集団の標準偏差と一致することが期待される。

しかし、サンプリング回数を多くしても母集団の標準偏差ではなく、より小さな値に近づいていくだけなのである。

この場合、どうすれば標本データから母集団データの標準偏差をより正確に推定できるのか?

ここで、不偏(ふへん)という言葉が登場する。


平均値と分散の和と差

・平均値の和と差:保存される
・分散の和と差 :和も差も和になる。保存されない。

二つの母集団AとBがあったとする。

Aから取り出したサンプルをx、Bから取り出したサンプルをyとする。

Aの母平均はμ(x)、母分散はV(x)とする。
Bの母平均はμ(y)、母分散はV(y)とする。

AとBから取り出したそれぞれのサンプルxとyが互いに独立だとすると、x+yやx-yを作った場合、その平均や分散において下式が成立する。

μ(x+y)= μ(x) +μ(y)
μ(x-y)= μ(x) -μ(y)
V(x+y)= V(x) + V(y)
V(x-y)= V(x) V(y)

同様に母集団AとBから取り出したそれぞれのサンプルxとyを、
それぞれa、b倍したときは、その平均や分散において下式が成立する。

μ(ax+by)= aμ(x) +b(y)
μ(ax-by)= aμ(x) -b(y)
V(ax+by)= a2 V(x) +b2 V(y)
V(ax-by)= a2 V(x) +b2 V(y)
(a、bは定数)

確率変数xとyが互いに独立であるとき、x、yの母分散がそれぞれσx2、σy2とすると、ax+byの母分散σ(ax+by)2は分散の加成性により下式で表せる。

σ(ax+by)2=a2σx2+b2σy2

よって、ax+byの標準偏差σ(ax+by)は下式で表せる。

σ(ax+by)=√(a2σx2+b2σy2)

なお、ばらつきは平行移動しても変わらないため、下式が成立する。

μ(x+c)=μ(x) +c
V(x+c)= V(x)

μ(ax+c)=aμ(x) +c
V(ax+c)= a2 V(x)


(標本)標準偏差 s、σ

標準偏差は分布の広がり具合(データのばらつき具合)を推測するための目安。

標準偏差の値が大きいほど分布が広がるため、ばらつきが大きくなることを意味する。

標準偏差の値が小さいほど分布が狭まるため、ばらつきが小さく、データが平均値の近くに集中していることを意味する。

なぜ標準偏差が必要か

実は平均値だけでは、データの性質はあまり分からない。

平均値のほかに、データのばらつき具合を表す標準偏差が分かると、データの見方が広がる。


標準偏差を計算するための数式は以下の通り。

標準偏差s=√Σ(xi-m)2/n
標準偏差s= √(偏差平方和÷データの数)

標準偏差は分散にルート(√)をとったものである。

分散はその単位がもとの単位を2乗したものであり、直観的に分かりにくい。

分散にルート(√)をとると、2乗→1乗となり、もとの単位と同じになって直観的に分かりやすくなる。

なお、0≦分散≦1のとき、分散s2≦標準偏差sとなる。

また、データが全て同じ(xi=m)ときは、標準偏差は0になる。

同じ母集団からサンプリングしたn個のデータの平均値の標準偏差は、その母集団の標準偏差の1/n倍ではなく、1/√n倍になる。

これはいくら標本データ数を増やしても、データのばらつきは直線的に減るわけではないことを意味する。


推測統計学における標準偏差

標本データの標準偏差を計算すると、その値は母集団データの標準偏差よりも少し小さくなってしまう。

そのため正確に母集団データの標準偏差を推定するには、不偏標準偏差というものを計算する。

母標準偏差

母集団の標準偏差のこと。

母集団データのばらつき具合を意味し、多くの研究者が知りたがっている数値。
しかし、推測統計学では母標準偏差を直接計算して求めることができない。

標本標準偏差

標本の標準偏差のこと。
標本のデータから算出することができる。

あくまで'標本データの'標準偏差であり、母標準偏差よりも少し小さな値になってしまう。
エクセルでは関数STDEVPで計算する。

不偏標準偏差

標本のデータから母標準偏差を推定するために計算する標準偏差のこと。
標本のデータから算出することができる。

標本データから母集団データのばらつき具合を推定するために使われる。
エクセルでは関数STDEVで計算する。


標本標準偏差と不偏標準偏差の違い

標本標準偏差と不偏標準偏差の違いは割り算部分にある。

で割ると標本標準偏差が求まり、
n-1で割ると不偏標準偏差が求まる。

なお、nは標本のデータ数のこと。

そして n-1のことを「自由度」と呼ぶ。


変動係数と相対標準偏差


変動係数(coefficient of variation、CV)

相対標準偏差(relative standard deviation、RSD)

変動係数と相対標準偏差、実はこの二つは同じもの。

どちらも相対的なばらつきを表す。

数学的には、どちらも標準偏差を平均値で割ったものである。

変動係数(CV)
= 相対標準偏差(RSD)
= 標準偏差s ÷ 平均値

.  標準偏差
= ―――――― × 100 〔%〕となる。
.  平均値

通常は百分率(%)で表す。