ホワイト企業と就職活動

ホワイト企業は労働法を遵守する

統計と統計学を理解する

スポンサーリンク

統計と統計学を理解する


統計とは

・複数のデータをまとめたデータの集合体
・個々のデータを集め、整理・加工し、全体像が見える形に編集したもの


統計学とは

統計学は統計を材料として、そこから様々な知見を見出すための方法を考える学問。

測定したデータにはバラつきがあるのが一般的であり、そうしたデータを用いて結論を得るためには統計学の手法が不可欠。

つまり、統計学はデータを収集、解析するための方法の科学といえる。
統計的なデータ処理の目的は、ばらつきのあるデータから客観的な結論を得ること。

統計学においては、データを特徴付けるパラメータとして平均値、分散、標準偏差などを求める。

平均値に差があるとか、ばらつきに差があるというような統計的判断をする統計検定では、データが正規分布するなど、データの分布に関する仮定が必要。
一方、平均値や分散そのものを求める場合には分布の仮定はしなくてよい。


記述統計学と推測統計学

統計学には大きく分けて、二つの分野がある。

統計学
 ├1. 記述統計学(全数調査)
 └2. 推測統計学(標本調査)

1.記述統計学(全数調査)とは

記述統計学はバラつきを含んだ多数のデータを整理し、対象となっている事象の特徴を明らかにする学問。

データの基本構造を明らかにするための具体的な方法としては、
・平均値の算出
・ばらつきの程度の算出(分散、標準偏差)
・ヒストグラムの作成、
・相関分析
・回帰分析
・多変量解析
などがある。


データの要約

データがただたくさんあっても、要約して、有用な値やグラフに変えなければデータはゴミの山と同じ。
データを要約する際は、以下の点に留意することが大切。

・どんな値のまわりに分布しているか
・分布の広がりの程度はどうか
・分布の形状はどうか

データの持つ特徴を明らかにするためには計算による要約が重要であり、ヒストグラムや箱ひげ図などを用いると、母集団の特徴を客観的に判断できる。


ヒストグラム(柱状グラフ、度数分布図)とは

ヒストグラムは度数分布表をグラフにしたもので、度数の分布を棒と棒の間隔を開けずに図(棒グラフ)にしたもの。

ヒストグラムにはデータがどのように分布しているかといった分布の特徴を表現できる利点がある。
図を見ることにより、分布の対称性や、ばらつきの大きさも定量的に捉えることができる。

ただし、階級幅を変えると分布の形が変わることがあり、特徴を正しくとらえられなくなる。
目的により適切な階級幅を選ぶ必要がある。

度数とは

各階級の同じカテゴリに含まれるデータの個数のこと。

度数分布とは

すべてのカテゴリについて度数をまとめたもの。

度数分布表とは

度数分布を表にしたもの。

箱ひげ図とは

箱ひげ図はデータの中心的傾向、広がり、そして分布の歪みの情報をとらえることができる図のこと。
簡便なグラフであるが、直観的にデータの情報をとらえることができる表示法の一つである。


2.推測統計学(標本調査)とは

推測統計学は、抽出された少数の標本(データ)から確率的判断を踏まえて全体(母集団)の特徴を推測する統計手法である。
推測統計ではデータが偶然に支配されていることを考慮する必要がある。

推測するための主な方法には「推定」と「検定」がある。

ばらつきを持つデータから得られる情報は偶然性に大きく支配される可能性がある。
そのため確率を用いて推定と検定を行う。

推定とは

推定は標本で見られる特徴をもとにして、ばらつきの存在を考慮しながら母集団の特徴を推定する方法である。

検定とは

一方、検定は標本で見られる特徴をもとにして、まず母集団の特徴について何らかの仮説を立て、確率論に基づく方法でその仮説が正しいかどうか検証する方法である。

推測統計は過誤が起こりえることを前程としたものであり、結論の誤りを完全に避けることはできない。

誤差の制御

データ数が多い時、データの要約は偶然変動をふるい落とす働きをするのに有効。
しかし、必ずしもそのことに主眼を置いてサンプリングすることがよいとは限らない。

つまり、データ数が多いほどより正確な推測を行えるとは限らず、標本と母集団をリンクさせる確率変動について、データを取る段階で確率的変動の素性が極力分かるような方法でデータを選ぶことが重要となる。