統計とは

Shannon Labでは様々な統計的手法を用いて、分析を行っています。 ここでは統計学の基礎となる考え方を紹介したいと思います。

■ヒストグラム
統計学では、数字の羅列であるデータを、ある基準で整理し、必要なデータの特徴のみを理解できるように抽象化する手法を用います。その一つの手法として、データをグラフ化して特徴を捉えたものをヒストグラムと呼びます。 そして、全てのデータを、等しい範囲で小区間に区切った、それぞれのものを階級と言い、その小区間の中心の数値を階級値と呼びます。そして、階級に入るデータの個数を度数と言います。また各階級の度数の全体のデータを占める割合を相対度数(ある階級の度数/全ての度数)と呼びます。以下は成人男子人の身長の度数分布表と、そのヒストグラムです。


■正規分布
中心付近の度数が、最も高くなりそこから、左右に同程度で度数が低くなっていく形をした、ヒストグラムを正規分布と言います。正規分布はN(μ, σ2) と表記し、平均μと分散σ2(=標準偏差√σ2)を示します。図のように、区間(μ−σ,μ+σ) にデータの入る確率は68%で、区間(μ−2σ,μ+2σ) に入る確率は95%となっています。したがって、正規分布の平均μと分散σ2さえ分かれば大体のデータは、標準偏差2つ分の区間内に存在することが推測できるので、非常に精度の高い予言が可能になります。また社会現象や、自然現象の多くのデータのバラツキは正規分布に従うことが少なくないので、正規分布は、推測統計の基礎となる最も重要な確率分布となります。 ■中心極限定理
母集団全て(全ての海水の塩分濃度など)は調べられないので、統計学では母集団からデータを幾つか抽出し、そこから母集団について推測をします。この時に中心極限定理が大きな役割を果たします。まず母集団を平均μ、分散σ2のヒストグラムと仮定し、母集団からn個のデータを抽出し、その平均(標本平均)を求めることを何度も行います。この試行回数を十分大きな数にする(1000回など)と、その標本平均のヒストグラムはN(μ, σ2/n )の正規分布に従います。よって全体が分からなくても、何度もデータを抽出することで部分が全体に近づきます。これを中心極限定理と呼び、統計学の基本的な考え方になっています。