統計学超入門
同じ著者、高橋洋一さんの別の本を読みたいなと思っていたのですが、こちらがAmazon Prime Readingにあったので、さっそく読んでみました。
基本の偏差、分散
立方体のサイコロを30回振る場合
グラフ(ヒストグラム)に結果を表してみると、
- 横軸 = 階級値 = サイコロの目1,2,3,4,5,6
- 縦軸 = 度数 = 各目の出た回数1~10
となる。
この時、3の目が9回出たとすると
- 回数(度数)/全回数 = 相対度数 = 9/30
となる。
30回振ったときのサイコロの目の平均が、3.53だったとすると、
- 各階級値(各サイコロの目) ー 平均値 = 偏差
なので、階級値3での偏差は 3 ー 3.53 = -0.53となる。
この偏差のばらつき度合いを知るための「分散」は以下で求められる。
- 分散 = 1の目の(偏差2*相対度数) +2の目の (偏差2*相対度数) .../ 全回数 = (-2.532*相対度数)+ (-1.53)2*相対度数)+ .../30
ここで偏差の値が2乗されているのは、符号(-/+)をなくして絶対値で判断したいため。(平均値を基準としてどのくらい差があるかなので、-は不要。)
分散の値が大きいとばらつき大、また分散の値が小さいとばらつきが小、ということになる。
分散を√掛けすることにより、標準偏差を得ることができる。
- 標準偏差(standard deviation) = √分散
正規分布
正規分布とは、グラフにすると左右対称の山のような形になるが、傾向として
とあった。
正規分布をとったデータのグラフを見ると、山の中心が平均値となり、
となる。
二項分布
サイコロの目が1~6のどれが出るか、ではなく、「1が出るか、それ以外が出るか(成功か失敗か)」に着目する。(ベルヌーイ試行)
3回振った内の1回だけ1が出る確率を例にとると、
考えられるパターン数は、下記3つとなる。(成功:1の目が出た、失敗:1以外の目が出た)
- 1回目:成功 ⇒ 2回目:失敗 ⇒ 3回目:失敗
- 1回目:失敗 ⇒ 2回目:成功⇒ 3回目:失敗
- 1回目:失敗 ⇒ 2回目:失敗⇒ 3回目:成功
また、サイコロの目は全部で6つなので、
成功する確率:1/6
失敗する確率:5/6
となる。よって、3回振った内の1回だけ1が出る確率は、
- 1回目:1/6 ⇒ 2回目:5/6 ⇒ 3回目:5/6・・・このパターンが起きる確率は25/216
- 1回目:5/6 ⇒ 2回目:1/6 ⇒ 3回目:5/6・・・このパターンが起きる確率は25/216
- 1回目:5/6 ⇒ 2回目:5/6 ⇒ 3回目:1/6・・・このパターンが起きる確率は25/216
を合わせた、75/216となる。
これにより、成功確率=p、失敗確率=1-pとし、n回振ったとすると、
- k回成功する確率 = (n回中k回成功した場合のパターン数)*pk*(1-p)(n-k)
=nCk*pk*(1-p)(n-k)
という式となる。
また、2項分布での平均値、分散は
- 平均値=np
- 分散=np(1-p)
というシンプルな式で表すことができる。
とりあえず、高校生時代にやった記憶はほぼ抜けていたことがわかりました・・・。
追記)
上記をイメージでもっと理解したい方には、gaccoの「社会人のためのデータサイエンス入門」がおすすめです。
数式に抵抗ある人でこ、馴染みのある政府統計のデータを用いているので、イメージが湧きやすいです。