日々考えたり

プログラミング学習記録、読んだ本の感想など

統計学超入門

同じ著者、高橋洋一さんの別の本を読みたいなと思っていたのですが、こちらがAmazon Prime Readingにあったので、さっそく読んでみました。

f:id:sig_nai:20200601215006j:plain

基本の偏差、分散

立方体のサイコロを30回振る場合

グラフ(ヒストグラム)に結果を表してみると、

  • 横軸 = 階級値 = サイコロの目1,2,3,4,5,6
  • 縦軸 = 度数 = 各目の出た回数1~10

となる。

この時、3の目が9回出たとすると

  • 回数(度数)/全回数 = 相対度数 9/30

となる。

 

30回振ったときのサイコロの目の平均が、3.53だったとすると、

  • 各階級値(各サイコロの目) ー 平均値 偏差

なので、階級値3での偏差は 3 3.53 -0.53となる。

 

この偏差のばらつき度合いを知るための「分散」は以下で求められる。

  • 分散1の目の(偏差2相対度数) +2の目の (偏差2相対度数)  .../ 全回数 = (-2.532相対度数)+ (-1.53)2相対度数)+ .../30

ここで偏差の値が2乗されているのは、符号(-/+)をなくして絶対値で判断したいため。(平均値を基準としてどのくらい差があるかなので、-は不要。)

分散の値が大きいとばらつき大、また分散の値が小さいとばらつきが小、ということになる。

 

 分散を√掛けすることにより、標準偏差を得ることができる。

 

正規分布

正規分布とは、グラフにすると左右対称の山のような形になるが、傾向として

  • 要因が多すぎる、または偶発性の高いデータは正規分布なりやすい
  • 後天的な要因が強いデータは正規分布なりにくい

とあった。

正規分布をとったデータのグラフを見ると、山の中心が平均値となり、

  • 平均±標準偏差1個分の範囲が全体の68%
  • 平均±標準偏差2個分の範囲が全体の95%
  • 平均±標準偏差3個分の範囲が全体の99%  ←3σとして製造業ではお馴染み

となる。

 

二項分布

サイコロの目が1~6のどれが出るか、ではなく、「1が出るか、それ以外が出るか(成功か失敗か)」に着目する。(ベルヌーイ試行)

 

3回振った内の1回だけ1が出る確率を例にとると、

考えられるパターン数は、下記3つとなる。(成功:1の目が出た、失敗:1以外の目が出た)

  • 1回目:成功 ⇒ 2回目:失敗 ⇒ 3回目:失敗
  • 1回目:失敗 ⇒ 2回目:成功⇒ 3回目:失敗
  • 1回目:失敗 ⇒ 2回目:失敗⇒ 3回目:成功

また、サイコロの目は全部で6つなので、

成功する確率:1/6

失敗する確率:5/6

となる。よって、3回振った内の1回だけ1が出る確率は、

  • 1回目:1/6 ⇒ 2回目:5/6 ⇒ 3回目:5/6・・・このパターンが起きる確率は25/216
  • 1回目:5/6 ⇒ 2回目:1/6 ⇒ 3回目:5/6・・・このパターンが起きる確率は25/216
  • 1回目:5/6 ⇒ 2回目:5/6 ⇒ 3回目:1/6・・・このパターンが起きる確率は25/216

を合わせた、75/216となる。

 

これにより、成功確率=p、失敗確率=1-pとし、n回振ったとすると、

  • k回成功する確率 = (n回中k回成功した場合のパターン数)*pk*(1-p)(n-k)
    nCk*pk*(1-p)(n-k)

という式となる。

また、2項分布での平均値、分散

  • 平均値=np
  • 分散=np(1-p)

というシンプルな式で表すことができる。

 

 とりあえず、高校生時代にやった記憶はほぼ抜けていたことがわかりました・・・。

 

 

図解 統計学超入門

図解 統計学超入門

 

 

追記)

上記をイメージでもっと理解したい方には、gaccoの「社会人のためのデータサイエンス入門」がおすすめです。

数式に抵抗ある人でこ、馴染みのある政府統計のデータを用いているので、イメージが湧きやすいです。