シンプルウォーカー

50才台サラリーマンのブログ

「統計学入門」蓑谷 千凰彦 著

 この年になって今更と思ってはいるが、品質管理検定(QC検定)で統計的手法を学んだが、試験対策用に学習したくらいで、本質的には良く判っていない。数学的に統計を理解したい。お薦めの本があれば教えてほしい。本屋でざっと見て、簡単すぎず、難しすぎずな本書をとりあえず選んだ。統計学入門(蓑谷 千凰彦(みのたに ちおひこ))。

統計学入門

統計学入門

 

第1章 データの記述

1 はじめに

2 中心の尺度

3 散らばりの尺度

4 多数のデータの特性の記述

までは、「分散」と「標準偏差」がポイントで、これは大丈夫だろう。

分散には、偏差平方和をnで割ったものと、(n-1)で割ったものの2つの定義がある。

定義が2つあるのは気持ちが悪いが仕方がない。

(n-1)で割る、というシーンは他にも出てくると思うが、自分自身あまり良く理解していない。ここでもあまり詳しく書かれていない。

(n-1)で割る方は、「観測データの散らばりの記述から目的をさらに一歩進めて、観測データをもたらした確率モデルの分散を推定しようとする場合である」とある。「推定」に関しては第7章で学ぶのでその時にわかるかな?

そして、

5.不平等の分析

では、「ローレンツ曲線」と「ジニ係数」が出てくる。

品質管理よりも経済学で使われるのかもしれない。

ローレンツ曲線と完全平等線で囲まれる面積Iとローレンツ曲線の下側の面積S

ジニ係数G=I/E ただしE=I+S=1/2

G=I/E=(E-S)/E=1-S/E=1-2S

ローレンツ曲線の方程式が判らない場合、「シンプソンの公式」で面積Sを近似する。

シンプソンの公式は使ったことが無いが、最初と最後の区間の面積と、その間は奇数番目を4倍、偶数番目を2倍して足して、全体を3で割っているようだ。

6.データの探索的解析

これも初めて学ぶが、「幹葉表示」と「箱型図」

幹葉表示は度数分布表に近いが、できるだけ実数値もわかるような工夫がされている。

幹と葉に分ける。例えば3.6は幹3と葉6に分かれる。3.6と3.8と3.8がデータとすると幹3のところに葉688と表示される。データが3つあることがわかるし、詳しいデータもわかる。データの数で分布がビジュアルにわかる。なるほど、面白い。

箱型図は、最小値、最大値、および3つの四分位数が表示される。

これもデータの分布が判りやすくて良いですね。