「統計学入門」蓑谷 千凰彦 著
この年になって今更と思ってはいるが、品質管理検定(QC検定)で統計的手法を学んだが、試験対策用に学習したくらいで、本質的には良く判っていない。数学的に統計を理解したい。お薦めの本があれば教えてほしい。本屋でざっと見て、簡単すぎず、難しすぎずな本書をとりあえず選んだ。統計学入門(蓑谷 千凰彦(みのたに ちおひこ))。
第1章 データの記述
1 はじめに
2 中心の尺度
3 散らばりの尺度
4 多数のデータの特性の記述
までは、「分散」と「標準偏差」がポイントで、これは大丈夫だろう。
分散には、偏差平方和をnで割ったものと、(n-1)で割ったものの2つの定義がある。
定義が2つあるのは気持ちが悪いが仕方がない。
(n-1)で割る、というシーンは他にも出てくると思うが、自分自身あまり良く理解していない。ここでもあまり詳しく書かれていない。
(n-1)で割る方は、「観測データの散らばりの記述から目的をさらに一歩進めて、観測データをもたらした確率モデルの分散を推定しようとする場合である」とある。「推定」に関しては第7章で学ぶのでその時にわかるかな?
そして、
5.不平等の分析
品質管理よりも経済学で使われるのかもしれない。
ローレンツ曲線と完全平等線で囲まれる面積Iとローレンツ曲線の下側の面積S
ジニ係数G=I/E ただしE=I+S=1/2
G=I/E=(E-S)/E=1-S/E=1-2S
ローレンツ曲線の方程式が判らない場合、「シンプソンの公式」で面積Sを近似する。
シンプソンの公式は使ったことが無いが、最初と最後の区間の面積と、その間は奇数番目を4倍、偶数番目を2倍して足して、全体を3で割っているようだ。
6.データの探索的解析
これも初めて学ぶが、「幹葉表示」と「箱型図」
幹葉表示は度数分布表に近いが、できるだけ実数値もわかるような工夫がされている。
幹と葉に分ける。例えば3.6は幹3と葉6に分かれる。3.6と3.8と3.8がデータとすると幹3のところに葉688と表示される。データが3つあることがわかるし、詳しいデータもわかる。データの数で分布がビジュアルにわかる。なるほど、面白い。
箱型図は、最小値、最大値、および3つの四分位数が表示される。
これもデータの分布が判りやすくて良いですね。