こんにちは、ウチダです。
度数分布表(ヒストグラム)では、階級を具体的に決めます。
そこで、それぞれの階級に対して「階級値(かいきゅうち)」なるものが定められます。
[ふきだし set=”悩む男性”]階級値の求め方って、平均を取るでしょ?なんで平均を取るのかがよくわからないんだよなぁ。[/ふきだし]
よって本記事では、階級値の求め方や平均を取る意味、また階級幅の決め方(スタージェスの公式)について
- 東北大学理学部数学科卒業
- 教員採用試験に1発合格 → 高校教諭経験アリ
の僕がわかりやすく解説します。
階級値の求め方とは?【階級幅の平均を考えます】
階級 $x$ ~ $y$ に対して、階級値は $\displaystyle \frac{x+y}{2}$、つまり平均で与えられます。
ためしに何問か練習してみましょう。
(1) $5$ (cm) 以上 $11$ (cm) 未満
(2) $120$ (円) 以上 $180$ (円) 未満
(3) $13$ (点) 以上 $18$ (点) 未満
【解答】
(1) $\displaystyle \frac{5+11}{2}=8$ (cm)
(2) $\displaystyle \frac{120+180}{2}=150$ (円)
(3) $\displaystyle \frac{13+18}{2}=\frac{31}{2}$ (点)
※ $16.5$ (点) でも可
(解答終了)
階級値を求めることそのものは簡単ですが、ではなぜ「階級値は平均によって与えられる」のでしょうか。
理由を考察していきます。
なぜ平均をとるのか
一言で言ってしまえば…
これに尽きます。
つまり、ある階級の度数が極端な分布をとっていても、ある程度信頼を担保できるから、ということです。
ちょっとわかりづらいと思うので、例を使って考えてみます。
$120$ | $150$ | $120$ | $130$ | $260$ |
$290$ | $290$ | $290$ | $50$ | $70$ |
$220$ | $170$ | $50$ | $10$ | $290$ |
$140$ | $180$ | $90$ | $30$ | $150$ |
※単位は「円」です。
このように、すべての商品のデータが表で事細かくまとまっている場合もあります。
こういう場合は、単に $20$ 個すべて足したものを $20$ で割ればよいので、
$$\frac{120+150+…}{20}=\frac{3100}{20}=155$$
よって、商品の値段の平均値は $155$ (円) と求めることができます。
しかし、たとえばこのデータが階級幅 $60$ の度数分布表で与えられていたらどうでしょうか。
階級(円) | 階級値 | 度数(個) |
---|---|---|
$0$ 以上 $60$ 未満 | $30$ | $4$ |
$60$ ~ $120$ | $90$ | $2$ |
$120$ ~ $180$ | $150$ | $7$ |
$180$ ~ $240$ | $210$ | $2$ |
$240$ ~ $300$ | $270$ | $5$ |
計 | / | $20$ |
この場合はまず、それぞれの階級値×度数を計算し、$20$ で割ります。
すると…
※この数式は横にスクロールできます。(スマホでご覧の方対象。)
よって、度数分布表から推測した商品の値段の平均値は $156$ (円) になります。
- 本当の平均値 … $155$
- 度数分布表から推測した平均値 … $156$
今回はたまたま誤差が $1$ (円)と非常に小さかったですが、こういうことがどんなデータでもある程度起こる、ということになります。
[ふきだし set=”ウチダ”]お菓子屋さんAも、$290$ (円) の商品が $4$ つあるなどの偏りはありましたが、階級値が平均で与えられることにより、それが上手く打ち消されてますね。[/ふきだし]
平均値などのデータの代表値については「平均値・中央値・最頻値はどう使い分ける?【3つの代表値を詳しく解説】」の記事で詳しく解説してます。
【研究】階級幅の決め方(スタージェスの公式)って?
階級値については以上ですが、階級幅についてはまだこんな疑問が残っています。
[ふきだし set=”悩む女性”]階級幅って、問題で事前に決まっているけど、具体的にどういう根拠で定められているんだろう…。[/ふきだし]
これ、結構気になる方多いと思いますし、学校でも教えてくれません。
一応判断基準となる公式がありまして、それが「スタージェスの公式」と呼ばれるものです。
データの数を $n$ としたとき、階級数を$$1+\log_2{n}$$と決めると大体うまくいく。
「 $\log_2{n}$ って何?」という疑問は、ここでは頭の片隅に置くことにします。
データの数 $n$ と階級数の関係は以下の通りです。
データの数 $n$ | 階級数 | 四捨五入した値 |
---|---|---|
$10$ | $4.3219…$ | $4$ |
$20$ | $5.3219…$ | $5$ |
$30$ | $5.9068…$ | $6$ |
$40$ | $6.3219…$ | $6$ |
$50$ | $6.6438…$ | $7$ |
$60$ | $6.9068…$ | $7$ |
$100$ | $7.6438…$ | $8$ |
そんなにちゃんと計算したわけではないので、おおよそですが
- $10$ 個前後 → 階級が $4$ つになるように階級幅を定める
- $20$ 個前後 → 階級が $5$ つ
- $30$ ~ $40$ 個ぐらい → $6$ つ
- $50$ ~ $90$ 個ぐらい → $7$ つ
- $100$ 個以上 → $8$ つ
このイメージで階級の数を決めていくと、いい感じの度数分布表が作れます。
[ふきだし set=”ウチダ”]ぶっちゃけ、根拠は経験則によるところが大きいです。ただ、特に $n>30$ であれば、スタージェスの公式はまあまあ信ぴょう性が高いらしいです。[/ふきだし]
階級値に関するまとめ
本記事のポイントをまとめます。
- 階級 $x$ ~ $y$ に対して、階級値は $\displaystyle \frac{x+y}{2}$、つまり平均で与えられます。
- 「平均値(この場合中央値でもある)」をとる理由は、それぐらいしか信じられる情報がないから。
- スタージェスの公式を使って階級幅を決めれば、大体それっぽくなります。
階級値を定めた理由。階級幅を決めている根拠となる公式。
こういう知識が増えると、よりデータの分析が楽しくなってきますね♪
数学Ⅰ「データの分析」の全 $18$ 記事をまとめた記事を作りました。よろしければこちらからどうぞ。
おわりです。
コメントを残す