MENU
カテゴリー
おすすめプログラミングスクール紹介中! 一覧はこちらから

階級値の求め方とは?【なぜ平均をとるのか、わかりやすく解説します】

こんにちは、ウチダです。

度数分布表(ヒストグラム)では、階級を具体的に決めます。

そこで、それぞれの階級に対して「階級値(かいきゅうち)」なるものが定められます。

[ふきだし set=”悩む男性”]階級値の求め方って、平均を取るでしょ?なんで平均を取るのかがよくわからないんだよなぁ。[/ふきだし]

よって本記事では、階級値の求め方や平均を取る意味、また階級幅の決め方(スタージェスの公式)について

  • 東北大学理学部数学科卒業
  • 教員採用試験に1発合格 → 高校教諭経験アリ

の僕がわかりやすく解説します。

階級値の求め方とは?【階級幅の平均を考えます】

階級 $x$ ~ $y$ に対して、階級値は $\displaystyle \frac{x+y}{2}$、つまり平均で与えられます。

ためしに何問か練習してみましょう。

練習問題. それぞれの階級に対する階級値を求めなさい。
(1) $5$ (cm) 以上 $11$ (cm) 未満
(2) $120$ (円) 以上 $180$ (円) 未満
(3) $13$ (点) 以上 $18$ (点) 未満

【解答】

(1) $\displaystyle \frac{5+11}{2}=8$ (cm)

(2) $\displaystyle \frac{120+180}{2}=150$ (円)

(3) $\displaystyle \frac{13+18}{2}=\frac{31}{2}$ (点)

※ $16.5$ (点) でも可

(解答終了)

階級値を求めることそのものは簡単ですが、ではなぜ「階級値は平均によって与えられる」のでしょうか。

理由を考察していきます。

なぜ平均をとるのか

一言で言ってしまえば…

それぐらいしか信じられる情報がないから

これに尽きます。

つまり、ある階級の度数が極端な分布をとっていても、ある程度信頼を担保できるから、ということです。

ちょっとわかりづらいと思うので、例を使って考えてみます。

例題. お菓子屋さんAの商品 $20$ 個の値段は以下の通り。このとき、商品の値段の平均値を求めなさい。
$120$$150$$120$$130$$260$
$290$$290$$290$$50$$70$
$220$$170$$50$$10$$290$
$140$$180$$90$$30$$150$

※単位は「円」です。

このように、すべての商品のデータが表で事細かくまとまっている場合もあります。

こういう場合は、単に $20$ 個すべて足したものを $20$ で割ればよいので、

$$\frac{120+150+…}{20}=\frac{3100}{20}=155$$

よって、商品の値段の平均値は $155$ (円) と求めることができます。

しかし、たとえばこのデータが階級幅 $60$ の度数分布表で与えられていたらどうでしょうか。

階級(円)階級値度数(個)
$0$ 以上 $60$ 未満$30$$4$
$60$ ~ $120$$90$$2$
$120$ ~ $180$$150$$7$
$180$ ~ $240$$210$$2$
$240$ ~ $300$$270$$5$
/$20$

この場合はまず、それぞれの階級値×度数を計算し、$20$ で割ります。

すると…

\begin{align}\frac{30×4+90×2+150×7+210×2+270×5}{20}=\frac{3120}{20}=156\end{align}

※この数式は横にスクロールできます。(スマホでご覧の方対象。)

よって、度数分布表から推測した商品の値段の平均値は $156$ (円) になります。

  • 本当の平均値 … $155$
  • 度数分布表から推測した平均値 … $156$

今回はたまたま誤差が $1$ (円)と非常に小さかったですが、こういうことがどんなデータでもある程度起こる、ということになります。

[ふきだし set=”ウチダ”]お菓子屋さんAも、$290$ (円) の商品が $4$ つあるなどの偏りはありましたが、階級値が平均で与えられることにより、それが上手く打ち消されてますね。[/ふきだし]

平均値などのデータの代表値については「平均値・中央値・最頻値はどう使い分ける?【3つの代表値を詳しく解説】」の記事で詳しく解説してます。

スポンサーリンク

【研究】階級幅の決め方(スタージェスの公式)って?

階級値については以上ですが、階級幅についてはまだこんな疑問が残っています。

[ふきだし set=”悩む女性”]階級幅って、問題で事前に決まっているけど、具体的にどういう根拠で定められているんだろう…。[/ふきだし]

これ、結構気になる方多いと思いますし、学校でも教えてくれません。

一応判断基準となる公式がありまして、それが「スタージェスの公式」と呼ばれるものです。

【スタージェスの公式とは】
データの数を $n$ としたとき、階級数を$$1+\log_2{n}$$と決めると大体うまくいく。

「 $\log_2{n}$ って何?」という疑問は、ここでは頭の片隅に置くことにします。

データの数 $n$ と階級数の関係は以下の通りです。

データの数 $n$ 階級数四捨五入した値
$10$$4.3219…$$4$
$20$$5.3219…$$5$
$30$$5.9068…$$6$
$40$$6.3219…$$6$
$50$$6.6438…$$7$
$60$$6.9068…$$7$
$100$$7.6438…$$8$

そんなにちゃんと計算したわけではないので、おおよそですが

  • $10$ 個前後 → 階級が $4$ つになるように階級幅を定める
  • $20$ 個前後 → 階級が $5$ つ
  • $30$ ~ $40$ 個ぐらい → $6$ つ
  • $50$ ~ $90$ 個ぐらい → $7$ つ
  • $100$ 個以上 → $8$ つ

このイメージで階級の数を決めていくと、いい感じの度数分布表が作れます。

[ふきだし set=”ウチダ”]ぶっちゃけ、根拠は経験則によるところが大きいです。ただ、特に $n>30$ であれば、スタージェスの公式はまあまあ信ぴょう性が高いらしいです。[/ふきだし]

階級値に関するまとめ

本記事のポイントをまとめます。

  1. 階級 $x$ ~ $y$ に対して、階級値は $\displaystyle \frac{x+y}{2}$、つまり平均で与えられます。
  2. 平均値(この場合中央値でもある)」をとる理由は、それぐらいしか信じられる情報がないから。
  3. スタージェスの公式を使って階級幅を決めれば、大体それっぽくなります。

階級値を定めた理由。階級幅を決めている根拠となる公式。

こういう知識が増えると、よりデータの分析が楽しくなってきますね♪

数学Ⅰ「データの分析」の全 $18$ 記事をまとめた記事を作りました。よろしければこちらからどうぞ。

おわりです。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!
スポンサーリンク

コメントを残す

コメントする

CAPTCHA


目次