こんにちは、ウチダです。
データの分析(資料の整理)を習う際に、一番初めに登場するもの。
それが「度数分布表とヒストグラム」ですね。
[ふきだし set=”悩む男性”]度数分布表とかヒストグラムとかって、結局何なのかよくわかってないです。[/ふきだし]
[ふきだし set=”悩む女性”]度数分布表・ヒストグラムを使えば何ができるのか…特徴が知りたいですね。[/ふきだし]
よって本記事では、度数分布表・ヒストグラムの作り方(書き方)や特徴、それらだけでは足りないものについて
- 東北大学理学部数学科卒業
- 教員採用試験に1発合格 → 高校教諭経験アリ
の僕がわかりやすく解説します。
度数分布表・ヒストグラムとは結局何なのか?【目で見てパッとわかるようにしました】
度数分布表とヒストグラムを一言で表すならば…
- 度数分布表 → 必要最低限の文字情報でデータをまとめた表
- ヒストグラム → 目で見てパッとわかるように工夫した図
それぞれこんな特徴があります。
[ふきだし set=”ウチダ”]抽象的でわかりづらいですよね。ということで、さっそく具体例を通して詳しく見ていきましょう![/ふきだし]
度数分布表・ヒストグラムの例
$7$ | $9$ | $5$ | $12$ | $18$ |
$19$ | $17$ | $3$ | $5$ | $11$ |
$18$ | $16$ | $6$ | $4$ | $7$ |
$9$ | $13$ | $2$ | $18$ | $4$ |
※単位は「分」です。
[ふきだし set=”考える男性”]う~ん…これだけだとデータがバラバラで、「平均何分ぐらい」とかそういう情報がわかりづらいね。[/ふきだし]
[ふきだし set=”ウチダ”]とてもいい感覚です。ではここで、階級幅を $4$ として、度数分布表を作ってみましょう。[/ふきだし]
階級(分) | 度数(人) |
---|---|
$0$ 以上 $4$ 未満 | $2$ |
$4$ ~ $8$ | $7$ |
$8$ ~ $12$ | $3$ |
$12$ ~ $16$ | $2$ |
$16$ ~ $20$ | $6$ |
計 | $20$ |
[ふきだし set=”考える男性”]おぉ~!この表を見れば、「 $4$ ~ $8$ 分の人と $16$ ~ $20$ 分の人が多い」とか、そういう情報もわかるね![/ふきだし]
[ふきだし set=”ウチダ”]度数分布表を適切な階級幅で作ることで、データが一気にわかりやすくなりましたね!では次に、ヒストグラムも作ってみましょう。[/ふきだし]
[ふきだし set=”考える男性”]度数分布表でも十分わかりやすかったけど、ヒストグラムの方がパッと見て判断できるね![/ふきだし]
一度これまでの話をまとめたいと思います。
度数分布表・ヒストグラムの特徴(メリットやデメリット)
それぞれの特徴やメリット・デメリットを、簡単に言葉でまとめました。
種類 | 特徴 | メリット | デメリット |
---|---|---|---|
表 | データをただ 並べたもの |
情報は確か。 | わかりづらい。 応用もしづらい。 |
度数分布表 | 階級と度数によって データをまとめたもの | ある程度のデータの 分布がわかる。 | ヒストグラムよりは パッとわかりづらい。 |
ヒストグラム | 度数分布表を 図にしたもの | 一番わかりやすいため、 $2$ つのデータの比較 などに向いている。 |
具体的なデータは、 |
※この表は横にスクロールできます。(スマホでご覧の方対象。)
[ふきだし set=”ウチダ”]たとえばクラスBの通学時間などのデータがある場合、ヒストグラムを使うことで比較がしやすいです。ただし、データの抽象度を上げていることには、注意が必要ですね。[/ふきだし]
これ以上理解を深めるには、「階級幅はどうやって決めるのか」だったり、「相対度数とは何なのか」だったり、そういった知識を身に付けていくことが重要です。
詳しくはこちらから
度数分布表・ヒストグラムでは足りないもの【平均値や中央値を使う理由です】
さて、度数分布表やヒストグラムを使う理由は大体掴めましたね。
[ふきだし set=”考える女性”]でも、いちいち度数分布表・ヒストグラムを書くのはめんどくさいです。[/ふきだし]
[ふきだし set=”ウチダ”]そこで、さらに抽象度を上げたもの、つまり「代表値(だいひょうち)」を考えることにします。[/ふきだし]
代表値とは、平均値・最頻値(モード)・中央値(メジアン)の $3$ つのことを指します。
またまた、先ほどの例で考えてみましょうか。
$7$ | $9$ | $5$ | $12$ | $18$ |
$19$ | $17$ | $3$ | $5$ | $11$ |
$18$ | $16$ | $6$ | $4$ | $7$ |
$9$ | $13$ | $2$ | $18$ | $4$ |
この記事では、計算方法は省略します。
それぞれ計算すると…
$\displaystyle 平均値 \ = \ \frac{203}{20}≒10$
$最頻値 \ = \ 18$
$中央値 \ = \ 9$
[ふきだし set=”考える女性”]「平均値と中央値が近い値」ということは、データの偏りはそれほどなさそうですね。[/ふきだし]
[ふきだし set=”ウチダ”]素晴らしい!それに加えて、最頻値が $18$ と平均値より大分離れていることから、データの分布が谷のような形になることが予想できますね。[/ふきだし]
確かに多少のズレはありますが、
- 通学時間が短い生徒と長い生徒の差が大きい。
- 平均付近の生徒が少ない。
こういった特徴は、代表値 $3$ つからでも予想できてますよね。
つまり、度数分布表やヒストグラムを使わずとも、代表値で分析が十分に可能なケースも多くある、ということです。
代表値については「平均値・中央値・最頻値はどう使い分ける?【3つの代表値を詳しく解説】」の記事で詳しく解説してます。
度数分布表・ヒストグラムに関するまとめ
本記事のポイントをまとめます。
- 度数分布表やヒストグラムは、ある程度正確性を保ちながら、パッと見てわかるようにした表や図のこと。
- 関連知識をたくさん身に付けることで、データの見方が変わってきます。
- 「階級値」「相対度数・累積度数」「近似値と有効数字」「平均値・中央値・最頻値」お好きなところから学んでいきましょう!
まずはデータを分析することに慣れることが大切です。
ぜひ、度数分布表やヒストグラムを見て、「あ~。ということは…大体こんなことが言えるな。」と自分で考えるクセを付けていきましょう♪
数学Ⅰ「データの分析」の全 $18$ 記事をまとめた記事を作りました。よろしければこちらからどうぞ。
終わりです。
コメントを残す
コメント一覧 (2件)
こんにちわ!
ヒストグラムの説明がとっても分かりやすかったです。
ありがとうございました。
yuko様
コメントありがとうございます!嬉しいです!
ぜひぜひ他の記事も見ていってくださいね~^^