こんにちは、ウチダです。
データの散らばりを考える際、範囲(レンジ)の次に学ぶのが「四分位範囲」や「四分位偏差」になります。
[ふきだし set=”悩む男性”]四分位範囲や四分位偏差の求め方がよくわかっていないです。[/ふきだし]
[ふきだし set=”悩む女性”]四分位範囲や四分位偏差を考えることで、どういうメリットがあるんですか?[/ふきだし]
よって本記事では、四分位範囲・偏差・数の求め方から意味まで
- 東北大学理学部数学科卒業
- 教員採用試験に1発合格 → 高校教諭経験アリ
の僕がわかりやすく解説します。
四分位範囲・四分位偏差・四分位数とは?
まず、求め方と意味を一言で表してみます。
- 求め方 :小さい順に並べて $Q_2$ → $Q_1 \ , \ Q_3$
- 意味(目的):外れ値に左右されない(されにくい)。
これだけだとあまりにも不親切なので、ここからは例題を通してわかりやすく解説していきます。
具体的な求め方(データの大きさが9)
$$1 \ , \ 6 \ , \ 3 \ , \ 9 \ , \ 12 \ , \ 4 \ , \ 5 \ , \ 8 \ , \ 13$$
このとき、$Q_1$ ~ $Q_3$ および四分位範囲,四分位偏差をそれぞれ求めなさい。
データは大きさ順に並んでいないことがほとんどですので、まずは並べてみましょう。
$$1 \ , \ 3 \ , \ 4 \ , \ 5 \ , \ 6 \ , \ 8 \ , \ 9 \ , \ 12 \ , \ 13$$
並べることができたら、$Q_2$ から求めていきます。
[ふきだし set=”考える男性”]そういえば $Q_1$ とか $Q_2$ って何ですか?[/ふきだし]
[ふきだし set=”ウチダ”]これらが「四分位数(しぶんいすう)」と呼ばれる数で、$4$ 等分に位置する値のことを指します。[/ふきだし]
つまり、$Q_2$(第 $2$ 四分位数)は中央値と同じです。
よって、$9$ 個のデータのちょうど真ん中は、$\displaystyle \frac{9+1}{2}=5$ 番目のデータなので、$$Q_2=6 \ (点)$$と求めることができます。
そうしたら、中央値を含まないように左と右に分けます。
ただ、それぞれのデータの数が $4$ 個ずつなので、ちょうど真ん中のデータが存在しません。
仕方ないので、真ん中 $2$ つの平均値を中央値と定義することにします。
$$Q_1=\frac{3+4}{2}=3.5 \ (点)$$
$$Q_3=\frac{9+12}{2}=10.5 \ (点)$$
四分位数 $Q_1$ ~ $Q_3$ を求めることができたら、四分位範囲・四分位偏差は簡単に求まります。
四分位範囲は $Q_3-Q_1$ と定義し、四分位偏差は $\displaystyle \frac{Q_3-Q_1}{2}$、つまり「四分位範囲の半分」と定義する。
[ふきだし set=”ウチダ”]この定義だけ見ると $Q_2$(中央値)が必要ないように思えますが、$Q_1$,$Q_3$ を求めるためには必要不可欠です。[/ふきだし]
したがって、四分位範囲は $Q_3-Q_1=10.5-3.5=7$ (点) であり、四分位偏差は $7÷2=3.5$ (点) となります。
具体的な求め方(データの大きさが10)
もう一つだけ例題を解いておきましょう。
$$1 \ , \ 3 \ , \ 4 \ , \ 5 \ , \ 6 \ , \ 8 \ , \ 9 \ , \ 12 \ , \ 13 \ , \ 90$$
このとき、$Q_1$ ~ $Q_3$ および四分位範囲,四分位偏差をそれぞれ求めなさい。
今度はデータの大きさが $10$ になるため、中央値 $Q_2$ を求めるときに、真ん中 $2$ つの平均値をとる必要があります。
よって、$$Q_2=\frac{6+8}{2}=7 \ (点)$$
となりますね。
$Q_2$ がわかったので、$Q_1$,$Q_3$ を求めることができます。
今回はそれぞれのデータの数が $5$ 個ずつなので、ちょうど真ん中のデータが存在します。
よって、$Q_1=4$ (点),$Q_3=12$ (点) と簡単に求めることができます。
したがって、四分位範囲は $Q_3-Q_1=8$ (点) であり、四分位偏差は $8÷2=4$ (点) となります。
[ふきだし set=”ウチダ”]データの大きさが変化すると求め方がビミョーに異なりますが、「 $Q_2$ を求めてから $Q_1$,$Q_3$ を求める」という基本を守れば大丈夫です。[/ふきだし]
また、例題 $2$ では $90$ (点) という極端に大きな値が加わったのに、四分位数はあまり変化しませんでしたね。
実はこれが、次に考える「四分位範囲・偏差・数の意味(目的)」につながってくるのです。
四分位範囲・四分位偏差の意味とは?【標準偏差との違い】
先ほどの例題 $2$ でも見たように、四分位範囲・四分位偏差は「極端な値(外れ値)」に左右されにくいです。
対して標準偏差は、すべてのデータを使って定義されているため、外れ値に左右されやすいというデメリットがあります。
- 四分位範囲(四分位偏差)…外れ値に左右されにくい
- 標準偏差…外れ値に左右されやすい
外れ値については「平均値・中央値・最頻値はどう使い分ける?【3つの代表値を詳しく解説】」の記事をご参考ください。
[ふきだし set=”考える女性”]標準偏差との違いはわかったけど、最後にもう一つだけ質問です。四分位偏差って本当に必要なんですか?[/ふきだし]
ということで、最後に四分位偏差の存在意義について解説します。
四分位偏差って必要なの?
四分位範囲を単に $÷2$ しているだけの四分位偏差は、一見必要そうに見えません。
しかし、それで考えたら標準偏差だって、分散の $2$ 乗根をとっているだけなので、必要そうに見えないですね。
実はここに大きなからくりがあります。
- 平均値 $±$ 標準偏差 … パラメトリック検定(分布がわかっている検定)で重視
- 中央値 $±$ 四分位偏差 … ノンパラメトリック検定(分布がわかっていない検定)で重視
つまり、「代表値 $±$ ~偏差」という値を使うことで、データの分析がより便利に行えるのです。
[ふきだし set=”ウチダ”]「中央値 $±$ 四分位偏差で $Q_1$,$Q_3$ を表せる。」最初はこの理解でいいと思います。大学で分布とかを勉強するようになると、より深く理解できるでしょう。[/ふきだし]
標準偏差については「標準偏差の求め方と意味とは?【分散との違いもわかりやすく解説します】」の記事で詳しく解説しております。
四分位範囲・四分位偏差・四分位数のまとめ
本記事のポイントをまとめます。
- 四分位数の求め方は、「 $Q_2$ → $Q_1$,$Q_3$ 」の順番が大切!
- 四分位範囲・四分位偏差を考える意味は、「標準偏差」と違って外れ値に左右されないから。
- $Q_2$ $±$ 四分位偏差で $Q_1$,$Q_3$ を表せるから、四分位偏差の方が優秀。
四分位範囲・偏差・数を使って、データの分布を表す「箱ひげ図」もあわせてマスターしてしまいましょう♪
数学Ⅰ「データの分析」の全 $18$ 記事をまとめた記事を作りました。よろしければこちらからどうぞ。
おわりです。
コメントを残す