MENU
カテゴリー
おすすめプログラミングスクール紹介中! 一覧はこちらから

四分位範囲・四分位偏差・四分位数とは?【意味や求め方をわかりやすく解説します】

こんにちは、ウチダです。

データの散らばりを考える際、範囲(レンジ)の次に学ぶのが「四分位範囲」や「四分位偏差」になります。

[ふきだし set=”悩む男性”]四分位範囲や四分位偏差の求め方がよくわかっていないです。[/ふきだし]

[ふきだし set=”悩む女性”]四分位範囲や四分位偏差を考えることで、どういうメリットがあるんですか?[/ふきだし]

よって本記事では、四分位範囲・偏差・数の求め方から意味まで

  • 東北大学理学部数学科卒業
  • 教員採用試験に1発合格 → 高校教諭経験アリ

の僕がわかりやすく解説します。

四分位範囲・四分位偏差・四分位数とは?

まず、求め方と意味を一言で表してみます。

  • 求め方   :小さい順に並べて $Q_2$ → $Q_1 \ , \ Q_3$
  • 意味(目的):外れ値に左右されない(されにくい)。

これだけだとあまりにも不親切なので、ここからは例題を通してわかりやすく解説していきます。

具体的な求め方(データの大きさが9)

例題1.$9$ 個のデータからなる変量 $x$ (点) があり、それぞれのデータは以下の通り。
$$1 \ , \ 6 \ , \ 3 \ , \ 9 \ , \ 12 \ , \ 4 \ , \ 5 \ , \ 8 \ , \ 13$$
このとき、$Q_1$ ~ $Q_3$ および四分位範囲,四分位偏差をそれぞれ求めなさい。

データは大きさ順に並んでいないことがほとんどですので、まずは並べてみましょう。

$$1 \ , \ 3 \ , \ 4 \ , \ 5 \ , \ 6 \ , \ 8 \ , \ 9 \ , \ 12 \ , \ 13$$

並べることができたら、$Q_2$ から求めていきます。

[ふきだし set=”考える男性”]そういえば $Q_1$ とか $Q_2$ って何ですか?[/ふきだし]

[ふきだし set=”ウチダ”]これらが「四分位数(しぶんいすう)」と呼ばれる数で、$4$ 等分に位置する値のことを指します。[/ふきだし]

つまり、$Q_2$(第 $2$ 四分位数)は中央値と同じです。

よって、$9$ 個のデータのちょうど真ん中は、$\displaystyle \frac{9+1}{2}=5$ 番目のデータなので、$$Q_2=6 \ (点)$$と求めることができます。

四分位数の求め方(データの大きさが9のとき)

そうしたら、中央値を含まないように左と右に分けます。

ただ、それぞれのデータの数が $4$ 個ずつなので、ちょうど真ん中のデータが存在しません。

仕方ないので、真ん中 $2$ つの平均値を中央値と定義することにします。

$$Q_1=\frac{3+4}{2}=3.5 \ (点)$$

$$Q_3=\frac{9+12}{2}=10.5 \ (点)$$

四分位数 $Q_1$ ~ $Q_3$ を求めることができたら、四分位範囲・四分位偏差は簡単に求まります。

【四分位範囲・四分位偏差とは】
四分位範囲は $Q_3-Q_1$ と定義し、四分位偏差は $\displaystyle \frac{Q_3-Q_1}{2}$、つまり「四分位範囲の半分」と定義する。

[ふきだし set=”ウチダ”]この定義だけ見ると $Q_2$(中央値)が必要ないように思えますが、$Q_1$,$Q_3$ を求めるためには必要不可欠です。[/ふきだし]

したがって、四分位範囲は $Q_3-Q_1=10.5-3.5=7$ (点) であり、四分位偏差は $7÷2=3.5$ (点) となります。

具体的な求め方(データの大きさが10)

もう一つだけ例題を解いておきましょう。

例題2.先ほどのデータに、$1$ 個付け加えたものが以下の通り。
$$1 \ , \ 3 \ , \ 4 \ , \ 5 \ , \ 6 \ , \ 8 \ , \ 9 \ , \ 12 \ , \ 13 \ , \ 90$$
このとき、$Q_1$ ~ $Q_3$ および四分位範囲,四分位偏差をそれぞれ求めなさい。

今度はデータの大きさが $10$ になるため、中央値 $Q_2$ を求めるときに、真ん中 $2$ つの平均値をとる必要があります。

よって、$$Q_2=\frac{6+8}{2}=7 \ (点)$$

となりますね。

$Q_2$ がわかったので、$Q_1$,$Q_3$ を求めることができます。

四分位数の求め方(データの大きさが10のとき)

今回はそれぞれのデータの数が $5$ 個ずつなので、ちょうど真ん中のデータが存在します。

よって、$Q_1=4$ (点),$Q_3=12$ (点) と簡単に求めることができます。

したがって、四分位範囲は $Q_3-Q_1=8$ (点) であり、四分位偏差は $8÷2=4$ (点) となります。

[ふきだし set=”ウチダ”]データの大きさが変化すると求め方がビミョーに異なりますが、「 $Q_2$ を求めてから $Q_1$,$Q_3$ を求める」という基本を守れば大丈夫です。[/ふきだし]

また、例題 $2$ では $90$ (点) という極端に大きな値が加わったのに、四分位数はあまり変化しませんでしたね。

実はこれが、次に考える「四分位範囲・偏差・数の意味(目的)」につながってくるのです。

スポンサーリンク

四分位範囲・四分位偏差の意味とは?【標準偏差との違い】

先ほどの例題 $2$ でも見たように、四分位範囲・四分位偏差は「極端な値(外れ値)」に左右されにくいです。

対して標準偏差は、すべてのデータを使って定義されているため、外れ値に左右されやすいというデメリットがあります。

  • 四分位範囲(四分位偏差)…外れ値に左右されにくい
  • 標準偏差…外れ値に左右されやすい

外れ値については「平均値・中央値・最頻値はどう使い分ける?【3つの代表値を詳しく解説】」の記事をご参考ください。

[ふきだし set=”考える女性”]標準偏差との違いはわかったけど、最後にもう一つだけ質問です。四分位偏差って本当に必要なんですか?[/ふきだし]

ということで、最後に四分位偏差の存在意義について解説します。

四分位偏差って必要なの?

四分位範囲を単に $÷2$ しているだけの四分位偏差は、一見必要そうに見えません。

しかし、それで考えたら標準偏差だって、分散の $2$ 乗根をとっているだけなので、必要そうに見えないですね。

実はここに大きなからくりがあります。

  • 平均値 $±$ 標準偏差  … パラメトリック検定(分布がわかっている検定)で重視
  • 中央値 $±$ 四分位偏差 … ノンパラメトリック検定(分布がわかっていない検定)で重視

つまり、「代表値 $±$ ~偏差」という値を使うことで、データの分析がより便利に行えるのです。

[ふきだし set=”ウチダ”]「中央値 $±$ 四分位偏差で $Q_1$,$Q_3$ を表せる。」最初はこの理解でいいと思います。大学で分布とかを勉強するようになると、より深く理解できるでしょう。[/ふきだし]

標準偏差については「標準偏差の求め方と意味とは?【分散との違いもわかりやすく解説します】」の記事で詳しく解説しております。

四分位範囲・四分位偏差・四分位数のまとめ

本記事のポイントをまとめます。

  • 四分位数の求め方は、「 $Q_2$ → $Q_1$,$Q_3$ 」の順番が大切!
  • 四分位範囲・四分位偏差を考える意味は、「標準偏差」と違って外れ値に左右されないから。
  • $Q_2$ $±$ 四分位偏差で $Q_1$,$Q_3$ を表せるから、四分位偏差の方が優秀。

四分位範囲・偏差・数を使って、データの分布を表す「箱ひげ図」もあわせてマスターしてしまいましょう♪

あわせて読みたい
箱ひげ図の書き方と見方をわかりやすく解説【ヒストグラムとの違いとは?】 「箱ひげ図とは何か」知りたいですか?本記事では、箱ひげ図の書き方から箱ひげ図の見方まで、ヒストグラムと照らし合わせながらわかりやすく解説します。「箱ひげ図って結局何のためにあるの…?」と感じている方は必見です。

数学Ⅰ「データの分析」の全 $18$ 記事をまとめた記事を作りました。よろしければこちらからどうぞ。

おわりです。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!
スポンサーリンク

コメントを残す

コメントする

CAPTCHA


目次