こんにちは、ウチダです。
データの散らばり度合いを、平均値を使って定義したもの。
それが「分散(ぶんさん)」です。
[ふきだし set=”悩む男性”]分散の求め方をわかりやすく解説してほしいです。[/ふきだし]
[ふきだし set=”悩む女性”]分散と標準偏差の違いって一体何でしょうか?[/ふきだし]
よって本記事では、分散の求め方から意味(標準偏差との違い)まで
- 東北大学理学部数学科卒業
- 教員採用試験に1発合格 → 高校教諭経験アリ
の僕がわかりやすく解説します。
分散の求め方とは?【偏差の2乗の平均値です】
分散 $s^2$ は、偏差の $2$ 乗の平均値、つまり
で定義される。
※以降途切れている数式は横にスクロールできます。(スマホでご覧の方対象。)
「なぜ分散を $s^2$ と表すのか」については後述しますので、とりあえず分散を求める練習をしてみましょう。
$$3 \ , \ 5 \ , \ 1 \ , \ 9 \ , \ 7 \ , \ 2 \ , \ 8$$このとき、分散 $s^2$ を求めなさい。
まずは、個々のデータに対する偏差を求めます。
データ $x_i$ | $3$ | $5$ | $1$ | $9$ | $7$ | $2$ | $8$ | 計 $35$ |
---|---|---|---|---|---|---|---|---|
偏差 $x_i-\overline{x}$ | $-2$ | $0$ | $-4$ | $4$ | $2$ | $-3$ | $3$ | 計 $0$ |
≫参考記事:偏差とは?【意味や求め方・和が必ず0であることをわかりやすく解説】
偏差を求めることができたら、その $2$ 乗をすべて足して、足した個数で割ります。
よって、分散は約 $8.3$ と求めることができました。
ではここで、
- データの大きさ( $n=7$ )が同じ
- 平均値( $\overline{x}=5$ )も同じ
であるような次のデータに対しても、同じように分散を求めてみます。
$$4 \ , \ 6 \ , \ 5 \ , \ 5 \ , \ 5 \ , \ 3 \ , \ 7$$このとき、分散 $s^2$ を求めなさい。
まずは同様に、偏差を求めるところからスタートです。
データ $x_i$ | $4$ | $6$ | $5$ | $5$ | $5$ | $3$ | $7$ | 計 $35$ |
---|---|---|---|---|---|---|---|---|
偏差 $x_i-\overline{x}$ | $-1$ | $1$ | $0$ | $0$ | $0$ | $-2$ | $2$ | 計 $0$ |
偏差を求めることができたら、その $2$ 乗をすべて足して、足した個数で割ります。
よって、分散は約 $1.4$ と求めることができました。
さて、この $2$ つの問題を解いてみて、何か気づくことはありませんか?
[ふきだし set=”考える男性”]データの大きさ $n$ や平均値 $\overline{x}$ が同じでも、分散が大きく異なることはあるんだね。[/ふきだし]
[ふきだし set=”考える女性”]問題 $2$ のデータの方が、分散が小さくて、平均値周辺にデータが密集している気がするわ。[/ふきだし]
$2$ 人とも大正解で、データの大きさや平均値が同じでも、データの散らばり度合いが異なる場合はもちろんあります。
さらに付け加えると、
- 分散が大きい $⇔$ データが平均値周辺にあまりない
- 分散が小さい $⇔$ データが平均値周辺に密集している
つまり、分散を求めることで、「データが平均値からどれだけ離れているか」を全体的に把握することができるのです。
分散と標準偏差の違いとは?
さて、分散の求め方とその意味については、大体把握できましたね。
では次に、分散と標準偏差の違いについて見ていきましょう。
標準偏差を一言で表すとするならば、分散の正の平方根です。
つまり、分散 $s^2$ に対して標準偏差は $\sqrt{s^2}=s$ で与えられます。
[ふきだし set=”ウチダ”]これが分散を $s^2$ と表した理由です。また、標準偏差を英語で「Standard deviation」と言い、頭文字を取って $s$ と表記します。[/ふきだし]
ここで、分散と標準偏差のメリット・デメリットをまとめておきます。
- 分散:計算しやすいが統計では扱いづらい。
- 標準偏差:少し計算が面倒だが統計で活躍するのはこちら。
では、それぞれの特徴について深掘りしていきましょう。
分散のメリット
分散 $s^2$ は
と定義されています。
また、この定義式を変形すると、以下の公式が得られます。
$$s^2=\overline{x^2}-(\overline{x})^2$$
言葉にすると、「( $x^2$ の平均値) $-$ ( $x$ の平均値の $2$ 乗)」となります。
[ふきだし set=”ウチダ”]分散公式については「分散公式とは?【導出から覚え方までわかりやすく解説します】」の記事で詳しく解説してます。[/ふきだし]
つまり、分散は求め方が $2$ 通り存在し、状況によって使い分けることで素早く求めることができる、というわけです。
標準偏差のメリット
その分散にルートを付けなければいけないため、計算がより面倒なのは標準偏差の方です。
ただ、標準偏差を考えることは、統計学において非常に重要なことなんですね。
その理由を一言で表すとすれば…
これに尽きます。
[ふきだし set=”ウチダ”]たとえば単位が $cm$ のとき、分散の単位は $cm^2$ となります。これは分散の定義が、データを $2$ 乗しているため、$cm×cm=cm^2$ となるのですね。[/ふきだし]
標準偏差は分散にルートを付けるため、単位が $cm$ に戻ります。
よって、統計学で使う値として適しているのは、分散よりも標準偏差になるわけです。
また、たとえば正規分布において
- 「 $\overline{x}±s$ 」の範囲に $68$ % のデータが存在する
- 「 $\overline{x}±2s$ 」の範囲に $95$ % のデータが存在する
- 「 $\overline{x}±3s$ 」の範囲に $99.7$ % のデータが存在する
ということが一般的に成り立ちます。
この法則は「68-95-99.7則」や「3シグマのルール」などの呼び名があり、正規分布を勉強する上で必ず押さえておきたい性質です。
もし興味がある方は、ぜひこちらの記事を参考にしてみてください。
- 正規分布とは~(準備中)
- 標準偏差の求め方と意味とは?【分散との違いもわかりやすく解説します
分散に関するまとめ
本記事のポイントをまとめます。
分散の定義は意外と忘れがちなので、しっかりと覚えておきましょう。
数学Ⅰ「データの分析」の全 $18$ 記事をまとめた記事を作りました。よろしければこちらからどうぞ。
おわりです。
コメントを残す