MENU
カテゴリー
おすすめプログラミングスクール紹介中! 一覧はこちらから

分散の求め方とは?【標準偏差との違いもわかりやすく解説します】

こんにちは、ウチダです。

データの散らばり度合いを、平均値を使って定義したもの。

それが「分散(ぶんさん)」です。

数学太郎
分散の求め方をわかりやすく解説してほしいです。
数学花子
分散と標準偏差の違いって一体何でしょうか?

よって本記事では、分散の求め方から意味(標準偏差との違い)まで

  • 東北大学理学部数学科卒業
  • 教員採用試験に1発合格 → 高校教諭経験アリ

の僕がわかりやすく解説します。

スポンサーリンク
目次

分散の求め方とは?【偏差の2乗の平均値です】

【分散とは】
分散 $s^2$ は、偏差の $2$ 乗の平均値、つまり
\begin{align}s^2=\frac{1}{n}\{(x_1-\overline{x})^2+(x_2-\overline{x})^2+…+(x_n-\overline{x})^2\}\end{align}

で定義される。
※以降途切れている数式は横にスクロールできます。(スマホでご覧の方対象。)


なぜ分散を $s^2$ と表すのか」については後述しますので、とりあえず分散を求める練習をしてみましょう。

問題1. $7$ 個のデータからなる変量 $x$ がある。
$$3 \ , \ 5 \ , \ 1 \ , \ 9 \ , \ 7 \ , \ 2 \ , \ 8$$このとき、分散 $s^2$ を求めなさい。



まずは、個々のデータに対する偏差を求めます。

データ $x_i$$3$$5$$1$$9$$7$$2$$8$計 $35$
偏差 $x_i-\overline{x}$$-2$$0$$-4$$4$$2$$-3$$3$計 $0$

≫参考記事:偏差とは?【意味や求め方・和が必ず0であることをわかりやすく解説】



偏差を求めることができたら、その $2$ 乗をすべて足して、足した個数で割ります。

\begin{align}s^2&=\frac{1}{7}\{(-2)^2+0^2+(-4)^2+4^2+2^2+(-3)^2+3^2\}\\&=\frac{1}{7}(4+0+16+16+4+9+9)\\&=\frac{1}{7}×58\\&=8.2857…\\&≒8.3\end{align}

よって、分散は約 $8.3$ と求めることができました。

ではここで、

  • データの大きさ( $n=7$ )が同じ
  • 平均値( $\overline{x}=5$ )も同じ

であるような次のデータに対しても、同じように分散を求めてみます。

問題2.$7$ 個のデータからなる変量 $x$ がある。
$$4 \ , \ 6 \ , \ 5 \ , \ 5 \ , \ 5 \ , \ 3 \ , \ 7$$このとき、分散 $s^2$ を求めなさい。

まずは同様に、偏差を求めるところからスタートです。

データ $x_i$$4$$6$$5$$5$$5$$3$$7$計 $35$
偏差 $x_i-\overline{x}$$-1$$1$$0$$0$$0$$-2$$2$計 $0$


偏差を求めることができたら、その $2$ 乗をすべて足して、足した個数で割ります。

\begin{align}s^2&=\frac{1}{7}(1+1+4+4)\\&=\frac{10}{7}\\&=1.42857…\\&≒1.4\end{align}

よって、分散は約 $1.4$ と求めることができました。

さて、この $2$ つの問題を解いてみて、何か気づくことはありませんか?

数学太郎
データの大きさ $n$ や平均値 $\overline{x}$ が同じでも、分散が大きく異なることはあるんだね。

数学花子
問題 $2$ のデータの方が、分散が小さくて、平均値周辺にデータが密集している気がするわ。

$2$ 人とも大正解で、データの大きさや平均値が同じでも、データの散らばり度合いが異なる場合はもちろんあります。

さらに付け加えると、

  • 分散が大きい $⇔$ データが平均値周辺にあまりない
  • 分散が小さい $⇔$ データが平均値周辺に密集している

つまり、分散を求めることで、「データが平均値からどれだけ離れているか」を全体的に把握することができるのです。

スポンサーリンク

分散と標準偏差の違いとは?

さて、分散の求め方とその意味については、大体把握できましたね。

では次に、分散と標準偏差の違いについて見ていきましょう。

標準偏差を一言で表すとするならば、分散の正の平方根です。

つまり、分散 $s^2$ に対して標準偏差は $\sqrt{s^2}=s$ で与えられます。

ウチダ
これが分散を $s^2$ と表した理由です。また、標準偏差を英語で「Standard deviation」と言い、頭文字を取って $s$ と表記します。

ここで、分散と標準偏差のメリット・デメリットをまとめておきます。

  • 分散:計算しやすいが統計では扱いづらい。
  • 標準偏差:少し計算が面倒だが統計で活躍するのはこちら。

では、それぞれの特徴について深掘りしていきましょう。

分散のメリット

分散 $s^2$ は

\begin{align}s^2=\frac{1}{n}\{(x_1-\overline{x})^2+(x_2-\overline{x})^2+…+(x_n-\overline{x})^2\}\end{align}

と定義されています。

また、この定義式を変形すると、以下の公式が得られます。

【分散公式】
$$s^2=\overline{x^2}-(\overline{x})^2$$

言葉にすると、「( $x^2$ の平均値) $-$ ( $x$ の平均値の $2$ 乗)」となります。

ウチダ
分散公式については「分散公式とは?【導出から覚え方までわかりやすく解説します】」の記事で詳しく解説してます。

つまり、分散は求め方が $2$ 通り存在し、状況によって使い分けることで素早く求めることができる、というわけです。

標準偏差のメリット

その分散にルートを付けなければいけないため、計算がより面倒なのは標準偏差の方です。

ただ、標準偏差を考えることは、統計学において非常に重要なことなんですね。

その理由を一言で表すとすれば…

標準偏差はデータと単位が同じだから

これに尽きます。

ウチダ
たとえば単位が $cm$ のとき、分散の単位は $cm^2$ となります。これは分散の定義が、データを $2$ 乗しているため、$cm×cm=cm^2$ となるのですね。

標準偏差は分散にルートを付けるため、単位が $cm$ に戻ります。

よって、統計学で使う値として適しているのは、分散よりも標準偏差になるわけです。

また、たとえば正規分布において

  • 「 $\overline{x}±s$ 」の範囲に $68$ % のデータが存在する
  • 「 $\overline{x}±2s$ 」の範囲に $95$ % のデータが存在する
  • 「 $\overline{x}±3s$ 」の範囲に $99.7$ % のデータが存在する

ということが一般的に成り立ちます。

この法則は「68-95-99.7則」や「3シグマのルール」などの呼び名があり、正規分布を勉強する上で必ず押さえておきたい性質です。

もし興味がある方は、ぜひこちらの記事を参考にしてみてください。

  1. 正規分布とは~(準備中)
  2. 標準偏差の求め方と意味とは?【分散との違いもわかりやすく解説します

分散に関するまとめ

本記事のポイントをまとめます。

  • 分散の定義は、「偏差」の $2$ 乗の平均値。
  • 定義以外にも、「分散公式」を使って求める方法もある。
  • 実際の統計においては、分散より「標準偏差」を圧倒的に使います。

分散の定義は意外と忘れがちなので、しっかりと覚えておきましょう。

数学Ⅰ「データの分析」の全 $18$ 記事をまとめた記事を作りました。よろしければこちらからどうぞ。

おわりです。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!
スポンサーリンク

コメントを残す

コメントする

CAPTCHA


目次