こんにちは、ウチダです。
データの散らばり度合いを表す際には、ほとんどの場合、分散もしくは「標準偏差(ひょうじゅんへんさ)」を使います。
(外れ値を考慮したくない場合は「四分位偏差」を使うこともあります。)
標準偏差の求め方がよくわからないです。
標準偏差を考える意味(分散ではダメな理由)がよくわかっていないです。
よって本記事では、標準偏差の求め方から意味について
- 東北大学理学部数学科卒業
- 教員採用試験に1発合格 → 高校教諭経験アリ
の僕がわかりやすく解説します。
標準偏差の求め方とは?【分散の正の平方根です】
ある変量の分散を $s^2$ としたとき、標準偏差は$$\sqrt{s^2}=s$$で求められる。
つまり、「分散さえ求めることができてしまえば勝ち」となります。
例題を解きながら理解を深めていきましょう。
$$6 \ , \ 9 \ , \ 3 \ , \ 4 \ , \ 7 \ , \ 7$$このとき、標準偏差 $s \ (\mathrm{cm})$ を求めなさい。
分散を求める(2通り)
まず、分散 $s^2$ を求めるために、偏差の表を作ってみましょう。
データ $x_i$ | $6$ | $9$ | $3$ | $4$ | $7$ | $7$ | 計 $36$ |
---|---|---|---|---|---|---|---|
偏差 $x_i-\overline{x}$ | $0$ | $3$ | $-3$ | $-2$ | $1$ | $1$ | 計 $0$ |
≫参考記事:偏差とは?【意味や求め方・和が必ず0であることをわかりやすく解説】
データ $x_1$ ~ $x_6$ の合計が $36$ なので、$\overline{x}=36÷6=6 \ (\mathrm{cm})$ と、この表からすぐに求めることができますね。
ここで、分散の定義に従って、
よって、分散 $s^2=4$ と求めることができました。
さて、実は分散の求め方はもう一つあります。
それが「分散公式」を使ったやり方です。
【分散公式を使った解法】
変量 $x$ と変量 $x^2$ の表を作ります。
データ $x_i$ | $6$ | $9$ | $3$ | $4$ | $7$ | $7$ | 計 $36$ |
---|---|---|---|---|---|---|---|
データ ${x_i}^2$ | $36$ | $81$ | $9$ | $16$ | $49$ | $49$ | 計 $240$ |
よって、分散公式を用いると、
と、$s^2=4$ をより簡単に導くことができました。
分散の求め方は $2$ 通りあるから、時と場合によって使い分けることが大切なんだね!
標準偏差を求める
分散 $s^2=4$ を求めることができたので、あとはルートを付けて終わりです。
したがって、標準偏差 $s$ は
$$s=2 \ (\mathrm{cm})$$
となります。
…あれ?分散 $s^2=4$ は単位がなかったのに、標準偏差 $s=2 \ (\mathrm{cm})$ で単位が復活したわ。なんで?
良いところに目が行きますね♪実はこれが、標準偏差を使う最大の理由でもあるのです。
感覚的には、分散は $2$ 乗をしているため、単位も$$(\mathrm{cm})×(\mathrm{cm})=(\mathrm{{cm}^2})$$
と $2$ 乗される理解でOKです。
つまり、標準偏差は分散にルートを付けるため、
$$\sqrt{(\mathrm{{cm}^2})}=(\mathrm{{cm}})$$
となり、結果単位が元通りになるのです。
物理学を専攻する人は、この考え方はあらゆる場面で登場するので、この段階で押さえておくとベターだと思います。
関連記事はこちらから
標準偏差とは結局何なのか?【嬉しいポイント3選】
標準偏差の求め方をマスターしたところで、次に標準偏差の意味について考えていきましょう。
標準偏差のメリットを $3$ つ挙げます。
- データの散らばり度合いをほぼ正確に表すことができる
- 「平均値 $±$ 標準偏差」という値がよくつかわれる。(代表例.正規分布)
- 偏差値を定義できる。
順に解説していきます。
データの散らばり度合いについて
まず「平均値(へいきんち)」は、データの代表値の中で最も有名かつ有益なものだと言って良いでしょう。
≫参考記事:平均値・中央値・最頻値はどう使い分ける?【3つの代表値を詳しく解説】
その平均値を使って、データの散らばり度合いを以下のように表してみます。
変量 $x$ の平均値を $\overline{x}$ とする。このとき、データの散らばり度合いを
と定義すると、困ったことが起きる。
※この数式は横にスクロールできます。(スマホでご覧の方対象。)
「絶対値 $| \ |$ 」は、距離を表す代表的な記号です。
でも、絶対値だけを使った定義だと、こんなときに困ってしまいませんか?
データ $x_i$ | $45$ | $55$ | $60$ | $70$ | $70$ | 計 $300$ |
---|---|---|---|---|---|---|
データ $y_i$ | $40$ | $60$ | $60$ | $60$ | $80$ | 計 $300$ |
変量 $x$ も変量 $y$ も、平均値 $60$ で同じ、さっき定義した $A$ の値も $8$ で同じとなりますが…
変量 $y$ の方が、$60$ から離れた値が多いから、データが散らばっているように見えるね。
つまり、平均値から外れれば外れるほど、データの散らばりは大きくなってほしいんですね。
よって、距離を表す代表的なものが
- 絶対値
- $2$ 乗
の $2$ つなので、「偏差の $2$ 乗の平均値」を分散として定義するのが妥当であり、分散のままだと単位がそろわないため、ルートを付けて標準偏差を使うのが最も良い。
こういうロジックで、標準偏差が定義されているわけです。
ちなみに「偏差の $4$ 乗の平均値」でもデータの散らばり度合いを表すことはできますが、その場合単位をそろえるためには $4$ 乗根を付ける必要があり、結局は同じことです。
平均値±標準偏差って?【正規分布】
自然的に発生した多くのデータは「正規分布(せいきぶんぷ)」に従います。
つまり、正規分布は最も重要な分布と言えるのです。
その正規分布に成り立つ重要な性質の $1$ つである「68-95-99.7則」は、以下の通りです。
まとめると、
- $45$ ~ $55$ の間にデータが約 $68$ % 存在する。
- $40$ ~ $60$ の間にデータが約 $95$ % 存在する。
- $35$ ~ $65$ の間にデータが約 $99.7$ % 存在する。
となります。
このように、「平均値 $±$ $n×$ 標準偏差( $n=1 \ , \ 2 \ , \ 3$ )」という数値は、実際の統計の場面において非常に重要なものです。
もし興味があれば、「正規分布とは~(準備中)」の記事もあわせてご覧ください。
偏差値の定義って?
先ほど、平均値 $50$,標準偏差 $5$ の正規分布を考えました。
実は、これを標準偏差 $10$ に変えると、「偏差値(へんさち)」の定義そのものになります。
平均値 $50$,標準偏差 $10$ となるように調整されたデータのことを「偏差値(へんさち)」という。
…あれ?正規分布っていう言葉が出てきていないけど、違うんですか?
多くのデータを集めれば、偏差値はほぼ正規分布に従います。ここら辺の話が、統計学における最重要かつ難しい内容になります。
多くの人が試験を受ければ、それは自然的に発生したデータと言えるため、ほぼ正規分布に従い、
- $40$ ~ $60$ の間にデータが約 $68$ % 存在する。
- $30$ ~ $70$ の間にデータが約 $95$ % 存在する。
- $20$ ~ $80$ の間にデータが約 $99.7$ % 存在する。
ということが言えます。
偏差値 $70$ 以上で上位 $3$ %と言われる所以は、これですね。
偏差値に関する記事はこちらから
また、非常に多くのデータを取ると、ほぼ正規分布に従うという理論。
ざっくり言うと、この理論は「大数の法則」から「中心極限定理」を示すことで、導くことができます。
もし興味があれば、以下の記事も参考にしてみてください。
- 大数の法則とは~(準備中)
- 中心極限定理とは~(準備中)
標準偏差に関するまとめ
本記事のポイントをまとめます。
- 「分散」を求めてルートを付ければ標準偏差に大変身。
- データの散らばり度合いは、「偏差の2乗」を使うことで的確に表すことができる。
- 「平均値 $±$ $n×$ 標準偏差( $n=1 \ , \ 2 \ , \ 3$ )」という値は、統計学において重要な数値です。
- 特に「正規分布」では、68%95%のルールが存在するから、なお便利。
- 「偏差値」も、標準偏差を使って定義されます。
標準偏差が重要である理由は掴めましたか?
ここから統計学の面白さにどんどん触れていってほしいと思います♪
数学Ⅰ「データの分析」の全 $18$ 記事をまとめた記事を作りました。よろしければこちらからどうぞ。
おわりです。
コメントを残す