こんにちは、ウチダです。
データの分析において、「変量の変換」の技術はとても重要です。
その変量の変換の一種であり、最も代表的なものが「標準化(ひょうじゅんか)」と呼ばれる変換です。
[ふきだし set=”悩む男性”]標準化とか変量の変換とか、よくわからないです。[/ふきだし]
[ふきだし set=”悩む女性”]標準化をすることで、統計学的にどういうメリットがあるんですか?[/ふきだし]
よって本記事では、標準化・変量の変換とは何かから、仮平均を使った問題、さらに標準化のメリット $3$ 選まで
- 東北大学理学部数学科卒業
- 教員採用試験に1発合格 → 高校教諭経験アリ
の僕がわかりやすく解説します。
標準化とは何か【「変量の変換」の一種です】
変量 $x$ の平均値を $\overline{x}$,標準偏差を $s_x$ とする。
このとき、$$z=\frac{x-\overline{x}}{s_x}$$という変量の変換を「標準化」という。
言葉にすると、「平均値を引いた後、標準偏差で割る」ですね。
また、この変量の変換により、
- $z$ の平均値 $\overline{z}=0$
- $z$ の標準偏差 $s_z=1$
となります。
ただ、いきなり標準化の勉強から入るのは得策ではありません。
よって、まずは「変量の変換」に対する知識を深めていきましょう。
変量の変換の公式
変量 $x$ に対して $y=ax+b$ という変換によって変量 $y$ が得られるとき、次の $3$ 式が成り立つ。$$\overline{y}=a\overline{x}+b, \ {s_y}^2=a^2{s_x}^2, \ s_y=|a|s_x$$
これも言葉にしてみると、
- 平均値は $a$ 倍してから $b$ を足す
- 分散は $a^2$ 倍で求まる( $b$ は関係ナシ)
- 標準偏差は $|a|$ 倍で求まる( $b$ は関係ナシ)
となります。
「なぜこの公式が成り立つのか」は次の章で解説するので、とりあえず何問か練習してみましょう。
(1) $y=-2x-3$
(2) $\displaystyle w=\frac{1}{3}x+\frac{1}{3}$
(3) $\displaystyle z=\frac{x-32}{4}$
(1)(2)はふつうの変量変換、(3)が標準化となってますね。
それでは変量の変換の公式を使って、それぞれ求めていきます。
【解答】
(1) 平均値 $\overline{y}$ について
次に、分散 ${s_y}^2$ について
よって、${s_y}^2=64$ より、$s_y=\sqrt{64}=8$
(2) 平均値 $\overline{w}$ について
次に、分散 ${s_w}^2$ について
よって、$\displaystyle{s_w}^2=\frac{16}{9}$ より、$\displaystyle s_w=\sqrt{\frac{16}{9}}=\frac{4}{3}$
(3) まず、$z=ax+b$ の形に直す。
$$z=\frac{x-32}{4}=\frac{1}{4}x-8$$
平均値 $\overline{z}$ について
次に、分散 ${s_z}^2$ について
よって、${s_z}^2=1$ より、$s_z=\sqrt{1}=1$
(解答終了)
標準偏差を求めるのに、変量の変換の公式を使っても構いませんが、分散にルートを付ければいいだけなので、定義通りに解いてみました。
≫参考記事:標準偏差の求め方と意味とは?【分散との違いもわかりやすく解説します】
では次に、「この公式がなぜ成り立つのか」について考えていきましょう。
変量の変換の公式はなぜ成り立つのか
あとで厳密に示す方法も解説しますが、それよりもイメージを持っておくことが重要です。
下の図をご覧ください。
まず、平均値は $a$ 倍に広がってから $b$ だけ平行移動することがわかります。
また分散については、データが $a$ 倍に広がると $a^2$ 倍され、いくら平行移動してもデータの散らばり度合いは変わりません。
よって $b$ は無視することができます。
ではこの事実を、厳密に式で証明したいと思います。
【証明】
平均値 $\overline{y}$ について
≫参考記事:平均値・中央値・最頻値はどう使い分ける?【3つの代表値を詳しく解説】
分散を調べる前に、偏差を考えておく。
$$y_n-\overline{y}=(ax_n+b)-(a\overline{x}+b)=a(x_n-\overline{x})$$
よって、分散 ${s_y}^2$ について
≫参考記事:分散の求め方とは?【標準偏差との違いもわかりやすく解説します】
最後に、標準偏差 $s_y$ について
(証明終了)
いろんな定義式を使って式変形することで、厳密に導くことができます。
ぜひ、イメージとリンクさせて覚えるようにしてみてください^^
変量の変換を応用しよう【仮平均とは?】
変量の変換を応用したものに「仮平均(かりへいきん)」という考え方があるので、それも解説しておきます。
$$170 \ , \ 164 \ , \ 178 \ , \ 172 \ , \ 176$$
この問題のように、元のデータの数値がかなり大きいとき、仮平均 $x_0$ をたとえば
$$x_0=170 \ (\mathrm{cm})$$
などと定義して、変量 $u=x-x_0$ を考えます。
データ $u_i$ | $0$ | $-6$ | $8$ | $2$ | $6$ | 計 $10$ |
---|---|---|---|---|---|---|
データ ${u_i}^2$ | $0$ | $36$ | $64$ | $4$ | $36$ | 計 $140$ |
よって、平均値 $\overline{u}$ は$$\overline{u}=10÷5=2 \ (\mathrm{cm})$$であり、分散 ${s_u}^2$ は分散公式を用いて
と求まります。
≫参考記事:分散公式とは?【導出から覚え方までわかりやすく解説します】
したがって、$x=u+x_0$ だったので、
- 平均値 $\overline{x}=\overline{u}+x_0=172 \ (\mathrm{cm})$
- 分散 ${s_x}^2=1^2・{s_u}^2=24$
と、変量の変換の公式を用いて求めることができます。
[ふきだし set=”ウチダ”]大体の平均値というのは、データを見れば予測できます。そうして決めた仮平均を上手く使えば、正確な平均値・分散をより簡単に求めることができるのです。[/ふきだし]
標準化(統計)のメリット3選
さて、変量の変換方法はマスターできましたね。
ここで一応、標準化 $\displaystyle z=\frac{x-\overline{x}}{s_x}$ についても変量の変換の公式を用いて確認してみます。
- 平均値 $\displaystyle \overline{z}=\frac{1}{s_x}\overline{x}-\frac{\overline{x}}{s_x}=0$
- 分散 ${s_z}^2=(\frac{1}{s_x})^2・{s_x}^2=1$
よって、確かに平均値が $0$,分散(標準偏差)が $1$ になりました。
こうして、標準化することで得られた $z$ のメリットは主に $3$ つあります。
- 偏差値のように、自分がどのぐらい優れている(劣っている)かわかりやすい。
- データの比較に向いている。
- 標準正規分布表が使える。
順に解説していきましょう。
偏差値のような使い方
例題を通して考えていきましょう。
$$15 \ , \ 25 \ , \ 45 \ , \ 55$$自分のテストAの結果は $60$ 点だった。
もう一つ、テストBも受けた。他の $4$ 人の結果は以下の通り。
$$15 \ , \ 15 \ , \ 15 \ , \ 20$$自分のテストBの結果は $35$ 点だった。
それぞれのデータを標準化したとき、自分の点数が何点になるか求めなさい。
【テストA】
平均点は $(15+25+45+55+60)÷5=40$ 点であり、分散は
※長くて途切れている数式は横にスクロールできます。(スマホでご覧の方対象。)
よって標準偏差は $\sqrt{300}=10\sqrt{3}$ となる。
したがって、標準化の式は$$z=\frac{x-40}{10\sqrt{3}}$$となり、$x=60$ を代入すると、$$\frac{60-40}{10\sqrt{3}}=\frac{2\sqrt{3}}{3}$$
つまり、自分の点数は $\displaystyle \frac{2\sqrt{3}}{3}≒1.1547$ 点となる。
【テストB】
平均点は $(15+15+15+20+35)÷5=20$ 点であり、分散は
よって標準偏差は $\sqrt{60}=2\sqrt{15}$ となる。
したがって、標準化の式は$$z’=\frac{x-20}{2\sqrt{15}}$$となり、$x=35$ を代入すると、$$\frac{35-20}{2\sqrt{15}}=\frac{\sqrt{15}}{2}$$
つまり、自分の点数は $\displaystyle \frac{\sqrt{15}}{2}≒1.9365$ 点となる。
[ふきだし set=”ウチダ”]標準化することで平均値 $0$,標準偏差 $1$ になるため、自分の点数がどの辺りに位置するのかがわかりやすくなりますね。[/ふきだし]
これよりもっとわかりやすさを求めて定義されたもの。
それが「偏差値(へんさち)」と呼ばれる値です。
平均値 $50$,標準偏差 $10$ となるように調整されたデータのことを「偏差値(へんさち)」という。
偏差値について興味がある方は、「偏差値とは?【偏差値60はどのくらいスゴイのか、求め方まで解説します】」の記事をご覧ください。
データの比較
さて、例題 $1$ の続きの話をしましょう。
もし、標準化をしていないと、与えられた情報は以下の通りになります。
- テストA:平均 $40$ 点、分散 $300$ で $60$ 点を取った。
- テストB:平均 $20$ 点、分散 $60$ で $35$ 点を取った。
[ふきだし set=”考える男性”]う~ん。これだけの情報だと、平均点も分散も異なるから、比較しづらいね…。[/ふきだし]
では、例題 $1$ で求めた標準化された自分の点数を見てみましょう。
- テストA(標準化):自分の点数は $1.1547$ 点だった。
- テストB(標準化):自分の点数は $1.9365$ 点だった。
[ふきだし set=”考える女性”]一目瞭然ね!テストBの結果の方が優れているわ。[/ふきだし]
このように、平均値と標準偏差をそれぞれ同じ値にそろえることで、データの比較がすぐにできるようになります。
[ふきだし set=”ウチダ”]しかも、$1.9365-1.1547=0.7818$ なので、標準偏差の $\displaystyle \frac{4}{5}$ ぐらいの差があります。これは偏差値で言う「 $8$ 」とほぼ等しいです。[/ふきだし]
やはり直感的には偏差値がかなり扱いやすいですが、標準化は変量の変換の基本となりますので、必ず押さえておきましょう。
標準正規分布
さて、最後は「正規分布(せいきぶんぷ)」のお話です。
正規分布というのは、最も代表的なデータの分布の $1$ つであり、なだらかな山のような形をしています。
その正規分布の平均値を $0$,標準偏差を $1$ に標準化したものが「標準正規分布」と呼ばれます。
また、数学Bの教科書の後ろについている「正規分布表」というのは、正しくこの標準正規分布に従うときに使える表のことです。
とにかくここで押さえてほしいことは、標準正規分布が最も重要かつ基本となる、ということですね。
[ふきだし set=”ウチダ”]また、「正規化」と「標準化」の意味合いも異なります。簡単に説明すると、標準化は正規化の一種となります。[/ふきだし]
確率統計学のお話は専門用語が多いので、一つ一つの言葉の意味を正しく理解する必要があります。
もし興味があれば、ぜひ関連記事もあわせてご覧ください。
- 正規分布とは~(準備中)
- 標準正規分布とは~(準備中)
- 正規化とは~(準備中)
標準化・変量の変換に関するまとめ
本記事のポイントをまとめます。
- 標準化は、変量の変換の一種であり、最も代表的。
- 平均値を $0$,分散を $1$ に変換することにより、データを扱いやすくなります。
- 「偏差値」は、標準化よりもっと感覚的にわかりやすく変換したデータのことです。
- 「正規分布」を標準化した「標準正規分布」はマジで重要です。
標準化(変量の変換)の方法をマスターするだけでなく、「統計学において標準化はかなり重要」だというイメージを持っておくことが大切です。
ぜひ、統計学を楽しく学んでいただきたいと思います。
数学Ⅰ「データの分析」の全 $18$ 記事をまとめた記事を作りました。よろしければこちらからどうぞ。
おわりです。
コメントを残す
コメント一覧 (2件)
数学Bの確率分布分野の追加お願いします。
ああ様
コメントくださりありがとうございます!
今は時間が取れなくて書けませんが、もしいつかまとまった時間ができたら作成するかもしれません…!
今後とも『遊ぶ数学』を何卒よろしくお願いいたします。