MENU
カテゴリー
おすすめプログラミングスクール紹介中! 一覧はこちらから

標準化(変量の変換)とは?【仮平均についてもわかりやすく解説します】

こんにちは、ウチダです。

データの分析において、「変量の変換」の技術はとても重要です。

その変量の変換の一種であり、最も代表的なものが「標準化(ひょうじゅんか)」と呼ばれる変換です。

[ふきだし set=”悩む男性”]標準化とか変量の変換とか、よくわからないです。[/ふきだし]

[ふきだし set=”悩む女性”]標準化をすることで、統計学的にどういうメリットがあるんですか?[/ふきだし]

よって本記事では、標準化・変量の変換とは何かから、仮平均を使った問題、さらに標準化のメリット $3$ 選まで

  • 東北大学理学部数学科卒業
  • 教員採用試験に1発合格 → 高校教諭経験アリ

の僕がわかりやすく解説します。

標準化とは何か【「変量の変換」の一種です】

【標準化とは】
変量 $x$ の平均値を $\overline{x}$,標準偏差を $s_x$ とする。
このとき、$$z=\frac{x-\overline{x}}{s_x}$$という変量の変換を「標準化」という。

言葉にすると、「平均値を引いた後、標準偏差で割る」ですね。

また、この変量の変換により、

  • $z$ の平均値 $\overline{z}=0$
  • $z$ の標準偏差 $s_z=1$

となります。

ただ、いきなり標準化の勉強から入るのは得策ではありません。

よって、まずは「変量の変換」に対する知識を深めていきましょう。

変量の変換の公式

【変量の変換の公式】
変量 $x$ に対して $y=ax+b$ という変換によって変量 $y$ が得られるとき、次の $3$ 式が成り立つ。$$\overline{y}=a\overline{x}+b, \ {s_y}^2=a^2{s_x}^2, \ s_y=|a|s_x$$

これも言葉にしてみると、

  • 平均値は $a$ 倍してから $b$ を足す
  • 分散は $a^2$ 倍で求まる( $b$ は関係ナシ)
  • 標準偏差は $|a|$ 倍で求まる( $b$ は関係ナシ)

となります。

なぜこの公式が成り立つのか」は次の章で解説するので、とりあえず何問か練習してみましょう。

問題.変量 $x$ の平均値は $\overline{x}=32$,分散は ${s_x}^2=16$ である。このとき、次の変量変換によって得られる変量の平均値・分散・標準偏差を求めなさい。
(1) $y=-2x-3$
(2) $\displaystyle w=\frac{1}{3}x+\frac{1}{3}$
(3) $\displaystyle z=\frac{x-32}{4}$

(1)(2)はふつうの変量変換、(3)が標準化となってますね。

それでは変量の変換の公式を使って、それぞれ求めていきます。

【解答】

(1) 平均値 $\overline{y}$ について

\begin{align}\overline{y}&=-2\overline{x}-3\\&=(-2)・32-3\\&=-67\end{align}

次に、分散 ${s_y}^2$ について

\begin{align}{s_y}^2&=(-2)^2{s_x}^2\\&=4・16\\&=64\end{align}

よって、${s_y}^2=64$ より、$s_y=\sqrt{64}=8$

(2) 平均値 $\overline{w}$ について

\begin{align}\overline{w}&=\frac{1}{3}\overline{x}+\frac{1}{3}\\&=\frac{32}{3}+\frac{1}{3}\\&=11\end{align}

次に、分散 ${s_w}^2$ について

\begin{align}{s_w}^2&=(\frac{1}{3})^2{s_x}^2\\&=\frac{16}{9}\end{align}

よって、$\displaystyle{s_w}^2=\frac{16}{9}$ より、$\displaystyle s_w=\sqrt{\frac{16}{9}}=\frac{4}{3}$

(3) まず、$z=ax+b$ の形に直す。

$$z=\frac{x-32}{4}=\frac{1}{4}x-8$$

平均値 $\overline{z}$ について

\begin{align}\overline{z}&=\frac{1}{4}\overline{x}-8\\&=\frac{1}{4}・32-8\\&=0\end{align}

次に、分散 ${s_z}^2$ について

\begin{align}{s_z}^2&=(\frac{1}{4})^2{s_x}^2\\&=\frac{1}{16}・16\\&=1\end{align}

よって、${s_z}^2=1$ より、$s_z=\sqrt{1}=1$

(解答終了)

標準偏差を求めるのに、変量の変換の公式を使っても構いませんが、分散にルートを付ければいいだけなので、定義通りに解いてみました。

≫参考記事:標準偏差の求め方と意味とは?【分散との違いもわかりやすく解説します】

では次に、「この公式がなぜ成り立つのか」について考えていきましょう。

変量の変換の公式はなぜ成り立つのか

あとで厳密に示す方法も解説しますが、それよりもイメージを持っておくことが重要です。

下の図をご覧ください。

変量の変換の公式はなぜ成り立つのか

まず、平均値は $a$ 倍に広がってから $b$ だけ平行移動することがわかります。

また分散については、データが $a$ 倍に広がると $a^2$ 倍され、いくら平行移動してもデータの散らばり度合いは変わりません。

よって $b$ は無視することができます。

ではこの事実を、厳密に式で証明したいと思います。

【証明】

平均値 $\overline{y}$ について

\begin{align}\overline{y}&=\overline{ax+b}\\&=\frac{(ax_1+b)+(ax_2+b)+…+(ax_n+b)}{n}\\&=\frac{a(x_1+x_2+…+x_n)+nb}{n}\\&=a\frac{x_1+x_2+…+x_n}{n}+b\\&=a\overline{x}+b\end{align}

≫参考記事:平均値・中央値・最頻値はどう使い分ける?【3つの代表値を詳しく解説】

分散を調べる前に、偏差を考えておく。

$$y_n-\overline{y}=(ax_n+b)-(a\overline{x}+b)=a(x_n-\overline{x})$$

よって、分散 ${s_y}^2$ について

\begin{align}{s_y}^2&=\frac{1}{n}\{(y_1-\overline{y})^2+(y_2-\overline{y})^2+…+(y_n-\overline{y})^2\}\\&=\frac{a^2}{n}\{(x_1-\overline{x})^2+(x_2-\overline{x})^2+…+(x_n-\overline{x})^2\}\\&=a^2・{s_x}^2\end{align}

≫参考記事:分散の求め方とは?【標準偏差との違いもわかりやすく解説します】

最後に、標準偏差 $s_y$ について

\begin{align}s_y&=\sqrt{{s_y}^2}\\&=\sqrt{a^2{s_x}^2}\\&=|a|s_x\end{align}

(証明終了)

いろんな定義式を使って式変形することで、厳密に導くことができます。

ぜひ、イメージとリンクさせて覚えるようにしてみてください^^

変量の変換を応用しよう【仮平均とは?】

変量の変換を応用したものに「仮平均(かりへいきん)」という考え方があるので、それも解説しておきます。

問題.$5$ 人の身長 $x \ (\mathrm{cm})$ のデータの平均値および分散を求めなさい。
$$170 \ , \ 164 \ , \ 178 \ , \ 172 \ , \ 176$$

この問題のように、元のデータの数値がかなり大きいとき、仮平均 $x_0$ をたとえば

$$x_0=170 \ (\mathrm{cm})$$

などと定義して、変量 $u=x-x_0$ を考えます。

データ $u_i$$0$$-6$$8$$2$$6$計 $10$
データ ${u_i}^2$$0$$36$$64$$4$$36$計 $140$

よって、平均値 $\overline{u}$ は$$\overline{u}=10÷5=2 \ (\mathrm{cm})$$であり、分散 ${s_u}^2$ は分散公式を用いて

\begin{align}{s_u}^2&=\overline{u^2}-(\overline{u})^2\\&=28-2^2\\&=24\end{align}

と求まります。

≫参考記事:分散公式とは?【導出から覚え方までわかりやすく解説します】

したがって、$x=u+x_0$ だったので、

  • 平均値 $\overline{x}=\overline{u}+x_0=172 \ (\mathrm{cm})$
  • 分散 ${s_x}^2=1^2・{s_u}^2=24$

と、変量の変換の公式を用いて求めることができます。

[ふきだし set=”ウチダ”]大体の平均値というのは、データを見れば予測できます。そうして決めた仮平均を上手く使えば、正確な平均値・分散をより簡単に求めることができるのです。[/ふきだし]

スポンサーリンク

標準化(統計)のメリット3選

さて、変量の変換方法はマスターできましたね。

ここで一応、標準化 $\displaystyle z=\frac{x-\overline{x}}{s_x}$ についても変量の変換の公式を用いて確認してみます。

  • 平均値 $\displaystyle \overline{z}=\frac{1}{s_x}\overline{x}-\frac{\overline{x}}{s_x}=0$
  • 分散 ${s_z}^2=(\frac{1}{s_x})^2・{s_x}^2=1$

よって、確かに平均値が $0$,分散(標準偏差)が $1$ になりました。

こうして、標準化することで得られた $z$ のメリットは主に $3$ つあります。

  1. 偏差値のように、自分がどのぐらい優れている(劣っている)かわかりやすい。
  2. データの比較に向いている。
  3. 標準正規分布表が使える。

順に解説していきましょう。

偏差値のような使い方

例題を通して考えていきましょう。

例題1.$5$ 人でテストAを受けた。他の $4$ 人の結果は以下の通り。
$$15 \ , \ 25 \ , \ 45 \ , \ 55$$自分のテストAの結果は $60$ 点だった。
もう一つ、テストBも受けた。他の $4$ 人の結果は以下の通り。
$$15 \ , \ 15 \ , \ 15 \ , \ 20$$自分のテストBの結果は $35$ 点だった。

それぞれのデータを標準化したとき、自分の点数が何点になるか求めなさい。

【テストA】

平均点は $(15+25+45+55+60)÷5=40$ 点であり、分散は

\begin{align}&\quad \frac{1}{5}\{(15-40)^2+(25-40)^2+(45-40)^2+(55-40)^2+(60-40)^2\}\\&=\frac{625+225+25+225+400}{5}\\&=300\end{align}

※長くて途切れている数式は横にスクロールできます。(スマホでご覧の方対象。)

よって標準偏差は $\sqrt{300}=10\sqrt{3}$ となる。

したがって、標準化の式は$$z=\frac{x-40}{10\sqrt{3}}$$となり、$x=60$ を代入すると、$$\frac{60-40}{10\sqrt{3}}=\frac{2\sqrt{3}}{3}$$

つまり、自分の点数は $\displaystyle \frac{2\sqrt{3}}{3}≒1.1547$ 点となる。

【テストB】

平均点は $(15+15+15+20+35)÷5=20$ 点であり、分散は

\begin{align}&\quad \frac{1}{5}\{3(15-20)^2+(20-20)^2+(35-20)^2\}\\&=\frac{75+0+225}{5}\\&=60\end{align}

よって標準偏差は $\sqrt{60}=2\sqrt{15}$ となる。

したがって、標準化の式は$$z’=\frac{x-20}{2\sqrt{15}}$$となり、$x=35$ を代入すると、$$\frac{35-20}{2\sqrt{15}}=\frac{\sqrt{15}}{2}$$

つまり、自分の点数は $\displaystyle \frac{\sqrt{15}}{2}≒1.9365$ 点となる。

[ふきだし set=”ウチダ”]標準化することで平均値 $0$,標準偏差 $1$ になるため、自分の点数がどの辺りに位置するのかがわかりやすくなりますね。[/ふきだし]

これよりもっとわかりやすさを求めて定義されたもの。

それが「偏差値(へんさち)」と呼ばれる値です。

【偏差値とは】
平均値 $50$,標準偏差 $10$ となるように調整されたデータのことを「偏差値(へんさち)」という。

偏差値について興味がある方は、「偏差値とは?【偏差値60はどのくらいスゴイのか、求め方まで解説します】」の記事をご覧ください。

データの比較

さて、例題 $1$ の続きの話をしましょう。

例題2.例題 $1$ で考えたテストAとテストBについて、どちらの結果がより優れていると言えるか、述べなさい。

もし、標準化をしていないと、与えられた情報は以下の通りになります。

  • テストA:平均 $40$ 点、分散 $300$ で $60$ 点を取った。
  • テストB:平均 $20$ 点、分散 $60$ で $35$ 点を取った。

[ふきだし set=”考える男性”]う~ん。これだけの情報だと、平均点も分散も異なるから、比較しづらいね…。[/ふきだし]

では、例題 $1$ で求めた標準化された自分の点数を見てみましょう。

  • テストA(標準化):自分の点数は $1.1547$ 点だった。
  • テストB(標準化):自分の点数は $1.9365$ 点だった。

[ふきだし set=”考える女性”]一目瞭然ね!テストBの結果の方が優れているわ。[/ふきだし]

このように、平均値と標準偏差をそれぞれ同じ値にそろえることで、データの比較がすぐにできるようになります。

[ふきだし set=”ウチダ”]しかも、$1.9365-1.1547=0.7818$ なので、標準偏差の $\displaystyle \frac{4}{5}$ ぐらいの差があります。これは偏差値で言う「 $8$ 」とほぼ等しいです。[/ふきだし]

やはり直感的には偏差値がかなり扱いやすいですが、標準化は変量の変換の基本となりますので、必ず押さえておきましょう。

標準正規分布

さて、最後は「正規分布(せいきぶんぷ)」のお話です。

正規分布というのは、最も代表的なデータの分布の $1$ つであり、なだらかな山のような形をしています。

その正規分布の平均値を $0$,標準偏差を $1$ に標準化したものが「標準正規分布」と呼ばれます。

標準正規分布とは【正規分布を標準化したもの】

また、数学Bの教科書の後ろについている「正規分布表」というのは、正しくこの標準正規分布に従うときに使える表のことです。

とにかくここで押さえてほしいことは、標準正規分布が最も重要かつ基本となる、ということですね。

[ふきだし set=”ウチダ”]また、「正規化」と「標準化」の意味合いも異なります。簡単に説明すると、標準化は正規化の一種となります。[/ふきだし]

確率統計学のお話は専門用語が多いので、一つ一つの言葉の意味を正しく理解する必要があります。

もし興味があれば、ぜひ関連記事もあわせてご覧ください。

  • 正規分布とは~(準備中)
  • 標準正規分布とは~(準備中)
  • 正規化とは~(準備中)

標準化・変量の変換に関するまとめ

本記事のポイントをまとめます。

  1. 標準化は、変量の変換の一種であり、最も代表的。
  2. 平均値を $0$,分散を $1$ に変換することにより、データを扱いやすくなります。
  3. 偏差値」は、標準化よりもっと感覚的にわかりやすく変換したデータのことです。
  4. 「正規分布」を標準化した「標準正規分布」はマジで重要です。

標準化(変量の変換)の方法をマスターするだけでなく、「統計学において標準化はかなり重要」だというイメージを持っておくことが大切です。

ぜひ、統計学を楽しく学んでいただきたいと思います。

数学Ⅰ「データの分析」の全 $18$ 記事をまとめた記事を作りました。よろしければこちらからどうぞ。

おわりです。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!
スポンサーリンク

コメントを残す

コメント一覧 (2件)

    • ああ様
      コメントくださりありがとうございます!
      今は時間が取れなくて書けませんが、もしいつかまとまった時間ができたら作成するかもしれません…!

      今後とも『遊ぶ数学』を何卒よろしくお願いいたします。

コメントする

CAPTCHA


目次