こんにちは、ウチダです。
さて、いきなりですが「共分散(きょうぶんさん)」とは、 $2$ つの変量に対して定義される数値です。
[ふきだし set=”悩む男性”]
分散と共分散はどう違うのか、わかりやすく解説してほしいです。
[/ふきだし]
[ふきだし set=”悩む女性”]
共分散の求め方がわかりません。相関係数との違いも知りたいです。
[/ふきだし]
よって本記事では、共分散とは何かから、分散と共分散の違い、共分散の求め方2通り(定義通り+共分散公式)、さらに相関係数との違いまで
- 東北大学理学部数学科卒業
- 実用数学技能検定1級保持
- 高校教員→塾の教室長の経験あり
の僕がわかりやすく解説します。
目次
共分散とは何か【偏差の積の平均値です】
共分散とは
変量 $x$ の平均値を $\overline{x}$,変量 $y$ の平均値を $\overline{y}$ と定義する。
このとき、変量 $x$,$y$ の共分散とは、
\begin{align}\frac{1}{n}\{(x_1-\overline{x})(y_1-\overline{y})+ (x_2-\overline{x})(y_2-\overline{y})+ …+ (x_n-\overline{x})(y_n-\overline{y})\}\end{align}
つまり、「偏差の積の平均値」を指す。
この定義から、まずは分散との違いについて考えてみましょう。
分散と共分散の違いって?
共分散の定義には変量が $2$ つ必要でした。
それに比べて分散は、$1$ つの変量に対して定義される値です。
よって、共分散の定義式において、$y$ → $x$ に統合してみたいと思います。
\begin{align} & \quad \frac{1}{n}\{(x_1-\overline{x})(y_1-\overline{y})+ (x_2-\overline{x})(y_2-\overline{y})+ …+ (x_n-\overline{x})(y_n-\overline{y})\} \\&→\frac{1}{n} \{(x_1-\overline{x})(x_1-\overline{x})+ (x_2-\overline{x})(x_2-\overline{x})+ …+ (x_n-\overline{x})(x_n-\overline{x})\}\\&= \frac{1}{n} \{(x_1-\overline{x})^2+ (x_2-\overline{x})^2+ …+ (x_n-\overline{x})^2\}\end{align}
…なんと、「偏差の $2$ 乗の平均値」、つまり「分散」の定義式に生まれ変わるのです!
[ふきだし set=”考える男性”]
ということは、「共分散は分散の定義を一般化したもの」とも言えるね。
[/ふきだし]
分散についての詳しい解説は以下の記事をご覧ください。
あわせて読みたい
分散の求め方とは?【標準偏差との違いもわかりやすく解説します】
「分散とは何か」知りたいですか?本記事では、分散の求め方や意味、分散公式、さらに標準偏差との違いまで、わかりやすく解説します。「分散と標準偏差って、結局何が違うの…?」と感じている方は必見です。
共分散公式とは ?
よって共分散公式も、分散公式の一般化と言えます。
共分散公式とは
$x$,$y$ の共分散を $s_{xy}$ とすると、
\begin{align}s_{xy}=\overline{xy}-\overline{x}・\overline{y}\end{align}
が成り立つ。
この式の変量 $y$ を、また $x$ に変えてみると…
\begin{align}& \quad \overline{xy}-\overline{x}・\overline{y} \\&→\overline{x・x}-\overline{x}・\overline{x}\\&=\overline{x^2}-(\overline{x})^2\end{align}
となり、確かに分散公式と一致します。
≫参考記事:分散公式とは?【導出から覚え方までわかりやすく解説します】
一応、共分散の定義からこの公式を導いておきます。
証明を見る
共分散の定義式を展開し、$\displaystyle \frac{1}{n}$ を分配すると、
\begin{align} s_{xy}&=\frac{1}{n}\{(x_1-\overline{x})(y_1-\overline{y})+ (x_2-\overline{x})(y_2-\overline{y})+ …+ (x_n-\overline{x})(y_n-\overline{y})\} \\&=\frac{1}{n}\{(x_1y_1+x_2y_2+…+x_ny_n)-\overline{y}(x_1+x_2+…+x_n)-\overline{x}(y_1+y_2+…+y_n)+n\overline{x}・\overline{y}\\&=\frac{1}{n}(x_1y_1+x_2y_2+…+x_ny_n)-\overline{y}・\frac{1}{n} (x_1+x_2+…+x_n) -\overline{x}・\frac{1}{n} (y_1+y_2+…+y_n) +\overline{x}・\overline{y}\end{align}
ここで、平均値の定義を用いて式を整理すると、
\begin{align}s_{xy}&= \overline{xy}-\overline{y}・\overline{x} -\overline{x}・\overline{y} +\overline{x}・\overline{y}\\&=\overline{xy}-2\overline{x}・\overline{y}+\overline{x}・\overline{y}\\&= \overline{xy}-\overline{x}・\overline{y} \end{align}
となるので、共分散公式は成り立つ。
(証明終了)
…ということは、共分散も分散と同様に求め方が $2$ 通りある、と言えますね!
それでは、実際に共分散を求める練習をしてみましょう。
共分散を求めてみよう
問題.$2$ つの変量 $x$,$y$ が次の表で与えられている。
このとき、変量 $x$ と $y$ の共分散 $s_{xy}$ を求めなさい。
$x$ |
$3$ |
$8$ |
$2$ |
$-2$ |
$4$ |
$y$ |
$0$ |
$5$ |
$-1$ |
$-3$ |
$9$ |
まずは定義通りに求めてみます。
定義通りに求める解法
以下の表を作る。
|
$x$ |
$y$ |
$x-\overline{x}$ |
$y-\overline{y}$ |
$(x-\overline{x})(y-\overline{y})$ |
① |
$3$ |
$0$ |
$0$ |
$-2$ |
$0$ |
② |
$8$ |
$5$ |
$5$ |
$3$ |
$15$ |
③ |
$2$ |
$-1$ |
$-1$ |
$-3$ |
$3$ |
④ |
$-2$ |
$-3$ |
$-5$ |
$-5$ |
$25$ |
⑤ |
$4$ |
$9$ |
$1$ |
$7$ |
$7$ |
計 |
$15$ |
$10$ |
/ |
/ |
$50$ |
よって、偏差の積の平均値を求めればいいので、
\begin{align}s_{xy}&=\frac{1}{5}×50\\&=10\end{align}
である。
(解答終了)
次は共分散公式を使った解法です。
共分散公式を使って求める解法
新たな変量 $xy$ を加えた表を作る。
$x$ |
$3$ |
$8$ |
$2$ |
$-2$ |
$4$ |
$y$ |
$0$ |
$5$ |
$-1$ |
$-3$ |
$9$ |
$xy$ |
$0$ |
$40$ |
$-2$ |
$6$ |
$36$ |
したがって、共分散公式より
\begin{align}s_{xy}&=\overline{xy}-\overline{x}・\overline{y}\\&=\frac{40-2+6+36}{5}-3×2\\&=16-6\\&=10\end{align}
と求まる。
(解答終了)
[ふきだし set=”ウチダ”]
注意が必要なのは「 $x$ と $y$ それぞれのデータの対応」です。たとえば $x_1×y_3$ などの計算ミスを行わないように、表をよくチェックして計算しましょう。
[/ふきだし]
スポンサーリンク
共分散ではダメな理由【相関係数との違いのヒミツは「単位」にある!】
共分散も使えるには使えるのですが、分散と同様に“単位によってバラつき”が生じてしまいます。
例を見てみましょう。
例題.次の変量 $x$,$y$ は単位がそれぞれ「cm」「m」である。このとき、考えられる問題点を述べなさい。
$x \ (\mathrm{cm})$ |
$3$ |
$8$ |
$2$ |
$-2$ |
$4$ |
$y \ (\mathrm{m})$ |
$0$ |
$5$ |
$-1$ |
$-3$ |
$9$ |
[ふきだし set=”考える女性”]
$x$ の値が $1$ 変わるのと $y$ の値が $1$ 変わるのでは、単位が異なるから意味合いも全然変わってくるわね。
[/ふきだし]
そうですよね。これ単位が違うままだとわかりづらいですが、そろえてみると一目瞭然です。
$x \ (\mathrm{cm})$ |
$3$ |
$8$ |
$2$ |
$-2$ |
$4$ |
$y \ (\mathrm{cm})$ |
$0$ |
$500$ |
$-100$ |
$-300$ |
$900$ |
こういう状況下で共分散を求めたところで、データのバラつき度合いを正確に測り、相関関係を見出すことは難しいです。
≫参考記事:相関関係と因果関係の違いとは?【具体例13選を用いてわかりやすく解説します】
では一体どうすればいいのでしょうか。
単位(スケール)に依存しないために…
変量 $x$,$y$ をそれぞれ標準化した変量 $u$,$v$ に対して共分散 $s_{uv}$ を考えればOK!!
※標準化…平均値を $0$,標準偏差を $1$ に変量変換すること。
そして、標準化した変量の共分散 $s_{uv}$ こそ、皆さんご存じの「相関係数(そうかんけいすう)」になるわけです!
[ふきだし set=”ウチダ”]
相関係数の定義の意味をしっかりと理解できている人は少ないです。ここを押さえて、周りと差を付けましょう!
[/ふきだし]
関連記事はこちらから
あわせて読みたい
標準化(変量の変換)とは?【仮平均についてもわかりやすく解説します】
「標準化とは何か」知りたいですか?本記事では、標準化(変量の変換の一種)の方法から公式の証明、変量の変換を応用した仮平均、さらに標準化のメリット3選(偏差値・データの比較・標準正規分布)まで、わかりやすく解説します。本記事を読んで、標準化マスターになろう!
あわせて読みたい
相関係数とは?【強弱の目安・公式を含む求め方2通り・性質2選の証明】
相関係数とは何か・強弱の目安
相関係数の求め方・公式の証明
相関係数の性質・共分散との違い
これらについて、わかりやすく丁寧に解説します。
「相関係数がいまいちピンと来ていない…」という方は必見の内容です。
共分散に関するまとめ
本記事のポイントをまとめます。
- 共分散とは偏差の積の平均値であり、「分散」を一般化したものです。
- 「分散公式」の一般化である共分散公式を使うことで、より簡単に求めることができます。
- 共分散のままでは、単位(スケール)によって数値がバラついてしまうため、「相関関係」を調べることは難しいです。
- 変量 $x$,$y$ を「標準化」した変量 $u$,$v$ の共分散 $s_{uv}$ を考えることにします。
- この $s_{uv}$ こそまさに「相関係数」と呼ばれ、問題でよく問われます。
共分散をしっかりマスターして、相関係数に対する理解も深めていきましょう!
あわせて読みたい
相関係数とは?【強弱の目安・公式を含む求め方2通り・性質2選の証明】
相関係数とは何か・強弱の目安
相関係数の求め方・公式の証明
相関係数の性質・共分散との違い
これらについて、わかりやすく丁寧に解説します。
「相関係数がいまいちピンと来ていない…」という方は必見の内容です。
数学Ⅰ「データの分析」の全 $18$ 記事をまとめた記事を作りました。よろしければこちらからどうぞ。
おわりです。
コメントを残す