MENU
カテゴリー
おすすめプログラミングスクール紹介中! 一覧はこちらから

共分散とは【共分散公式を含む求め方2通り・相関係数との違い】

こんにちは、ウチダです。

さて、いきなりですが「共分散(きょうぶんさん)」とは、 $2$ つの変量に対して定義される数値です。

数学太郎

分散と共分散はどう違うのか、わかりやすく解説してほしいです。

数学花子

共分散の求め方がわかりません。相関係数との違いも知りたいです。

よって本記事では、共分散とは何かから、分散と共分散の違い、共分散の求め方2通り(定義通り+共分散公式)、さらに相関係数との違いまで

  • 東北大学理学部数学科卒業
  • 実用数学技能検定1級保持
  • 高校教員→塾の教室長の経験あり

の僕がわかりやすく解説します。

スポンサーリンク
目次

共分散とは何か【偏差の積の平均値です】

共分散とは

変量 $x$ の平均値を $\overline{x}$,変量 $y$ の平均値を $\overline{y}$ と定義する。

このとき、変量 $x$,$y$ の共分散とは、

\begin{align}\frac{1}{n}\{(x_1-\overline{x})(y_1-\overline{y})+ (x_2-\overline{x})(y_2-\overline{y})+ …+ (x_n-\overline{x})(y_n-\overline{y})\}\end{align}

つまり、「偏差の積の平均値」を指す。

ウチダ

偏差とは、データから平均値を引いた値のことです。偏差の他の応用例については「偏差とは?【意味や求め方・和が必ず0であることをわかりやすく解説】」の記事をご覧ください。

この定義から、まずは分散との違いについて考えてみましょう。

分散と共分散の違いって?

共分散の定義には変量が $2$ つ必要でした。

それに比べて分散は、$1$ つの変量に対して定義される値です。

よって、共分散の定義式において、$y$ → $x$ に統合してみたいと思います。

\begin{align} & \quad \frac{1}{n}\{(x_1-\overline{x})(y_1-\overline{y})+ (x_2-\overline{x})(y_2-\overline{y})+ …+ (x_n-\overline{x})(y_n-\overline{y})\} \\&→\frac{1}{n} \{(x_1-\overline{x})(x_1-\overline{x})+ (x_2-\overline{x})(x_2-\overline{x})+ …+ (x_n-\overline{x})(x_n-\overline{x})\}\\&= \frac{1}{n} \{(x_1-\overline{x})^2+ (x_2-\overline{x})^2+ …+ (x_n-\overline{x})^2\}\end{align}

…なんと、「偏差の $2$ 乗の平均値」、つまり「分散」の定義式に生まれ変わるのです!

数学太郎

ということは、「共分散は分散の定義を一般化したもの」とも言えるね。

分散についての詳しい解説は以下の記事をご覧ください。

共分散公式とは ?

よって共分散公式も、分散公式の一般化と言えます。

共分散公式とは

$x$,$y$ の共分散を $s_{xy}$ とすると、

\begin{align}s_{xy}=\overline{xy}-\overline{x}・\overline{y}\end{align}

が成り立つ。

この式の変量 $y$ を、また $x$ に変えてみると…

\begin{align}& \quad \overline{xy}-\overline{x}・\overline{y} \\&→\overline{x・x}-\overline{x}・\overline{x}\\&=\overline{x^2}-(\overline{x})^2\end{align}

となり、確かに分散公式と一致します。
≫参考記事:分散公式とは?【導出から覚え方までわかりやすく解説します】

一応、共分散の定義からこの公式を導いておきます。

…ということは、共分散も分散と同様に求め方が $2$ 通りある、と言えますね!

それでは、実際に共分散を求める練習をしてみましょう。

共分散を求めてみよう

問題.$2$ つの変量 $x$,$y$ が次の表で与えられている。
このとき、変量 $x$ と $y$ の共分散 $s_{xy}$ を求めなさい。

$x$ $3$ $8$ $2$ $-2$ $4$
$y$ $0$ $5$ $-1$ $-3$ $9$

まずは定義通りに求めてみます。

次は共分散公式を使った解法です。

ウチダ

注意が必要なのは「 $x$ と $y$ それぞれのデータの対応」です。たとえば $x_1×y_3$ などの計算ミスを行わないように、表をよくチェックして計算しましょう。

スポンサーリンク

共分散ではダメな理由【相関係数との違いのヒミツは「単位」にある!】

共分散も使えるには使えるのですが、分散と同様に“単位によってバラつき”が生じてしまいます。

例を見てみましょう。

例題.次の変量 $x$,$y$ は単位がそれぞれ「cm」「m」である。このとき、考えられる問題点を述べなさい。

$x \ (\mathrm{cm})$ $3$ $8$ $2$ $-2$ $4$
$y \ (\mathrm{m})$ $0$ $5$ $-1$ $-3$ $9$
数学花子

$x$ の値が $1$ 変わるのと $y$ の値が $1$ 変わるのでは、単位が異なるから意味合いも全然変わってくるわね。

そうですよね。これ単位が違うままだとわかりづらいですが、そろえてみると一目瞭然です。

$x \ (\mathrm{cm})$ $3$ $8$ $2$ $-2$ $4$
$y \ (\mathrm{cm})$ $0$ $500$ $-100$ $-300$ $900$

こういう状況下で共分散を求めたところで、データのバラつき度合いを正確に測り、相関関係を見出すことは難しいです。
≫参考記事:相関関係と因果関係の違いとは?【具体例13選を用いてわかりやすく解説します】

では一体どうすればいいのでしょうか。

単位(スケール)に依存しないために…

変量 $x$,$y$ をそれぞれ標準化した変量 $u$,$v$ に対して共分散 $s_{uv}$ を考えればOK!!
※標準化…平均値を $0$,標準偏差を $1$ に変量変換すること。

そして、標準化した変量の共分散 $s_{uv}$ こそ、皆さんご存じの「相関係数(そうかんけいすう)」になるわけです!

ウチダ

相関係数の定義の意味をしっかりと理解できている人は少ないです。ここを押さえて、周りと差を付けましょう!

関連記事はこちらから

共分散に関するまとめ

本記事のポイントをまとめます。

  1. 共分散とは偏差の積の平均値であり、「分散」を一般化したものです。
  2. 分散公式」の一般化である共分散公式を使うことで、より簡単に求めることができます。
  3. 共分散のままでは、単位(スケール)によって数値がバラついてしまうため、「相関関係」を調べることは難しいです。
    1. 変量 $x$,$y$ を「標準化」した変量 $u$,$v$ の共分散 $s_{uv}$ を考えることにします。
    2. この $s_{uv}$ こそまさに「相関係数」と呼ばれ、問題でよく問われます。

共分散をしっかりマスターして、相関係数に対する理解も深めていきましょう!

数学Ⅰ「データの分析」の全 $18$ 記事をまとめた記事を作りました。よろしければこちらからどうぞ。

おわりです。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!
スポンサーリンク

コメントを残す

コメントする

CAPTCHA


目次