こんにちは、ウチダです。
データの分析において最後に登場する「相関係数(そうかんけいすう)」ってかなり難しく感じますよね。
覚えなくてはいけない知識も多いです。
よって本記事では、相関係数とは何かから強弱の目安、相関係数の求め方や公式の証明、さらに相関係数の性質2選まで
- 東北大学理学部数学科卒業
- 実用数学技能検定1級保持
- 高校教員→塾の教室長の経験あり
の僕がわかりやすく解説します。
目次
相関係数とは【相関関係の強弱を示します】
相関係数 $r$ とは、相関関係の強弱を $-1$ から $1$ までの数値によって表した、非常に便利なものです。
「一方が増えると、もう一方が増える」みたいな関係のことです。因果関係とは違って、「~の傾向がある」までしか言えません。
たとえば
- たくさん勉強すれば成績が伸びる。
- よく睡眠をとれば幸福度が上がる。
などなど。
詳しくはこちらの記事をご覧になった方が理解が速いと思います。
あわせて読みたい
相関関係と因果関係の違いとは?【具体例13選を用いてわかりやすく解説します】
相関関係とは何か
相関関係と因果関係のそれぞれの意味・違い
疑似相関(ぎじそうかん)とは何か
これらについて、具体例13個を用いてわかりやすく解説します。「相関関係と因果関係の違いがよくわかっていない…」という方は必見です。
さて、では具体的に相関係数とデータの分布は、どのようなつながりがあるのでしょうか。
図を通して考えてみましょう。
相関係数とデータの分布
相関係数が $1$ に近づくほど正の相関が強くなり、$-1$ に近づくほど負の相関が強くなります。
また、相関係数が $0$ 付近であれば、ほとんど相関が見られません。
では、相関係数が $0$ 付近であれば、上の図のようにデータの分布はいつもまばらなのでしょうか。
実は違います。
ここメッチャ重要なんですけども
相関係数はあくまで「直線(線形)」の相関関係しか表せない
(上の図は放物線。つまり「曲線(非線形)」。)
これ、学校では中々教わることのできない上質な知識です。
ここまでの話を整理しておきます。
- 相関係数が $1$ に近づくほど、データの分布は右肩上がりの直線に従う。
- 相関係数が $-1$ に近づくほど、データの分布は右肩下がりの直線に従う。
- 相関係数が $0$ 付近であれば、直線的な相関関係は見られない。
- ただし、曲線的な相関関係が見られることもあるので注意!
そういえば「右肩上がり(下がり)の直線」って、具体的に傾きはいくつとか決まってないんですか?
良いところに気が付きますね!実は相関係数が $1$ だとしても、傾きまではわかりません。ただ、$( \ \overline{x} \ , \ \overline{y} \ )$ を通ることだけは確認できます。
※ $\overline{x}$ で「 $x$ の平均値」を表します。
一応「なぜ傾きまではわからないか」についての証明を記しておきます。
興味のある方は「+」ボタンを押して、ご覧ください。
傾きまではわからない理由
傾きを $a$ として、
\begin{align}y-\overline{y}=a(x-\overline{x})\end{align}
が成り立つとき、相関係数がどうなるかを考える。
すると、変量 $y$ の標準偏差 $s_y$ は
\begin{align}s_y&=\sqrt{\frac{1}{n}\{(y_1-\overline{y})^2+(y_2-\overline{y})^2+…+(y_n-\overline{y})^2\}}\\&=\sqrt{\frac{1}{n}\{a^2(x_1-\overline{x})^2+a^2(x_2-\overline{x})^2+…+a^2(x_n-\overline{x})^2\}}\\&=|a|・\sqrt{\frac{1}{n}\{(x_1-\overline{x})^2+(x_2-\overline{x})^2+…+(x_n-\overline{x})^2\}}\\&=|a|・s_x\end{align}
と、変量 $x$ の標準偏差 $s_x$ の $|a|$ 倍と求めることができる。
また、同様に変量 $x$,$y$ の共分散 $s_{xy}$ も
\begin{align}s_{xy}&=\frac{1}{n}\{(x_1-\overline{x})(y_1-\overline{y})+ (x_2-\overline{x})(y_2-\overline{y})+ …+ (x_n-\overline{x})(y_n-\overline{y})\}\\&=a・\frac{1}{n}\{(x_1-\overline{x})^2+(x_2-\overline{x})^2+…+(x_n-\overline{x})^2\}\\&=a・{s_x}^2\end{align}
と、変量 $x$ の分散 ${s_x}^2$ の $a$ 倍と求められる。
よって、後述する相関係数の公式より、
\begin{align}r&=\frac{s_{xy}}{s_xs_y}\\&=\frac{a・{s_x}^2}{s_x・|a|・s_x}\\&=\frac{a}{|a|}\end{align}
したがって、
- $a$ が正 → $\displaystyle \frac{a}{|a|}=\frac{a}{a}=1$
- $a$ が負 → $\displaystyle \frac{a}{|a|}=\frac{a}{-a}=-1$
となる。
(証明終了)
相関係数の強い(弱い)の目安
これは目安でしかありませんが、一応相関係数の強弱について表にまとめておきます。
相関係数 $r$ |
相関の強さ |
$0.7≦r≦1$ |
かなり強い正の相関がある |
$0.4≦r<0.7$ |
正の相関がある |
$0.2≦r<0.4$ |
弱い正の相関がある |
$-0.2<r<0.2$ |
ほとんど相関がない |
$-0.4<r≦-0.2$ |
弱い負の相関がある |
$-0.7<r≦-0.4$ |
負の相関がある |
$-1≦r≦-0.7$ |
かなり強い負の相関がある |
大体 $0.2$,$0.4$,$0.7$ あたりで切り替わる、と覚えておけばいいね!
あくまで目安ですが、テストで問われることもあります。その時は、この目安に従って解答してもらえれば、おそらく満点だと思いますよ。
スポンサーリンク
相関係数の求め方2つをマスターしよう!
さて、ではいよいよ相関係数を具体的に求めていきましょう。
相関係数の求め方は $2$ 通りありまして、
- 共分散 $s_{xy}$ を、それぞれの標準偏差 $s_x$,$s_y$ で割る!
- これが相関係数の公式 $\displaystyle r=\frac{s_{xy}}{s_xs_y}$
- $x$,$y$ を標準化した変量 $u$,$v$ の共分散 $s_{uv}$ を取る!
- これが相関係数の定義式 $\displaystyle r=s_{uv}$
どちらとも重要です。
実は $②$ こそ、相関係数 $r$ の定義式になります!ここを知っているか否かで、周りとかなり差が付きますね。
「なぜ $①$,$②$ の式で求まるか」は後述するので、さっそく問題を解いて理解を深めていきましょう。
問題.$2$ つの変量 $x$,$y$ が次の表で与えられている。
このとき、変量 $x$ と $y$ の相関係数 $r$ を求めなさい。
$x$ |
$3$ |
$8$ |
$2$ |
$-2$ |
$4$ |
$y$ |
$0$ |
$5$ |
$-1$ |
$-3$ |
$9$ |
まず、相関係数の公式 $①$ を使って解いていきます。
相関係数の公式を使って解く
以下の表を作る。
|
$x$ |
$y$ |
$x-\overline{x}$ |
$y-\overline{y}$ |
$(x-\overline{x})(y-\overline{y})$ |
$(x-\overline{x})^2$ |
$(y-\overline{y})^2$ |
① |
$3$ |
$0$ |
$0$ |
$-2$ |
$0$ |
$0$ |
$4$ |
② |
$8$ |
$5$ |
$5$ |
$3$ |
$15$ |
$25$ |
$9$ |
③ |
$2$ |
$-1$ |
$-1$ |
$-3$ |
$3$ |
$1$ |
$9$ |
④ |
$-2$ |
$-3$ |
$-5$ |
$-5$ |
$25$ |
$25$ |
$25$ |
⑤ |
$4$ |
$9$ |
$1$ |
$7$ |
$7$ |
$1$ |
$49$ |
計 |
$15$ |
$10$ |
/ |
/ |
$50$ |
$52$ |
$96$ |
したがって、標準偏差は分散にルートを付ければよいので、
\begin{align}r&=\frac{s_{xy}}{s_xs_y}\\&=\frac{50}{\sqrt{52×96}}\\&=\frac{50}{8\sqrt{78}}≒0.71\end{align}
※共分散も標準偏差もデータの大きさ $n$ で割っていないことは、公式の導出で解説します。
(解答終了)
次に、相関係数の定義式 $②$ を使って解きます。
相関係数の定義から地道に解く
変量 $x$,$y$ を標準化した変量 $u$,$v$ についての表を作る。
|
$u$ |
$v$ |
$uv$ |
① |
$0$ |
$\displaystyle \frac{-2\sqrt{5}}{4\sqrt{6}}$ |
$0$ |
② |
$\displaystyle \frac{5\sqrt{5}}{2\sqrt{13}}$ |
$\displaystyle \frac{3\sqrt{5}}{4\sqrt{6}}$ |
$\displaystyle \frac{15×5}{8\sqrt{78}}$ |
③ |
$\displaystyle \frac{-\sqrt{5}}{2\sqrt{13}}$ |
$\displaystyle \frac{-3\sqrt{5}}{4\sqrt{6}}$ |
$\displaystyle \frac{3×5}{8\sqrt{78}}$ |
④ |
$\displaystyle \frac{-5\sqrt{5}}{2\sqrt{13}}$ |
$\displaystyle \frac{-5\sqrt{5}}{4\sqrt{6}}$ |
$\displaystyle \frac{25×5}{8\sqrt{78}}$ |
⑤ |
$\displaystyle \frac{\sqrt{5}}{2\sqrt{13}}$ |
$\displaystyle \frac{7\sqrt{5}}{4\sqrt{6}}$ |
$\displaystyle \frac{7×5}{8\sqrt{78}}$ |
計 |
$0$ |
$0$ |
$\displaystyle \frac{50×5}{8\sqrt{78}}$ |
したがって、相関係数 $r$ は
\begin{align}r&=s_{uv}\\&=\frac{1}{5}×\frac{50×5}{8\sqrt{78}}\\&=\frac{50}{8\sqrt{78}}≒0.71\end{align}
と求めることができる。
(解答終了)
では、どうして $2$ 通りの解法があるのか、詳しく見ていきましょう。
相関係数の公式の証明
$②$ が相関係数の定義式なので、$②$ から $①$ を導きます。
相関係数の公式の証明
標準化した変量 $u$,$v$ の平均値は $0$ なので、
\begin{align}r&=s_{uv}\\&=\frac{1}{n}\{(\frac{x_1-\overline{x}}{s_x}-0)(\frac{y_1-\overline{y}}{s_y}-0)+…+(\frac{x_n-\overline{x}}{s_x}-0)(\frac{y_n-\overline{y}}{s_y}-0)\} \\&=\frac{1}{s_xs_y}・\frac{1}{n}\{(x_1-\overline{x})(y_1-\overline{y})+ …+(x_n-\overline{x})(y_n-\overline{y})\}\\&=\frac{1}{s_xs_y}・s_{xy}=\frac{s_{xy}}{s_xs_y}\end{align}
(証明終了)
また、$①$ の公式を使う際、本来共分散も標準偏差も $n$ で割らなきゃいけないのに割っていませんでした。
この解説をします。
nで割る必要がない理由
共分散と標準偏差の定義式を公式に代入すると、
\begin{align}r&=\frac{s_{xy}}{s_xs_y}\\&=\frac{\frac{1}{n}\{(x_1-\overline{x})(y_1-\overline{y})+ …+(x_n-\overline{x})(y_n-\overline{y})\}}{\sqrt{\frac{1}{n}\{(x_1-\overline{x})^2+…+(x_n-\overline{x})^2\}}\sqrt{\frac{1}{n}\{(y_1-\overline{y})^2+…+(y_n-\overline{y})^2\}}}\end{align}
この代入した式をよく見てみると、
- 分子 … $\displaystyle \frac{1}{n}$ が $1$ つ
- 分母 … $\displaystyle \sqrt{\frac{1}{n}}$ が $2$ つ
つまり、$\displaystyle \frac{1}{n}$ がキレイに約分される。
よって、相関係数の公式は
\begin{align}r=\frac{(x_1-\overline{x})(y_1-\overline{y})+ …+(x_n-\overline{x})(y_n-\overline{y})}{\sqrt{\{(x_1-\overline{x})^2+…+(x_n-\overline{x})^2\}\{(y_1-\overline{y})^2+…+(y_n-\overline{y})^2\}}} …③\end{align}
となり、この $③$ が大活躍する。
(導出終了)
公式 $③$ を使えば、$n$ で割る必要がなくなるため、表を作れば簡単に求めることができます。
つまり、表を作って最後の $3$ つの数字を画像のように当てはめればOK、ということです。
学校によっては、この求め方の指導しか行わないところもありますが、ここはしっかりと
- 定義式 $r=s_{uv}$ から公式 $\displaystyle r=\frac{s_{xy}}{s_xs_y}$ を導く。
- 公式 $\displaystyle r=\frac{s_{xy}}{s_xs_y}$ において、$n$ がキレイに約分できることを理解する。
と学んだ方が、後々忘れずに済むかと思います。
ここまでの内容の関連記事はこちらから
あわせて読みたい
標準偏差の求め方と意味とは?【分散との違いもわかりやすく解説します】
「標準偏差とは何か」知りたいですか?本記事では、標準偏差の求め方や意味、また分散との違いまで、わかりやすく解説します。また、データの単位や正規分布、偏差値についても軽く解説します。「標準偏差って結局何なの…?」と感じている方は必見です。
あわせて読みたい
共分散とは【共分散公式を含む求め方2通り・相関係数との違い】
共分散とは何か、その求め方
分散・共分散の違いと共分散公式
なぜ相関係数を考える?
これらについて、わかりやすく丁寧に解説します。
「共分散って、結局何のためにあるんだろう…」と感じている方は必見です。
あわせて読みたい
標準化(変量の変換)とは?【仮平均についてもわかりやすく解説します】
「標準化とは何か」知りたいですか?本記事では、標準化(変量の変換の一種)の方法から公式の証明、変量の変換を応用した仮平均、さらに標準化のメリット3選(偏差値・データの比較・標準正規分布)まで、わかりやすく解説します。本記事を読んで、標準化マスターになろう!
スポンサーリンク
相関係数の性質2つを押さえよう!
さて、では最後に相関係数に成り立つ嬉しい性質 $2$ つを確認しましょう。
- 必ず $-1≦r≦1$ であること。
- 単位(スケール)によらないこと。
順に解説していきます。
相関係数の絶対値が1以下である証明
数学Ⅱにおいて、「コーシー・シュワルツの不等式」という重要な不等式を学びます。
コーシー・シュワルツの不等式とは
どんな実数 $a_i$,$b_i$ に対しても
\begin{align}({a_1}^2+{a_2}^2+…+{a_n}^2)({b_1}^2+{b_2}^2+…+{b_n}^2)≧(a_1b_1+a_2b_2+…+a_nb_n)^2\end{align}
つまり、( $2$ 乗の和の積)$≧$(積の和の $2$ 乗) が常に成り立つ。
これを、相関係数の公式 $③$ に当てはめて式変形すると、
\begin{align}|r|&=|\frac{(x_1-\overline{x})(y_1-\overline{y})+…+(x_n-\overline{x})(y_n-\overline{y})}{\sqrt{\{(x_1-\overline{x})^2+…+(x_n-\overline{x})^2\}\{(y_1-\overline{y})^2+…+(y_n-\overline{y})^2 \}}}|\\&≦|\frac{\sqrt{\{(x_1-\overline{x})^2+…+(x_n-\overline{x})^2\}\{(y_1-\overline{y})^2+…+(y_n-\overline{y})^2\}}}{\sqrt{\{(x_1-\overline{x})^2+…+(x_n-\overline{x})^2\}\{(y_1-\overline{y})^2+…+(y_n-\overline{y})^2\}}}|\\&=1\end{align}
となり、確かに $|r|≦1$ が示せます。
コーシー・シュワルツの不等式って、なんか見ただけでスゴイ難しそうだなぁ。
見た目は複雑そうですが、言ってることは意外と単純だったりします。これ以上の話は数学Ⅱ内容なので、ここではスルーしますね。
興味のある方は、こちらの記事もご覧になってみてはいかがでしょうか。
コーシー・シュワルツの不等式とは~(準備中)
「単位(スケール)によらない」とは?
実はこの性質が、相関係数を定義する最大の理由でもあるのです。
- 共分散 → 単位が異なる変量 $x$,$y$ の相関関係は測れない。
- 相関係数 → 単位が異なる変量 $x$,$y$ でも、相関関係をしっかりと測ることができる。
相関係数を定義するには、標準化が必要でした。
で、この標準化は、「単位(スケール)に影響されないようにする」という性質を持っています。
標準化は、平均値 $0$,標準偏差 $1$ にする変量変換なので、これさえ行えばスケールが統一されます。
スケールが統一された変量に対して共分散を取ったのが相関係数なので、つまり「単位(スケール)に影響されない」ということになります。
ようは、「共分散の問題点を相関係数で上手く解決できた。」このイメージだけ理解できていれば十分です。
相関係数に関するまとめ
本記事のポイントをまとめます。
- 相関係数を使えば、直線的な「相関関係」を表すことができます。
- 相関係数の求め方は $2$ 通りあります。
- 「共分散」を求めてから「標準偏差」で割る方法(公式)
- 「標準化」してから共分散を取る方法(定義)
- 相関係数の性質 $2$ つを押さえましょう。
- 「コーシー・シュワルツの不等式」を使えば、$-1≦r≦1$ を示せます。
- 相関係数は単位(スケール)に影響されません!(共分散はガンガン影響されます。)
相関係数をマスターできれば、データの分析の問題で怖いものはほとんどありません。
ぜひじっくりと読んで、相関係数を使う意味まで理解していただきたいと思います^^
数学Ⅰ「データの分析」の全 $18$ 記事をまとめた記事を作りました。よろしければこちらからどうぞ。
おわりです。
コメントを残す