MENU
カテゴリー
おすすめプログラミングスクール紹介中! 一覧はこちらから

相関係数とは?【強弱の目安・公式を含む求め方2通り・性質2選の証明】

こんにちは、ウチダです。

データの分析において最後に登場する「相関係数(そうかんけいすう)」ってかなり難しく感じますよね。

覚えなくてはいけない知識も多いです。

数学太郎

相関係数を求めることで、何がわかるの?

数学花子

相関係数の求め方や性質がよくわかりません!

よって本記事では、相関係数とは何かから強弱の目安、相関係数の求め方や公式の証明、さらに相関係数の性質2選まで

  • 東北大学理学部数学科卒業
  • 実用数学技能検定1級保持
  • 高校教員→塾の教室長の経験あり

の僕がわかりやすく解説します。

スポンサーリンク
目次

相関係数とは【相関関係の強弱を示します】

相関係数 $r$ とは、相関関係の強弱を $-1$ から $1$ までの数値によって表した、非常に便利なものです。

数学太郎

相関関係って何?

ウチダ

「一方が増えると、もう一方が増える」みたいな関係のことです。因果関係とは違って、「~の傾向がある」までしか言えません。

たとえば

  • たくさん勉強すれば成績が伸びる。
  • よく睡眠をとれば幸福度が上がる。

などなど。

詳しくはこちらの記事をご覧になった方が理解が速いと思います。

さて、では具体的に相関係数とデータの分布は、どのようなつながりがあるのでしょうか。

図を通して考えてみましょう。

相関係数とデータの分布

相関係数が $1$ に近づくほど正の相関が強くなり、$-1$ に近づくほど負の相関が強くなります。

また、相関係数が $0$ 付近であれば、ほとんど相関が見られません。

相関係数とデータの分布

では、相関係数が $0$ 付近であれば、上の図のようにデータの分布はいつもまばらなのでしょうか。

実は違います。

相関係数は放物線(非線形)には向かない

ここメッチャ重要なんですけども

相関係数はあくまで「直線(線形)」の相関関係しか表せない
(上の図は放物線。つまり「曲線(非線形)」。)

これ、学校では中々教わることのできない上質な知識です。

ここまでの話を整理しておきます。

  • 相関係数が $1$ に近づくほど、データの分布は右肩上がりの直線に従う。
  • 相関係数が $-1$ に近づくほど、データの分布は右肩下がりの直線に従う。
  • 相関係数が $0$ 付近であれば、直線的な相関関係は見られない。
    • ただし、曲線的な相関関係が見られることもあるので注意!
数学花子

そういえば「右肩上がり(下がり)の直線」って、具体的に傾きはいくつとか決まってないんですか?

ウチダ

良いところに気が付きますね!実は相関係数が $1$ だとしても、傾きまではわかりません。ただ、$( \ \overline{x} \ , \ \overline{y} \ )$ を通ることだけは確認できます。

※ $\overline{x}$ で「 $x$ の平均値」を表します。

一応「なぜ傾きまではわからないか」についての証明を記しておきます。

興味のある方は「+」ボタンを押して、ご覧ください。

相関係数の強い(弱い)の目安

これは目安でしかありませんが、一応相関係数の強弱について表にまとめておきます。

相関係数 $r$ 相関の強さ
$0.7≦r≦1$ かなり強い正の相関がある
$0.4≦r<0.7$ 正の相関がある
$0.2≦r<0.4$ 弱い正の相関がある
$-0.2<r<0.2$ ほとんど相関がない
$-0.4<r≦-0.2$ 弱い負の相関がある
$-0.7<r≦-0.4$ 負の相関がある
$-1≦r≦-0.7$ かなり強い負の相関がある
数学太郎

大体 $0.2$,$0.4$,$0.7$ あたりで切り替わる、と覚えておけばいいね!

ウチダ

あくまで目安ですが、テストで問われることもあります。その時は、この目安に従って解答してもらえれば、おそらく満点だと思いますよ。

スポンサーリンク

相関係数の求め方2つをマスターしよう!

さて、ではいよいよ相関係数を具体的に求めていきましょう。

相関係数の求め方は $2$ 通りありまして、

  1. 共分散 $s_{xy}$ を、それぞれの標準偏差 $s_x$,$s_y$ で割る!
    1. これが相関係数の公式 $\displaystyle r=\frac{s_{xy}}{s_xs_y}$
  2. $x$,$y$ を標準化した変量 $u$,$v$ の共分散 $s_{uv}$ を取る!
    1. これが相関係数の定義式 $\displaystyle r=s_{uv}$

どちらとも重要です。

数学花子

…あれ?$②$ の求め方は知らないかも…。

ウチダ

実は $②$ こそ、相関係数 $r$ の定義式になります!ここを知っているか否かで、周りとかなり差が付きますね。

なぜ $①$,$②$ の式で求まるか」は後述するので、さっそく問題を解いて理解を深めていきましょう。

問題.$2$ つの変量 $x$,$y$ が次の表で与えられている。
このとき、変量 $x$ と $y$ の相関係数 $r$ を求めなさい。

$x$ $3$ $8$ $2$ $-2$ $4$
$y$ $0$ $5$ $-1$ $-3$ $9$

まず、相関係数の公式 $①$ を使って解いていきます。

次に、相関係数の定義式 $②$ を使って解きます。

では、どうして $2$ 通りの解法があるのか、詳しく見ていきましょう。

相関係数の公式の証明

$②$ が相関係数の定義式なので、$②$ から $①$ を導きます。

また、$①$ の公式を使う際、本来共分散も標準偏差も $n$ で割らなきゃいけないのに割っていませんでした。

この解説をします。

公式 $③$ を使えば、$n$ で割る必要がなくなるため、表を作れば簡単に求めることができます。

相関係数の公式
ウチダ

つまり、表を作って最後の $3$ つの数字を画像のように当てはめればOK、ということです。

学校によっては、この求め方の指導しか行わないところもありますが、ここはしっかりと

  1. 定義式 $r=s_{uv}$ から公式 $\displaystyle r=\frac{s_{xy}}{s_xs_y}$ を導く。
  2. 公式 $\displaystyle r=\frac{s_{xy}}{s_xs_y}$ において、$n$ がキレイに約分できることを理解する。

と学んだ方が、後々忘れずに済むかと思います。

ここまでの内容の関連記事はこちらから

スポンサーリンク

相関係数の性質2つを押さえよう!

さて、では最後に相関係数に成り立つ嬉しい性質 $2$ つを確認しましょう。

  • 必ず $-1≦r≦1$ であること。
  • 単位(スケール)によらないこと。

順に解説していきます。

相関係数の絶対値が1以下である証明

数学Ⅱにおいて、「コーシー・シュワルツの不等式」という重要な不等式を学びます。

コーシー・シュワルツの不等式とは

どんな実数 $a_i$,$b_i$ に対しても

\begin{align}({a_1}^2+{a_2}^2+…+{a_n}^2)({b_1}^2+{b_2}^2+…+{b_n}^2)≧(a_1b_1+a_2b_2+…+a_nb_n)^2\end{align}

つまり、( $2$ 乗の和の積)$≧$(積の和の $2$ 乗) が常に成り立つ。

これを、相関係数の公式 $③$ に当てはめて式変形すると、

\begin{align}|r|&=|\frac{(x_1-\overline{x})(y_1-\overline{y})+…+(x_n-\overline{x})(y_n-\overline{y})}{\sqrt{\{(x_1-\overline{x})^2+…+(x_n-\overline{x})^2\}\{(y_1-\overline{y})^2+…+(y_n-\overline{y})^2 \}}}|\\&≦|\frac{\sqrt{\{(x_1-\overline{x})^2+…+(x_n-\overline{x})^2\}\{(y_1-\overline{y})^2+…+(y_n-\overline{y})^2\}}}{\sqrt{\{(x_1-\overline{x})^2+…+(x_n-\overline{x})^2\}\{(y_1-\overline{y})^2+…+(y_n-\overline{y})^2\}}}|\\&=1\end{align}

となり、確かに $|r|≦1$ が示せます。

数学太郎

コーシー・シュワルツの不等式って、なんか見ただけでスゴイ難しそうだなぁ。

ウチダ

見た目は複雑そうですが、言ってることは意外と単純だったりします。これ以上の話は数学Ⅱ内容なので、ここではスルーしますね。

興味のある方は、こちらの記事もご覧になってみてはいかがでしょうか。

コーシー・シュワルツの不等式とは~(準備中)

「単位(スケール)によらない」とは?

実はこの性質が、相関係数を定義する最大の理由でもあるのです。

  • 共分散 → 単位が異なる変量 $x$,$y$ の相関関係は測れない。
  • 相関係数 → 単位が異なる変量 $x$,$y$ でも、相関関係をしっかりと測ることができる。

相関係数を定義するには、標準化が必要でした。

で、この標準化は、「単位(スケール)に影響されないようにする」という性質を持っています。

ウチダ

標準化は、平均値 $0$,標準偏差 $1$ にする変量変換なので、これさえ行えばスケールが統一されます。

スケールが統一された変量に対して共分散を取ったのが相関係数なので、つまり「単位(スケール)に影響されない」ということになります。

数学花子

ちょっと難しいけど…何となくわかった!

ウチダ

ようは、「共分散の問題点を相関係数で上手く解決できた。」このイメージだけ理解できていれば十分です。

相関係数に関するまとめ

本記事のポイントをまとめます。

  1. 相関係数を使えば、直線的な「相関関係」を表すことができます。
  2. 相関係数の求め方は $2$ 通りあります。
    1. 共分散」を求めてから「標準偏差」で割る方法(公式)
    2. 標準化」してから共分散を取る方法(定義)
  3. 相関係数の性質 $2$ つを押さえましょう。
    1. 「コーシー・シュワルツの不等式」を使えば、$-1≦r≦1$ を示せます。
    2. 相関係数は単位(スケール)に影響されません!(共分散はガンガン影響されます。)

相関係数をマスターできれば、データの分析の問題で怖いものはほとんどありません。

ぜひじっくりと読んで、相関係数を使う意味まで理解していただきたいと思います^^

数学Ⅰ「データの分析」の全 $18$ 記事をまとめた記事を作りました。よろしければこちらからどうぞ。

おわりです。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!
スポンサーリンク

コメントを残す

コメントする

CAPTCHA


目次