こんにちは、ウチダです。
データの代表値は「平均値(ミーン)」「中央値(メジアン)」「最頻値(モード)」の3つがありますが、こんな疑問を抱いたことはありませんか?
[ふきだし set=”悩む男性”]そういえば、どうして3つも代表値があるの?別に平均値だけでよくない?[/ふきだし]
確かに、平均値を使う場面はよく見かけますが、実はそれだけではデータの分析は上手くいきません。
よって本記事では、平均値・中央値・最頻値のメリット・デメリットを、具体例 $3$ つを通して
- 東北大学理学部数学科卒業
- 教員採用試験に1発合格 → 高校教諭経験アリ
の僕がわかりやすく解説します。
平均値・中央値・最頻値の使い分け【代表値にはメリット・デメリットがある】
まずは大雑把に、それぞれのメリット・デメリットについて表でまとめます。
代表値 | メリット | デメリット | 例 |
---|---|---|---|
平均値(Mean) |
データすべての変化 などをしっかりと |
外れ値、つまり | テストの点数、 身長の分布 →正規分布 |
中央値(Median) |
外れ値の影響を |
データすべてを使った |
収入の分布 |
最頻値(Mode) | 外れ値の影響を 全く受けない。 | サンプル数が少ないと 効果をほぼ発揮しない。 | 靴屋さんの売り上げ、 お店の売り上げなど |
※この表は横にスクロールできます。(スマホでご覧の方対象。)
ではここから、表でまとめた内容について詳しく解説していきます。
表の詳しい解説
$3$ つの代表値について、平均値・中央値・最頻値の順番で解説していきます。
平均値について
まず、代表値と聞いて真っ先に思いつくのが「平均値」だと思います。
平均値の求め方は以下の通り。
データ $x_1$,$x_2$,…,$x_n$ の平均値は
$$\frac{x_1+x_2+…+x_n}{n}$$
で与えらえれる。
※平均値には様々な種類があるため、正確には「相加平均(そうかへいきん)」と呼ぶこともあります。
さて、この定義からわかることは、すべてのデータを扱っているため、
- データの変化を事細かに追うことができる。(メリット)
- 逆に言えば、データの変化に弱い。(デメリット)
と言えます。
まず、はじめの $5$ 人の平均点は $\displaystyle \frac{5+6+9+8+4}{5}=6.4$ 点です。
ここで、$6$ 人目を加えた平均点をあらためて求めてみると、$\displaystyle \frac{5+6+9+8+4+100}{6}=22$ 点となります。
つまり、ここからわかることは…
という事実です。
[ふきだし set=”考える男性”]$100$ 点を取った生徒のおかげで、$6$ 人全体の平均点が約 $16$ 点アップしたという、変化がわかって面白いね。(メリット)[/ふきだし]
[ふきだし set=”悩む女性”]でも、$100$ 点を取った生徒以外が「僕たちの平均点は $22$ 点だ!」と自信満々に言うのも、ちょっとどうかと思うわね…。(デメリット)[/ふきだし]
[ふきだし set=”ウチダ”]実は $2$ 人とも正解です。ようは、データの変化をどうとらえるかで、平均値の意味合いも全く異なるということです。[/ふきだし]
ただ、平均点は外れ値(極端に大きいまたは小さい値)の影響を受けやすいことは、ほとんどの場合デメリットとして働きます。
頭の片隅に入れておくと良いでしょう。
中央値について
データを小さい順 $x_1$,$x_2$,…,$x_n$ と並べる。
このとき、中央値は$$\left\{\begin{array}{ll}x_{\frac{1+n}{2}} \ &( \ n \ が奇数)\\(x_{\frac{n}{2}}+x_{\frac{n}{2}+1})÷2 \ &( \ n \ が偶数)\end{array}\right.$$で与えられる。
式にするとややこしく見えますが、ようは「中央付近しか考えない」ということです。
詳しくは「四分位範囲・四分位偏差・四分位数とは?【意味や求め方をわかりやすく解説します】」の記事をご覧ください。
さて、中央付近しか考えないことにより、たとえば例題 $1$ における中央値の変化は
$$6 \ → \ 7$$
と、ほとんどありません。
[ふきだし set=”考える男性”]例題 $1$ においては、$22$ という平均値より $7$ という中央値の方が、データの分析に向いてそうだね。(メリット)[/ふきだし]
しかし、中央値ばかり使えばいいかというと、そうでもないのです。
(1) $3$ 人とも再テストを受けた結果、$30$,$50$,$100$ 点であった。
(2) $3$ 人とも再テストを受けた結果、$10$,$65$,$68$ 点であった。
(1)では、中央値は変わらず $50$ 点のままですが、$70$ → $100$ 点まで $30$ 点アップした生徒の努力が全く反映されていません。
また(2)では、中央値は $50$ → $65$ 点まで $15$ 点アップしていますが、実際に点数が上がった生徒はたった $1$ 名で、他 $2$ 名の点数は下がっています。
[ふきだし set=”考える女性”]たしかに例題 $2$ の場合は、中央値より平均値の変化を追う方が、データの分析には向いてそうだわ。(デメリット)[/ふきだし]
平均値であれば、(1)の平均値は上がり、(2)の平均値は若干下がるため、データの変化を上手く表せていますね。
最頻値について
平均値も中央値も、それぞれ良さがあり悪さがありました。
それに大きく関わっていたものが、「外れ値(極端な値)」でしたね。
そこで、外れ値を一切無視できるような代表値である「最頻値(モード)」を考えることにします。
変量 $x$ の中で、データの個数が一番多いものを「最頻値」と定義する。
日本は民主主義ですし、データの分析においても「多数こそ最強だ」と定義したわけですね。
[ふきだし set=”考える男性”]でもたしかに、多数の意見って重要だよね。$1$ 人が賛成、$99$ 人が反対であれば、反対の意見を尊重したほうが多くの人が幸せになるしね。(メリット)[/ふきだし]
でも、果たして民主主義は完ぺきでしょうか。
この場合、最頻値は $3$ であり $7$ であり $100$ でもあります。
つまり、データの数が同じように割れてしまえば、全く意味がなくなってしまうのです。
ではここで、階級を決めて最頻値を求めてみることにしましょう。
階級(点) | 度数(人) |
---|---|
$0$ ~ $50$ | $4$ |
$51$ ~ $100$ | $2$ |
こう階級幅を定めれば、最頻値は階級値を使って
$$\frac{0+50}{2}=25 \ (点)$$
と表すこともできます。
でも、こうして求めた $25$ 点という数値に、あまり重要性は感じないですよね。
[ふきだし set=”考える女性”]以上を踏まえると、最頻値は「データの個数が多い場合」でないと、あまり意味がなさそうね。(デメリット)[/ふきだし]
途中、政治の話に行きかけましたが、データの個数が $100$ 個、$1000$ 個と多くなければあまり意味がない、という点では民主主義と近い部分があるかもしれませんね。
平均値・中央値・最頻値の使い分けを考えてみよう【例題3つを使って解説します】
先の章では、すべて「数学のテストの点数」という例で考えてみましたが、ここからはより一層深い内容にしたいため、もっといろんな例を使って考えていきたいと思います。
例1.テストの点数や身長の分析をする
さて、テストの点数や身長・体重など、自然的に発生するデータはほとんど「正規分布(せいきぶんぷ)」に従います。
また、正規分布において平均値・中央値・最頻値はほぼ一致するため、「どれを採用するか」は正直あまり重要ではありません。
それより、
- データがまばらに存在している(散らばりが大きい)
- データが平均付近に密集している(散らばりが小さい)
つまり、データの散らばりを表す新たな数値が必要となってきます。
それが「分散(ぶんさん)」や「標準偏差(ひょうじゅんへんさ)」と呼ばれる数値です。
[ふきだし set=”ウチダ”]ちなみに平均が $50$、標準偏差が $10$ の正規分布に従うように調整したものが「偏差値(へんさち)」と呼ばれています。[/ふきだし]
また、分散や標準偏差は、平均値を使って求めるように定義されています。
だから平均値だけ有名で、中央値・最頻値はあまり聞かないんです。
ということで、
- 代表値の中では、平均値が一番活躍する
- ただし、平均値から派生した値(分散や標準偏差)によるところが大きい
こんな理解でOKです。
関連記事はこちらから
- 正規分布とは~(準備中)
- 分散の求め方とは?【標準偏差との違いもわかりやすく解説します】
- 標準偏差の求め方と意味とは?【分散との違いもわかりやすく解説します】
- 偏差値とは?【偏差値60はどのくらいスゴイのか、求め方まで解説します】
例2.収入を分析する
自然的に発生しない、つまり正規分布に従わないものの中で代表的な例。
それが「収入」など、社会的に発生するデータです。
※あくまでおおまかな数値ですので、ご了承ください。
おそらく、平均年収 $441$ 万円と聞いて、「え…高くね?」と思った方が大半だと思います。
これは、資本主義の国ではよくあることなのですが、一部の大富豪によって平均年収が大きく底上げされてしまうのです。
[ふきだし set=”考える女性”]つまり、平均値の特徴である「外れ値(極端な値)に左右されやすい」ことが、わかりやすくデメリットとして働くわけですね。[/ふきだし]
しかし最頻値である $200$ 万 ~ $300$ 万だと、今度は低く感じると思います。
こういう場合、中央値である $360$ 万円ぐらいが、大多数が納得できる数値となります。
[ふきだし set=”ウチダ”]収入の分布の形(右すそ型)によく似ているものとして「カイ二乗分布」や「t分布」などが挙げられます。[/ふきだし]
カイ二乗分布やt分布は、大学の統計学においてよく登場するので、気になる方はこちらをどうぞ
- カイ二乗分布とは~(準備中)
- t分布とは~(準備中)
例3.靴屋の売り上げを分析する
もしこういう場合、平均値や中央値である $25 \ (\mathrm{cm})$ の靴を仕入れた方が良いでしょうか?
違いますよね。一番売れる $26 \ (\mathrm{cm})$ を絶対に仕入れるべきです。
次は $24 \ (\mathrm{cm})$ です。$25 \ (\mathrm{cm})$ は売れないのならいらないです。
このように、データの分布とか関係なく、一番個数が多いものを重視したい場面もあります。
つまり、「最頻値(モード)」が、店の売り上げにおいては一番重要な指標となるわけです。
平均値・中央値・最頻値に関するまとめ
本記事のポイントをまとめます。
- 平均値はデータすべてを考慮できるが、反面外れ値に弱い。
- 中央値・最頻値は外れ値を無視できるが、反面使える場面が限られる。
- データの分析を行う際は、「どんな分布に従っているか」に注意することにしよう。
残念ながら、数学Ⅰ「データの分析」においては、分布までしっかり学習はしません。
しかし、”データの分布”なるものが存在すること。
そして、データの分布によって代表値の意味合いが変わってくること。
この辺りを押さえながら勉強を進めると、理解がより深まるかと思います。
数学Ⅰ「データの分析」の全 $18$ 記事をまとめた記事を作りました。よろしければこちらからどうぞ。
おわりです。
コメントを残す