MENU

ベイズの定理とは?【例題2選を使ってわかりやすく解説します】

2019 12/14
ベイズの定理とは?【例題2選を使ってわかりやすく解説します】

こんにちは、ウチダショウマです。

いつもお読みいただきましてありがとうございます。

さて、ベイズの定理とは以下の式が成り立つことです。

【ベイズの定理】
互いに排反な事象 $A_1$,$A_2$,…,$A_n$ の中の事象 $A_k$ が原因で事象 $B$ が起こるとする。このとき、
\begin{align}P_B(A_k)&=\frac{P(A_k)P_{A_k}(B)}{P(B)}\\&=\frac{P(A_k)P_{A_k}(B)}{P(A_1)P_{A_1}(B)+P(A_2)P_{A_2}(B)+…+P(A_n)P_{A_n}(B)}\end{align}

※この数式は横にスクロールできます。(スマホでご覧の方対象。)
が成り立つ。

この式を使うことで、「原因の確率(事後確率)」と呼ばれる、時間に逆行した条件付き確率を求めることができます。

悩む男性のアイコン画像悩む男性
ん?それだけじゃよくわからないな。ベイズの定理はいったいどうやって導くんだ?
悩む女性のアイコン画像悩む女性
ベイズの定理っていう名前が付くぐらいだから、きっと重要なんだよね。例題を通してわかりやすく解説してほしいわ。

今、そう感じた方は多いと思います。

よって本記事では、「ベイズの定理とは何か」から、ベイズの定理を用いる例題 $2$ 選とともに、実生活におけるベイズの定理の応用例まで

  • 東北大学理学部数学科卒業
  • 教員採用試験に1発合格 → 高校教諭経験アリ
  • (専門は確率論でした。)

の僕がわかりやすく解説します。

スポンサーリンク
目次

ベイズの定理とは?【確率を「更新」していくことができます。】

最も重要なポイントを先に話すと、ベイズの定理の真骨頂は

確率を「更新」することができる

ことにあります。

ウチダのアイコン画像ウチダ
確率をどんどん更新していって、精度をより高められることから、“機械学習(AI)”にも幅広く応用されています。
悩む男性のアイコン画像悩む男性
へ~。だから「ベイズの定理」っていう名前が付くぐらい重要な式なんだ~。でも、そもそも「確率の更新」って何?

ということで、

  • ベイズの定理はなぜ成り立つのか
  • 確率の更新とは一体何か

以上 $2$ 点について、さっそくですが実際に問題を解きながら考えていきましょう。

病気である確率の問題(医学)

問題. ある病気 $X$ の罹患率は $0.1$ %である。ここで、太郎さんは以下の確率分布を持つ検査を受ける。太郎さんが陽性だと診断されたとき、本当に病気 $X$ に罹患している確率を求めなさい。
【ベイズの定理】病気である確率の問題

さあ、まずは問題文で問われている確率が一体何かを考えると…

↓↓↓

$P(罹|陽)$ という条件付き確率ですね!

陽性だという結果を条件づけているため、これは原因の確率(事後確率)になります。

考える男性のアイコン画像考える男性
確かに時間に逆行しているね~。ってあれ…?$P(陽|罹)$ だったら、図より $95$ % ってすぐにわかるんだけどな~。

はい、なのでここでベイズの定理の登場です!

導出もかねて、条件付き確率 $P(罹|陽)$ を求める式を導いていきましょう。

【解答(ベイズの定理の導出部分)】

条件付き確率の公式より、$\displaystyle P(罹|陽)=\frac{P(罹\cap 陽)}{P(陽)}$

よって、両辺に $P(陽)$ をかけると、$$P(罹\cap 陽)=P(陽)P(罹|陽) …①$$

また、$P(陽|罹)$ についても同様に、$\displaystyle P(陽|罹)=\frac{P(陽\cap 罹)}{P(罹)}$

よって、両辺に $P(罹)$ をかけると、$$P(陽\cap 罹)=P(罹)P(陽|罹) …②$$

①、②より、$P(罹\cap 陽)=P(陽\cap 罹)$ であるから、$P(陽)P(罹|陽)=P(罹)P(陽|罹)$

したがって、$$P(罹|陽)=\frac{P(陽|罹)}{P(陽)}P(罹)$$

(導出部分終了)

冒頭で紹介したベイズの定理と照らし合わせると

  • 事象 $A_1$ … 本当に病気に罹患しているという事象(つまり事象 $罹$ )
  • 事象 $A_2$ … 病気に罹患していないという事象
  • 事象 $B$ … 検査の反応が陽性であるという事象(つまり事象 $陽$ )

になっています。

つまり、ベイズの定理の導出には、条件付き確率の公式や乗法定理しか使っていないんですね!

ウチダのアイコン画像ウチダ
「条件付き確率や乗法定理がよくわかっていない…」という方は、先に「条件付き確率の公式とは?【不良品の問題など4選もわかりやすく解説します】」の記事から読み進めることをオススメします。

さて、ベイズの定理が条件付き確率の公式(乗法定理)と本質的には同値であることがわかりました。

それでは、この問題の仕上げです。

【解答再開】

ベイズの定理より、$\displaystyle P(罹|陽)=\frac{P(陽|罹)}{P(陽)}P(罹)$ が成り立つ。

ここで、仮定より、$P(陽|罹)=0.95$,$P(罹)=0.001$ であることはわかっている。

また、乗法定理を使うと、

\begin{align}P(陽)&=P(陽\cap 罹)+P(陽\cap 非)\\&=P(罹)P(陽|罹)+P(非)P(陽|非)\\&=0.001×0.95+0.999×0.10\\&=0.10085\end{align}

※この部分は、冒頭で紹介したベイズの定理の $1$ 行目から $2$ 行目の式変形に対応している。

したがって、求める確率は

\begin{align}P(罹|陽)=\frac{0.95×0.001}{0.10085}&=0.0094199…\\&≒0.01\end{align}

となり、約 $1$ %である。

(解答終了)

陽性だと診断されても、実際に病気 $X$ に罹患している確率は約 $1$ % であり、これは直感よりかなり低い確率だと思います。

ウチダのアイコン画像ウチダ
再検査や精密検査の重要性がわかりますね~。

確率の更新(ベイズ更新)とは?

今、問題自体は解くことができました。

ではここから、確率の更新について考えていきましょう。

【ベイズの定理】確率の更新(ベイズ更新)とは?

検査前の太郎さんの罹患率は、$0.1$ % でしたが、陽性だと診断されたので $1$ % に確率が上がりました。

このとき、$P(陽|罹)=95$ % がもとになり、この確率更新が行われました。

これらの確率のことをそれぞれ

  • $0.1$ % → 事前確率(情報が何もない。)
  • $95$ % → 尤度(「ゆうど」と読み、もっともらしさを表す。)
  • $1$ % → 事後確率(情報が与えられた。)

という専門用語で呼ぶこともあります。

ウチダのアイコン画像ウチダ
尤度によって事前確率から事後確率へ確率をアップデートしていくので、尤度がどのぐらい信頼できる確率なのかは非常に重要です。

さて、これでなんとなくベイズの定理の概要は掴めたでしょうか。

今、病気の例では、新しい情報によって確率をアップデートしました。

しかし、ベイズの定理を使える場面は、実はもう $1$ つあるのです!

ということで、それは次の章で考えていきましょう。

スポンサーリンク

ベイズの定理を迷惑メールフィルターに応用しよう(機械学習)

さて、もう $1$ つの応用例としてよく挙げられるのが「迷惑メールフィルター」ですね。

これも例題を解きながら考えていくことにしましょう^^

問題. 調査によると、迷惑メールが『登録』という単語を含んでいる確率は $60$ %、一般メールが『登録』という単語を含んでいる確率は $15$ %であるらしい。このとき、無作為に選んだメールが『登録』という単語を含んでいた場合、それが迷惑メールである確率を求めなさい。
※この調査は実際には行われておらず、確率も適当に設定したものです。

【解説】

まず事象を

  • 事象 $A$ … 迷惑メールである
  • 事象 $B$ … 『登録』という単語を含んでいる

と定義すると、今回求める確率は $P_B(A)$ となります。

よって、ベイズの定理より、$\displaystyle P_B(A)=\frac{P_A(B)}{P(B)}P(A)$ なので、あとは事前確率や尤度を求めていけばOKとなります。

考える女性のアイコン画像考える女性
$P_A(B)$ は $60$ %とすぐにわかるわね。…あれ?$P(A)$ の確率、つまり迷惑メールである確率って、今回設定されてなくない?
ウチダのアイコン画像ウチダ
では、体感的に半分ぐらいは迷惑メールだと思うので、$P(A)=50$ % として話を進めますか!

今、確率を主観的に $50$ % と決めてしまいました。

このように、「何も情報がないとき、全ての事象の発生確率が等しい」と仮定して考えることを”理由不十分の原則“と呼び、ふつうの統計学ではあり得ません。

つまり、まとめると…

  • 一般的な統計学 … 頻度主義と呼ばれ、客観的なデータに基づき判断する。
  • ベイズ統計学 … 理由不十分の原則に基づき、データがないときは主観的に判断してもOK!

なんか、同じ統計学でも大分違うんだな~と感じますよね。

さて、話を問題に戻しましょう。

$P(A)=50$ % と定めたので、あとは $P(B)$ を求めていきます。

病気の検査問題と同様に、

\begin{align}P(B)&=P(B\cap A)+P(B\cap \overline{A})\\&=P(A)P_A(B)+P(\overline{A})P_{\overline{A}}(B)\\&=0.50×0.60+(1-0.50)×0.15\\&=0.375\end{align}

したがって、求める確率は、$\displaystyle P_B(A)=\frac{0.60×0.50}{0.375}=0.8$ なので、$80$ %となります。

(解説終了)

ここでも、

  • $50$ % → 事前確率(情報がなさ過ぎたので、主観的に決めた。)
  • $60$ % → 尤度(迷惑メールが『登録』という単語を含む確率)
  • $80$ % → 事後確率(以上を踏まえ、確率を更新した。)

という流れになってます。

主観的な確率を使ってもいい」というのは、統計学っぽくなくて驚きですね!

ベイズの定理をもっと知りたいと思ったら…?

本記事のまとめをします。

  • ベイズの定理は、「条件付き確率の公式(乗法定理)」と本質的には同じ式。
  • ベイズ統計学では、新しいデータや過去の経験から、確率を更新していくことが重要。
    • 新しいデータの例…病気の検査制度の問題(医学)
    • 過去の経験の例…迷惑メールフィルター(機械学習)
  • 過去の経験は、かなり主観的なものでもOK!!

ちなみに、他によく挙げられる例は「天気予報」などがあります。

なんか、主観的な確率が関係していそうですよね。

ウチダのアイコン画像ウチダ
最後に、「ベイズの定理をもっと詳しく知りたい」という方向けに、僕が大学生のときに読んだオススメ書籍をご紹介します!

この本では、とても平易な言葉を使い、漫画のように登場人物がおしゃべりをしながら解説しています。

中高生でも十分に読める文体でありながら本質をよく押さえていて、とてもいい学びになりますよ!

天気予報の例もしっかり解説されているので、興味のある方はぜひ読んでみて下さい^^

「確率」全 12 記事をまとめました。こちらから次の記事をCHECK!!

あわせて読みたい
確率の求め方とは?【高校数学Aの解説記事総まとめ12選】
確率の求め方とは?【高校数学Aの解説記事総まとめ12選】「確率」の総まとめ記事です。確率とは何か、その基本的な求め方に触れた後、確率の解説記事全12個をまとめています。「確率をしっかりマスターしたい」「確率を自分のものにしたい」方は必見です!!

以上で終わりです。

【小中高生向け】オンライン家庭教師とは?(オススメ5選をご紹介)
【大学生向け】専門書は高いのに売れない?そんなことないです(専門書買取おすすめ4選)

コメント

コメントする

目次
閉じる