MENU
カテゴリー
おすすめプログラミングスクール紹介中! 一覧はこちらから

ベイズの定理とは?【例題2選を使ってわかりやすく解説します】

こんにちは、ウチダです。

いつもお読みいただきましてありがとうございます。

さて、ベイズの定理とは以下の式が成り立つことです。

【ベイズの定理】
互いに排反な事象 $A_1$,$A_2$,…,$A_n$ の中の事象 $A_k$ が原因で事象 $B$ が起こるとする。このとき、
\begin{align}P_B(A_k)&=\frac{P(A_k)P_{A_k}(B)}{P(B)}\\&=\frac{P(A_k)P_{A_k}(B)}{P(A_1)P_{A_1}(B)+P(A_2)P_{A_2}(B)+…+P(A_n)P_{A_n}(B)}\end{align}

※この数式は横にスクロールできます。(スマホでご覧の方対象。)
が成り立つ。

この式を使うことで、「原因の確率(事後確率)」と呼ばれる、時間に逆行した条件付き確率を求めることができます。

数学太郎
ん?それだけじゃよくわからないな。ベイズの定理はいったいどうやって導くんだ?
数学花子
ベイズの定理っていう名前が付くぐらいだから、きっと重要なんだよね。例題を通してわかりやすく解説してほしいわ。

今、そう感じた方は多いと思います。

よって本記事では、「ベイズの定理とは何か」から、ベイズの定理を用いる例題 $2$ 選とともに、実生活におけるベイズの定理の応用例まで

  • 東北大学理学部数学科卒業
  • 教員採用試験に1発合格 → 高校教諭経験アリ
  • (専門は確率論でした。)

の僕がわかりやすく解説します。

スポンサーリンク
目次

ベイズの定理とは?【確率を「更新」していくことができます。】

最も重要なポイントを先に話すと、ベイズの定理の真骨頂は

確率を「更新」することができる

ことにあります。

ウチダ
確率をどんどん更新していって、精度をより高められることから、“機械学習(AI)”にも幅広く応用されています。
数学太郎
へ~。だから「ベイズの定理」っていう名前が付くぐらい重要な式なんだ~。でも、そもそも「確率の更新」って何?

ということで、

  • ベイズの定理はなぜ成り立つのか
  • 確率の更新とは一体何か

以上 $2$ 点について、さっそくですが実際に問題を解きながら考えていきましょう。

病気である確率の問題(医学)

問題. ある病気 $X$ の罹患率は $0.1$ %である。ここで、太郎さんは以下の確率分布を持つ検査を受ける。太郎さんが陽性だと診断されたとき、本当に病気 $X$ に罹患している確率を求めなさい。
【ベイズの定理】病気である確率の問題

さあ、まずは問題文で問われている確率が一体何かを考えると…

↓↓↓

$P(罹|陽)$ という条件付き確率ですね!

陽性だという結果を条件づけているため、これは原因の確率(事後確率)になります。

数学太郎
確かに時間に逆行しているね~。ってあれ…?$P(陽|罹)$ だったら、図より $95$ % ってすぐにわかるんだけどな~。

はい、なのでここでベイズの定理の登場です!

導出もかねて、条件付き確率 $P(罹|陽)$ を求める式を導いていきましょう。

【解答(ベイズの定理の導出部分)】

条件付き確率の公式より、$\displaystyle P(罹|陽)=\frac{P(罹\cap 陽)}{P(陽)}$

よって、両辺に $P(陽)$ をかけると、$$P(罹\cap 陽)=P(陽)P(罹|陽) …①$$

また、$P(陽|罹)$ についても同様に、$\displaystyle P(陽|罹)=\frac{P(陽\cap 罹)}{P(罹)}$

よって、両辺に $P(罹)$ をかけると、$$P(陽\cap 罹)=P(罹)P(陽|罹) …②$$

①、②より、$P(罹\cap 陽)=P(陽\cap 罹)$ であるから、$P(陽)P(罹|陽)=P(罹)P(陽|罹)$

したがって、$$P(罹|陽)=\frac{P(陽|罹)}{P(陽)}P(罹)$$

(導出部分終了)

冒頭で紹介したベイズの定理と照らし合わせると

  • 事象 $A_1$ … 本当に病気に罹患しているという事象(つまり事象 $罹$ )
  • 事象 $A_2$ … 病気に罹患していないという事象
  • 事象 $B$ … 検査の反応が陽性であるという事象(つまり事象 $陽$ )

になっています。

つまり、ベイズの定理の導出には、条件付き確率の公式や乗法定理しか使っていないんですね!

ウチダ
「条件付き確率や乗法定理がよくわかっていない…」という方は、先に「条件付き確率の公式とは?【不良品の問題など4選もわかりやすく解説します】」の記事から読み進めることをオススメします。

さて、ベイズの定理が条件付き確率の公式(乗法定理)と本質的には同値であることがわかりました。

それでは、この問題の仕上げです。

【解答再開】

ベイズの定理より、$\displaystyle P(罹|陽)=\frac{P(陽|罹)}{P(陽)}P(罹)$ が成り立つ。

ここで、仮定より、$P(陽|罹)=0.95$,$P(罹)=0.001$ であることはわかっている。

また、乗法定理を使うと、

\begin{align}P(陽)&=P(陽\cap 罹)+P(陽\cap 非)\\&=P(罹)P(陽|罹)+P(非)P(陽|非)\\&=0.001×0.95+0.999×0.10\\&=0.10085\end{align}

※この部分は、冒頭で紹介したベイズの定理の $1$ 行目から $2$ 行目の式変形に対応している。

したがって、求める確率は

\begin{align}P(罹|陽)=\frac{0.95×0.001}{0.10085}&=0.0094199…\\&≒0.01\end{align}

となり、約 $1$ %である。

(解答終了)

陽性だと診断されても、実際に病気 $X$ に罹患している確率は約 $1$ % であり、これは直感よりかなり低い確率だと思います。

ウチダ
再検査や精密検査の重要性がわかりますね~。

確率の更新(ベイズ更新)とは?

今、問題自体は解くことができました。

ではここから、確率の更新について考えていきましょう。

【ベイズの定理】確率の更新(ベイズ更新)とは?

検査前の太郎さんの罹患率は、$0.1$ % でしたが、陽性だと診断されたので $1$ % に確率が上がりました。

このとき、$P(陽|罹)=95$ % がもとになり、この確率更新が行われました。

これらの確率のことをそれぞれ

  • $0.1$ % → 事前確率(情報が何もない。)
  • $95$ % → 尤度(「ゆうど」と読み、もっともらしさを表す。)
  • $1$ % → 事後確率(情報が与えられた。)

という専門用語で呼ぶこともあります。

ウチダ
尤度によって事前確率から事後確率へ確率をアップデートしていくので、尤度がどのぐらい信頼できる確率なのかは非常に重要です。

さて、これでなんとなくベイズの定理の概要は掴めたでしょうか。

今、病気の例では、新しい情報によって確率をアップデートしました。

しかし、ベイズの定理を使える場面は、実はもう $1$ つあるのです!

ということで、それは次の章で考えていきましょう。

スポンサーリンク

ベイズの定理を迷惑メールフィルターに応用しよう(機械学習)

さて、もう $1$ つの応用例としてよく挙げられるのが「迷惑メールフィルター」ですね。

これも例題を解きながら考えていくことにしましょう^^

問題. 調査によると、迷惑メールが『登録』という単語を含んでいる確率は $60$ %、一般メールが『登録』という単語を含んでいる確率は $15$ %であるらしい。このとき、無作為に選んだメールが『登録』という単語を含んでいた場合、それが迷惑メールである確率を求めなさい。
※この調査は実際には行われておらず、確率も適当に設定したものです。

【解説】

まず事象を

  • 事象 $A$ … 迷惑メールである
  • 事象 $B$ … 『登録』という単語を含んでいる

と定義すると、今回求める確率は $P_B(A)$ となります。

よって、ベイズの定理より、$\displaystyle P_B(A)=\frac{P_A(B)}{P(B)}P(A)$ なので、あとは事前確率や尤度を求めていけばOKとなります。

数学花子
$P_A(B)$ は $60$ %とすぐにわかるわね。…あれ?$P(A)$ の確率、つまり迷惑メールである確率って、今回設定されてなくない?
ウチダ
では、体感的に半分ぐらいは迷惑メールだと思うので、$P(A)=50$ % として話を進めますか!

今、確率を主観的に $50$ % と決めてしまいました。

このように、「何も情報がないとき、全ての事象の発生確率が等しい」と仮定して考えることを”理由不十分の原則“と呼び、ふつうの統計学ではあり得ません。

つまり、まとめると…

  • 一般的な統計学 … 頻度主義と呼ばれ、客観的なデータに基づき判断する。
  • ベイズ統計学 … 理由不十分の原則に基づき、データがないときは主観的に判断してもOK!

なんか、同じ統計学でも大分違うんだな~と感じますよね。

さて、話を問題に戻しましょう。

$P(A)=50$ % と定めたので、あとは $P(B)$ を求めていきます。

病気の検査問題と同様に、

\begin{align}P(B)&=P(B\cap A)+P(B\cap \overline{A})\\&=P(A)P_A(B)+P(\overline{A})P_{\overline{A}}(B)\\&=0.50×0.60+(1-0.50)×0.15\\&=0.375\end{align}

したがって、求める確率は、$\displaystyle P_B(A)=\frac{0.60×0.50}{0.375}=0.8$ なので、$80$ %となります。

(解説終了)

ここでも、

  • $50$ % → 事前確率(情報がなさ過ぎたので、主観的に決めた。)
  • $60$ % → 尤度(迷惑メールが『登録』という単語を含む確率)
  • $80$ % → 事後確率(以上を踏まえ、確率を更新した。)

という流れになってます。

主観的な確率を使ってもいい」というのは、統計学っぽくなくて驚きですね!

ベイズの定理をもっと知りたいと思ったら…?

本記事のまとめをします。

  • ベイズの定理は、「条件付き確率の公式(乗法定理)」と本質的には同じ式。
  • ベイズ統計学では、新しいデータや過去の経験から、確率を更新していくことが重要。
    • 新しいデータの例…病気の検査制度の問題(医学)
    • 過去の経験の例…迷惑メールフィルター(機械学習)
  • 過去の経験は、かなり主観的なものでもOK!!

ちなみに、他によく挙げられる例は「天気予報」などがあります。

なんか、主観的な確率が関係していそうですよね。

ウチダ
最後に、「ベイズの定理をもっと詳しく知りたい」という方向けに、僕が大学生のときに読んだオススメ書籍をご紹介します!

この本では、とても平易な言葉を使い、漫画のように登場人物がおしゃべりをしながら解説しています。

中高生でも十分に読める文体でありながら本質をよく押さえていて、とてもいい学びになりますよ!

天気予報の例もしっかり解説されているので、興味のある方はぜひ読んでみて下さい^^

「確率」全 12 記事をまとめました。こちらから次の記事をCHECK!!

あわせて読みたい
確率の求め方とは?【高校数学Aの解説記事総まとめ12選】 「確率」の総まとめ記事です。確率とは何か、その基本的な求め方に触れた後、確率の解説記事全12個をまとめています。「確率をしっかりマスターしたい」「確率を自分のものにしたい」方は必見です!!

以上で終わりです。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!
スポンサーリンク

コメントを残す

コメント一覧 (2件)

  • はじめまして。
    ベイズの確率論を知りたいと思いネットで調べて見たのですが、今ひとつよく理解できません(50代会社員・文系です)。
    下のような状況を問題として考えているのですが、これはベイズの確率論と関係があるのでしょうか?また、解答はどうなりますでしょうか?
    ぜひご教示頂ければと思います。

    2つのサイコロがあるとする。
    Aは通常のサイコロ。Bは「6」の代わりに「1」が刻印してある、つまり「1」が2つあるサイコロ。
    私は目を閉じて、実験者がA,Bのどちらかのサイコロを私に渡し、私がサイコロをふる。
    2回そのサイコロを振ったところ、出た目は「1,1」となった。
    もちろんAでもこのようなことはあり得るが、Bである確率の方が高いのか?
    また、3回目を投げて「1,1,1」「1,1,1,1」と続いた場合、持っているサイコロがBである確率は増えていくのか?

    以上よろしくお願いします。

    • 坂口様

      コメントくださりありがとうございます!
      そのサイコロの問題でしたら、直感どおりではありますがもちろんBである確率のほうが高いですね。
      条件付き確率を出してみて、計算してみてください。

      確率は更新しているので、ベイズの確率論と関係があると私は考えます。
      何も結果がなかった時は、そのサイコロがBである確率は50%ですが、1回サイコロを振って「1」という結果が出たのであれば、Bである確率は約67%になるかと思います(すみません、実際に計算したわけではないので、計算はご自身で行ってください)。
      それが2回、3回となるにつれ確率が上がっていくかというのは計算すればわかりますが、おそらく上がっていくでしょう。

      ベイズの定理を使う肝は
      ・確率が更新される
      ・主観的な確率を用いてもよい
      以上2点だと私は理解してます。
      もっと詳しく知りたい場合、記事の最後で紹介している参考文献を読んでみることをおすすめします。

コメントする

CAPTCHA


目次