ベイズの定理のp(X|Y)とp(Y|X)

作者: Haralambos Marmanis,Dmitry Babenko,伊東直子,真鍋加奈子,堀内孝彦
出版社/メーカー: みかん書院
発売日: 2012/10/31
メディア: 大型本
購入: 3人クリック: 39回
この商品を含むブログ (3件) を見る

ある文書作成のため，調べ物をしていました．
取り組んでいる課題で，すべきなのは，クラスタリングではなく分類になるはずです．clusteringではなくclassificationです．多数の対象に対し，“分け方”を決めながら同時に分けていくのがクラスタリングなのに対し，「ボケ」「ツッコミ」「マジギレ」などの“分け方”を設けておき，各対象がどこに属するかを判定するのが分類です．
『インテリジェントウェブアルゴリズム』は，クラスタリングと分類との違いだけでなく，それぞれの具体的なアルゴリズムや利用例も示されていて，ああ確かそうだったそうだったと，復習することができました．
分類の章（5章）に入って，分類器だの決定木だの，ナイーブベイズだのと，言葉を拾いながら読んでいくと，有名なベイズの定理の数式を目にしました．

分類器が計算するのは、観測されたInstance YがConcept Xに属する確率である。これは事後確率（posterior probability）とも呼ばれ、p(X|Y)で表す。この確率は次の式で求められる（ベイズの定理と呼ばれる）。
$p(X|Y)=\frac{p(X|Y)p(X)}{p(Y)}$
これまでは、はっきりとした数式の表現を意図的に避けてきた。しかし、この数式は見かけはシンプルだが非常に説得力があり、ナイーブベイズアルゴリズムを使った実装から、ガウス過程やベイジアンビリーフネットワークに基づいた実装まで、数多くの分類器の基盤でもある(略)。もし公式を1つ覚えるなら、この式をしっかりと身につけよう。
(p.184)

文中のこの「公式」は何十回と見ましたが，原文ママです．誤記ですね．これだと両辺をp(X|Y)で割ることができてしまいます．右辺のp(X|Y)をp(Y|X)に置き換え，

$p(X|Y)=\frac{p(Y|X)p(X)}{p(Y)}$

と書かないといけません．
この式を得るには，条件付き確率の定義をもとに，p(X∩Y)=p(X|Y)p(Y)とp(Y∩X)=p(Y|X)p(X)を使います．
ただ，この式導出では，p(X|Y)とp(Y|X)が同等のように見えてきます．ですがベイズの定理のもとでは，それらは異なる意味を持ちます．p(Y|X)は引用にもあるとおり事後確率（posterior probability）です．引用のすぐ上に，本文では箇条書きがなされていまして，それによるとp(Y|X)は尤度（likelihood）と呼ばれます．
事後というなら事前はあるのかというと，あって，p(X)が事前確率（prior probability）です．またp(Y)は証拠（evidence）となります．これらの式と用語の対応づけは，wikipedia:単純ベイズ分類器の記述とも合致しています．
といったところで，文書作成に戻りますか…．

昔書いたこと：

ミスプリントが教育効果を劇的に向上させる?

わさっきhb

大学（教育研究）とか，親馬鹿とか，和歌山とか，とか，とか．

ベイズの定理のp(X|Y)とp(Y|X)