- 作者: Haralambos Marmanis,Dmitry Babenko,伊東直子,真鍋加奈子,堀内孝彦
- 出版社/メーカー: みかん書院
- 発売日: 2012/10/31
- メディア: 大型本
- 購入: 3人 クリック: 39回
- この商品を含むブログ (3件) を見る
取り組んでいる課題で,すべきなのは,クラスタリングではなく分類になるはずです.clusteringではなくclassificationです.多数の対象に対し,“分け方”を決めながら同時に分けていくのがクラスタリングなのに対し,「ボケ」「ツッコミ」「マジギレ」などの“分け方”を設けておき,各対象がどこに属するかを判定するのが分類です.
『インテリジェントウェブアルゴリズム』は,クラスタリングと分類との違いだけでなく,それぞれの具体的なアルゴリズムや利用例も示されていて,ああ確かそうだったそうだったと,復習することができました.
分類の章(5章)に入って,分類器だの決定木だの,ナイーブベイズだのと,言葉を拾いながら読んでいくと,有名なベイズの定理の数式を目にしました.
分類器が計算するのは、観測されたInstance YがConcept Xに属する確率である。これは事後確率(posterior probability)とも呼ばれ、p(X|Y)で表す。この確率は次の式で求められる(ベイズの定理と呼ばれる)。
これまでは、はっきりとした数式の表現を意図的に避けてきた。しかし、この数式は見かけはシンプルだが非常に説得力があり、ナイーブベイズアルゴリズムを使った実装から、ガウス過程やベイジアンビリーフネットワークに基づいた実装まで、数多くの分類器の基盤でもある(略)。もし公式を1つ覚えるなら、この式をしっかりと身につけよう。
(p.184)
文中のこの「公式」は何十回と見ましたが,原文ママです.誤記ですね.これだと両辺をp(X|Y)で割ることができてしまいます.右辺のp(X|Y)をp(Y|X)に置き換え,
と書かないといけません.この式を得るには,条件付き確率の定義をもとに,p(X∩Y)=p(X|Y)p(Y)とp(Y∩X)=p(Y|X)p(X)を使います.
ただ,この式導出では,p(X|Y)とp(Y|X)が同等のように見えてきます.ですがベイズの定理のもとでは,それらは異なる意味を持ちます.p(Y|X)は引用にもあるとおり事後確率(posterior probability)です.引用のすぐ上に,本文では箇条書きがなされていまして,それによるとp(Y|X)は尤度(likelihood)と呼ばれます.
事後というなら事前はあるのかというと,あって,p(X)が事前確率(prior probability)です.またp(Y)は証拠(evidence)となります.これらの式と用語の対応づけは,wikipedia:単純ベイズ分類器の記述とも合致しています.
といったところで,文書作成に戻りますか….
昔書いたこと: