朴素贝叶斯是基于贝叶斯定理和条件独立性假设的分类方法,属于生成模型(工业界多用于垃圾邮件分类、信用评估以及钓鱼网站监测等场景),核心思想就是学习输入输出的联合概率模型P(X,Y),然后使用条件概率公式求得P(Y | X )-表示在X发生的条件下,Y事件发生的概率。Arthur先带大家回顾一下大学数学概率论的基础知识,便于大家能够快速理解。
1)概率论基础必备知识
其中条件概率公式如下所示:
P(X,Y)表示的是Y和X同时发生的概率;
如果X和Y是相互独立事件的话P(X,Y)=P(X)*P(Y)如果X和Y不相互独立那么P(X,Y) = P(Y | X )*P(X)= P(X | Y )*P(Y)。
两遍同时除以一个P(X),就得到了我我们的主角贝叶斯公式:
2)朴素贝叶斯的学习和分类
我知道了贝叶斯公式之后,怎么用其原理来做分类呢,跟随Arthur按照下面的思路一起推演:
假设:训练集 T={(x1,y1),…,(xn,yn)},通过P(Y = k), k = 1,2,…,k 算出 P(Y)。