1500字范文,内容丰富有趣,写作好帮手!
1500字范文 > sklearn朴素贝叶斯分类器_机器学习06——朴素贝叶斯

sklearn朴素贝叶斯分类器_机器学习06——朴素贝叶斯

时间:2020-09-25 20:11:37

相关推荐

sklearn朴素贝叶斯分类器_机器学习06——朴素贝叶斯

一、概率公式:条件概率公式:事件A发生的条件下,事件B发生的概率=事件A和事件B同时发生的概率/事件A发生的概率P(AB)=P(A)*P(B|A) 事件A和事件B同时发生的概率=事件A发生的概率*事件A发生的条件下,事件B发生的概率全概率公式:如果事件A1 A2 A3构成了必然事件Ω,且3个A事件相互独立,并且A1 A2 A3都是有可能发生的。那么对于该必然事件Ω中的事件B如图:事件B发生的概率 =求和: 事件A发生的概率*事件A发生的条件下事件B发生的概率(如图:椭圆B等于它被事件A划开的3部分的和)全概率公式可以理解为拼接部分求整体,而贝叶斯公式理解为拆分整体求某一部分。如下:贝叶斯公式:(逆全概率公式)以A1为例,P(A1|B)表示事件B发生条件下A1发生的概率,那么需要知道事件B发生的概率作为分母(因为事件B不发生,他们就不会有同时发生),事件A1和B同时发生的概率作为分子。P(B)带入全概率公式P(A1B)带入条件概率公式的变形得到贝叶斯公式二、朴素贝叶斯定义:在机器学习中,朴素贝叶斯分类器是一系列以假设特征之间强独立(朴素)下运用贝叶斯定理为基 础的简单概率分类器。 朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法 。最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型(Naive Bayesian Model,NBM)高度可扩展的,求解过程只需花费线性时间 应用:朴素贝叶斯在文本分类(text classification)的领域的应用多,无论是sklearn还是 Spark Mllib中,都只定制化地实现了在文本分类领域的算法。案例理解:根据肤色(黑,黄),头发(卷,直)预测人是属于亚洲还是非洲地区。朴素:假设特征间是独立的(忽略肤色和发型的联系)。从而变成了“低配版的贝叶斯模型”,称 为“朴素贝叶斯”。优点是可以减少需要估计的参数的个数;缺点是会牺牲一定的分类准确率。 2*2*2贝叶斯模型的参数数量是指数型的;而朴素贝叶斯的参数数量是线性的。2*(2+2)朴素贝叶斯计算公式:拉普拉斯平滑:由于朴素贝叶斯公式中有一个缺陷:当某一个参数的概率值为0时,整个计算结果会为0,从而影响到预测结果。以上图为例:在分子上加一个 λ,分母用标签数乘以 λ,这是为了保证‘亚洲’概率+‘非洲’概率的计算结果是1在随机变量各个取值的频数上赋予一个正数,当值 ,称为拉普拉斯平滑。三、特征工程—词频统计(一)TF (Term Frequency 词频)TF 词频,表示一个单词在文本中出现的频率,一般认为出现频率越高,该单词越重要。TF一般会归一化处理用以防止它偏向更长的文件:TF= 词频 / 文本总的单词数(二)TF- IDF (Inverse Document Frequency 逆向词频)

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。