机器学习实验报告-朴素贝叶斯学习和分类文本.doc

上传人:李医生 文档编号:5721019 上传时间:2020-07-24 格式:DOC 页数:6 大小:106.50KB
返回 下载 相关 举报
机器学习实验报告-朴素贝叶斯学习和分类文本.doc_第1页
第1页 / 共6页
机器学习实验报告-朴素贝叶斯学习和分类文本.doc_第2页
第2页 / 共6页
机器学习实验报告-朴素贝叶斯学习和分类文本.doc_第3页
第3页 / 共6页
机器学习实验报告-朴素贝叶斯学习和分类文本.doc_第4页
第4页 / 共6页
机器学习实验报告-朴素贝叶斯学习和分类文本.doc_第5页
第5页 / 共6页
点击查看更多>>
资源描述

《机器学习实验报告-朴素贝叶斯学习和分类文本.doc》由会员分享,可在线阅读,更多相关《机器学习实验报告-朴素贝叶斯学习和分类文本.doc(6页珍藏版)》请在三一文库上搜索。

1、机器学习实验报告朴素贝叶斯学习和分类文本(2015年度秋季学期)一、 实验内容问题:通过朴素贝叶斯学习和分类文本目标:可以通过训练好的贝叶斯分类器对文本正确分类二、 实验设计实验原理与设计:在分类(classification)问题中,常常需要把一个事物分到某个类别。一个事物具有很多属性,把它的众多属性看做一个向量,即x=(x1,x2,x3,xn),用x这个向量来代表这个事物。类别也是有很多种,用集合Y=y1,y2,ym表示。如果x属于y1类别,就可以给x打上y1标签,意思是说x属于y1类别。这就是所谓的分类(Classification)。x的集合记为X,称为属性集。一般X和Y的关系是不确定

2、的,你只能在某种程度上说x有多大可能性属于类y1,比如说x有80%的可能性属于类y1,这时可以把X和Y看做是随机变量,P(Y|X)称为Y的后验概率(posterior probability),与之相对的,P(Y)称为Y的先验概率(prior probability)1。在训练阶段,我们要根据从训练数据中收集的信息,对X和Y的每一种组合学习后验概率P(Y|X)。分类时,来了一个实例x,在刚才训练得到的一堆后验概率中找出所有的P(Y|x), 其中最大的那个y,即为x所属分类。根据贝叶斯公式,后验概率为 在比较不同Y值的后验概率时,分母P(X)总是常数,因此可以忽略。先验概率P(Y)可以通过计算训

3、练集中属于每一个类的训练样本所占的比例容易地估计。在文本分类中,假设我们有一个文档dX,X是文档向量空间(document space),和一个固定的类集合C=c1,c2,cj,类别又称为标签。显然,文档向量空间是一个高维度空间。我们把一堆打了标签的文档集合作为训练样本,XC。例如:=Beijing joins the World Trade Organization, China对于这个只有一句话的文档,我们把它归类到 China,即打上china标签。我们期望用某种训练算法,训练出一个函数,能够将文档映射到某一个类别: :XC这种类型的学习方法叫做有监督学习,因为事先有一个监督者(我们事先

4、给出了一堆打好标签的文档)像个老师一样监督着整个学习过程。朴素贝叶斯分类器是一种有监督学习。实验主要代码:1、由于中文本身是没有自然分割符(如空格之类符号),所以要获得中文文本的特征变量向量首先需要对文本进行中文分词。这里采用极易中文分词组件2、先验概率计算,N表示训练文本集总数量。3、条件概率计算,为在条件A下发生的条件事件B发生的条件概率。x给定的文本属性,c给定的分类4、对给定的文本进行分类三、测试数据训练集文本:数据样例选用Sogou实验室的文本分类数据的mini版本类别及标号测试数据文本:通过观察可知,该文本预期为IT类文章三、 实验结果运行结果如下图根据数据集的分类编号可知,该测试文本属于IT,与预期相符五、遇到的困难及解决方法、心得体会通过此次实验,让我对朴素贝叶斯有了更深刻的理解,原本只是了解基本的先验概率公式。实验过程中学习了中文的分词以及停用词的使用,使分类更加的准确,也认识到了贝叶斯广阔的实用空间,对于机器学习这门课的兴趣也更加浓厚。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 科普知识


经营许可证编号:宁ICP备18001539号-1