基于机器学习的垃圾邮件过滤技术.doc

上传人:啊飒飒 文档编号:10967711 上传时间:2021-06-14 格式:DOC 页数:3 大小:462.06KB
返回 下载 相关 举报
基于机器学习的垃圾邮件过滤技术.doc_第1页
第1页 / 共3页
基于机器学习的垃圾邮件过滤技术.doc_第2页
第2页 / 共3页
基于机器学习的垃圾邮件过滤技术.doc_第3页
第3页 / 共3页
亲,该文档总共3页,全部预览完了,如果喜欢就下载吧!
资源描述

《基于机器学习的垃圾邮件过滤技术.doc》由会员分享,可在线阅读,更多相关《基于机器学习的垃圾邮件过滤技术.doc(3页珍藏版)》请在三一文库上搜索。

1、基金项目:成都理工大学青年基金(2 0 0 8 Q J 2 8 )基于机器学习的垃圾邮件过滤技术王忠桃 彭鑫 成都理工大学网络教育学院 610059引言随着计算机技术和网络的快速发 展,电子邮件得到了广泛的应用,已经 成为人们日常交流、沟通的主要手段和 企业运转不可或缺的重要组成部分,极 大地方便了人们的生活、学习和工作。 一些个人、团体或公司为了其商业利益 或政治目的等,在未经其他邮件用户同 意的情况下,发送大量包含商业广告或 各种不良信息的电子邮件,从而严重影 响了用户对电子邮件的正常使用。目前 许多学者对垃圾邮件过滤做了大量的研 究 。1 、垃圾邮件过滤1 . 1 垃圾邮件过滤步骤 每封

2、电子邮件都包含两部分,分别为邮件头和邮件体。邮件头是邮件的一些基本信息如发件人、收件人和主题 等;邮件体就是指邮件具体发送的内 容信息。在对邮件进行过滤之前需要对邮件进行处理,图 1 为邮件过滤的主要步骤。 a ) 首先提取邮件体中的内容,包 括短语和句子。b)再去掉那些无关紧要的词,如数词 ( 1 、 2 、 一 )、 量词 (个、 斤) 等。c)最后将剩下的有用的词转换为分 类算法可以识别的表示形式。垃圾邮件给人们的生活带来了极大的危害,垃圾邮件过滤技术中的应用进行了全面分析,图 1 邮件过滤的主要步骤以上步骤主要是对邮件发送的正文内容进行处理并分类,对于邮件头的 处理,过滤方法不同采用的

3、方法也不同。当然也不是所有的过滤方法都需要对邮件内容进行预处理,也有的邮 件过滤方法不需要对邮件内容预处理。摘 要为了制止垃圾邮件的进一步扩散,研究者们 提出大量的检测算法。本文首先分析了垃圾 邮件过滤的一般步骤,再对机器学习算法在最后对邮件过滤技术研究方向进行展望。关键词垃圾邮件;过滤;机器学习算法为了能够评价垃圾邮件过滤算法的优劣,需要一些通用的邮件语料库, 所做的研究都在这些语料库上进行实 验,其结果才具有可比性。但目前大 部分邮件语料库都是国外的,而国内 的通用语料库确很少。表 1 为部分公 共邮件语料集表 1 公共语料集化的环境。 2 . 5 决策树决策树(Decision Tree

4、)方法的实质 是从训练集中学习得到以决策树的形式表示的分类规则。分类时将待分类的文本按照属性值自树根向下逐步比较判 断,到叶子结点时,就可以确定文本所 属类别。著名的决策树算法有 ID3、c4.5 等。2 . 6 B o o s t i n g 方法B o o s t i n g 方法通过对已有的分类 器进行加权求和得到最终的分类器。B o o s t i n g 算法具有较高的正确率,不需要先验知识,只需要选择合适的迭 代次数。T h i e s s o n 等人将该算法引入到垃圾邮件过滤,具有很高的性能。3 、结论目前对垃圾邮件过滤技术的研究取 得了一定程度的进展,垃圾邮件在一定程度上受到

5、遏制,但垃圾邮件制造 者采用更加隐蔽的方式来传播。如垃圾邮件内容隐藏在图像中;垃圾邮件中的 超链接、附件等非文本信息,这些新的特点给垃圾邮件过滤提出了更高的要 求。2、垃圾邮件分类方法目前基于机器学习的垃圾邮件过滤 方法正成为当前互联网应用领域的研究热点之一。在垃圾邮件检测中用到的 机器学习处理方法大致有贝叶斯、支持向量机、粗糙集、人工神经网络、 决策树和 B o o t h 方法等。2 . 1 贝叶斯算法B a y e s 算法的理论基础是 T h a m sBayes 提出的一种基于概率统计的推理 理论,它在文本分类中使用非常广泛,该算法认为:在垃圾邮件中,一些词出 现的频率较高,通过运用

6、概率统计的知识, 来判别属于垃圾邮件的概率。 Sahami 等人最早把贝叶斯算法应用到 邮件过滤中。经过众多研究者的实验结 果表明,该方法过滤准确率较高,目前 大多数垃圾邮件过滤软件都采用了该技 术。2 . 2 支持向量机1 . 3 性能评价标准用来评价邮件过滤效果的指标有正 确率 P ( P r e c i s i o n )、 召回率 R( R e c a l l )、 精确率 A c c( A c c u r a c y ) 和错误率 E r r( E r r o r ), 如果一个邮件分类结果 如表 2 所示,TP 为垃圾邮件判定为垃圾邮件的数,F P 为垃圾邮件判定为正常邮件数,FL

7、 垃圾邮件判定为正常邮 件数,TL 正常邮件判定为正常邮件数。则评价的指标由以下公式计算:P = T P / (T P + F P )R = T P / (T P + F L )支持向量机(S u p p o r tV e c t o rM a c h i n e ,简称 S V M )是基于统计学习理论和结构风险最小化原则,通 过构造最优线性分类面来指导分类。SVM 在解决小样本学习、非线性及高维模式识别问题中表现较好。C h i h -C h i n L a i 对支持向量机,k N N ,Bayes 方法做了比较,支持向量机表现 出来的邮件分类效果最好。2 . 3 粗糙集Roughset

8、 理论是由 Pawlak 提出的 一种研究不完整、不确定知识和数据的表达、 学习、 归纳的理论方法。 Rough Set 的研究对象是一个多值属性 集合描述的向量集合。它通过集合的 等价关系操作来确定属于给定类的最大 对象集合和可能属于给定类的最小对象 集合,从而指导分类决策。Z h a o 等 将粗糙集引入到垃圾邮件过滤中,将 邮件分为正常邮件、垃圾邮件和可疑 邮件,也取得了较好的效果。2 . 4 人工神经网络 所谓人工神经网络就是采用误差反向传播的训练算法。BP 算法的主要思 想是把样本数据,即包含期望输出结果的输入数据,输入到网络中,计算 相应的输出,然后根据期望的输出来进行网络中各个权

9、值的修正。张鹏鹏 等人将神经网络应用在垃圾邮件不断变A c c = ( T P(T P + F P + F L + T L )E r r = 1 - A c c+TL) /从精确率和错误率两个公式中可以看出,误判和错判的权重相同,但是对 于用户来说,合法邮件被误判为垃圾邮件过滤掉带来的损失比垃圾邮件错判为合 法 邮 件 的 损 失 大 的 多 , Androutsopoulos 等人提出了一些其它 的指标。他们把决策损失引入到评价体 系中,把一个合法邮件误判当作个垃 圾邮件错判,计算加权正确率 WAcc 和 加权错误率 W E r r ,公式如下:W A c c = (T P + T L )/

10、 ( T L+ F P + F L + T P )W E r r = 1 - W A c c表 2 邮件分类结果参考文献1张鹏鹏,张自力.一种基于神经网络 的垃圾邮件过滤方法.计算机科学.2008,35(5):190-193file:/D|/我的资料/Desktop/新建文本文档.txtAppliance Error (configuration_error)Your request could not be processed because of a configuration error: Could not connect to LDAP server.For assistance, contact your network support team.file:/D|/我的资料/Desktop/新建文本文档.txt2012-07-12 20:42:52

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 科普知识


经营许可证编号:宁ICP备18001539号-1