基于机器学习的垃圾邮件过滤技术.doc

资源描述

《基于机器学习的垃圾邮件过滤技术.doc》由会员分享，可在线阅读，更多相关《基于机器学习的垃圾邮件过滤技术.doc（3页珍藏版）》请在三一文库上搜索。

1、基金项目：成都理工大学青年基金（2 0 0 8 Q J 2 8 ）基于机器学习的垃圾邮件过滤技术王忠桃彭鑫成都理工大学网络教育学院 610059引言随着计算机技术和网络的快速发展，电子邮件得到了广泛的应用，已经成为人们日常交流、沟通的主要手段和企业运转不可或缺的重要组成部分，极大地方便了人们的生活、学习和工作。一些个人、团体或公司为了其商业利益或政治目的等，在未经其他邮件用户同意的情况下，发送大量包含商业广告或各种不良信息的电子邮件，从而严重影响了用户对电子邮件的正常使用。目前许多学者对垃圾邮件过滤做了大量的研究。1 、垃圾邮件过滤1 . 1 垃圾邮件过滤步骤每封

2、电子邮件都包含两部分，分别为邮件头和邮件体。邮件头是邮件的一些基本信息如发件人、收件人和主题等；邮件体就是指邮件具体发送的内容信息。在对邮件进行过滤之前需要对邮件进行处理，图 1 为邮件过滤的主要步骤。 a ) 首先提取邮件体中的内容，包括短语和句子。b)再去掉那些无关紧要的词，如数词（ 1 、 2 、一）、量词（个、斤）等。c)最后将剩下的有用的词转换为分类算法可以识别的表示形式。垃圾邮件给人们的生活带来了极大的危害，垃圾邮件过滤技术中的应用进行了全面分析，图 1 邮件过滤的主要步骤以上步骤主要是对邮件发送的正文内容进行处理并分类，对于邮件头的处理，过滤方法不同采用的

3、方法也不同。当然也不是所有的过滤方法都需要对邮件内容进行预处理，也有的邮件过滤方法不需要对邮件内容预处理。摘要为了制止垃圾邮件的进一步扩散，研究者们提出大量的检测算法。本文首先分析了垃圾邮件过滤的一般步骤，再对机器学习算法在最后对邮件过滤技术研究方向进行展望。关键词垃圾邮件；过滤；机器学习算法为了能够评价垃圾邮件过滤算法的优劣，需要一些通用的邮件语料库，所做的研究都在这些语料库上进行实验，其结果才具有可比性。但目前大部分邮件语料库都是国外的，而国内的通用语料库确很少。表 1 为部分公共邮件语料集表 1 公共语料集化的环境。 2 . 5 决策树决策树(Decision Tree

4、)方法的实质是从训练集中学习得到以决策树的形式表示的分类规则。分类时将待分类的文本按照属性值自树根向下逐步比较判断，到叶子结点时，就可以确定文本所属类别。著名的决策树算法有 ID3、c4.5 等。2 . 6 B o o s t i n g 方法B o o s t i n g 方法通过对已有的分类器进行加权求和得到最终的分类器。B o o s t i n g 算法具有较高的正确率，不需要先验知识，只需要选择合适的迭代次数。T h i e s s o n 等人将该算法引入到垃圾邮件过滤，具有很高的性能。3 、结论目前对垃圾邮件过滤技术的研究取得了一定程度的进展，垃圾邮件在一定程度上受到

5、遏制，但垃圾邮件制造者采用更加隐蔽的方式来传播。如垃圾邮件内容隐藏在图像中；垃圾邮件中的超链接、附件等非文本信息，这些新的特点给垃圾邮件过滤提出了更高的要求。2、垃圾邮件分类方法目前基于机器学习的垃圾邮件过滤方法正成为当前互联网应用领域的研究热点之一。在垃圾邮件检测中用到的机器学习处理方法大致有贝叶斯、支持向量机、粗糙集、人工神经网络、决策树和 B o o t h 方法等。2 . 1 贝叶斯算法B a y e s 算法的理论基础是 T h a m sBayes 提出的一种基于概率统计的推理理论，它在文本分类中使用非常广泛，该算法认为：在垃圾邮件中，一些词出现的频率较高，通过运用

6、概率统计的知识，来判别属于垃圾邮件的概率。 Sahami 等人最早把贝叶斯算法应用到邮件过滤中。经过众多研究者的实验结果表明，该方法过滤准确率较高，目前大多数垃圾邮件过滤软件都采用了该技术。2 . 2 支持向量机1 . 3 性能评价标准用来评价邮件过滤效果的指标有正确率 P （ P r e c i s i o n ）、召回率 R（ R e c a l l ）、精确率 A c c（ A c c u r a c y ）和错误率 E r r（ E r r o r ），如果一个邮件分类结果如表 2 所示，TP 为垃圾邮件判定为垃圾邮件的数，F P 为垃圾邮件判定为正常邮件数，FL

7、垃圾邮件判定为正常邮件数，TL 正常邮件判定为正常邮件数。则评价的指标由以下公式计算：P = T P / （T P + F P ）R = T P / （T P + F L ）支持向量机（S u p p o r tV e c t o rM a c h i n e ，简称 S V M ）是基于统计学习理论和结构风险最小化原则，通过构造最优线性分类面来指导分类。SVM 在解决小样本学习、非线性及高维模式识别问题中表现较好。C h i h -C h i n L a i 对支持向量机，k N N ，Bayes 方法做了比较，支持向量机表现出来的邮件分类效果最好。2 . 3 粗糙集Roughset

8、理论是由 Pawlak 提出的一种研究不完整、不确定知识和数据的表达、学习、归纳的理论方法。 Rough Set 的研究对象是一个多值属性集合描述的向量集合。它通过集合的等价关系操作来确定属于给定类的最大对象集合和可能属于给定类的最小对象集合，从而指导分类决策。Z h a o 等将粗糙集引入到垃圾邮件过滤中，将邮件分为正常邮件、垃圾邮件和可疑邮件，也取得了较好的效果。2 . 4 人工神经网络所谓人工神经网络就是采用误差反向传播的训练算法。BP 算法的主要思想是把样本数据，即包含期望输出结果的输入数据，输入到网络中，计算相应的输出，然后根据期望的输出来进行网络中各个权

9、值的修正。张鹏鹏等人将神经网络应用在垃圾邮件不断变A c c = （ T P（T P + F P + F L + T L ）E r r = 1 - A c c+TL） /从精确率和错误率两个公式中可以看出，误判和错判的权重相同，但是对于用户来说，合法邮件被误判为垃圾邮件过滤掉带来的损失比垃圾邮件错判为合法邮件的损失大的多， Androutsopoulos 等人提出了一些其它的指标。他们把决策损失引入到评价体系中，把一个合法邮件误判当作个垃圾邮件错判，计算加权正确率 WAcc 和加权错误率 W E r r ，公式如下：W A c c = （T P + T L ）/

10、（ T L+ F P + F L + T P ）W E r r = 1 - W A c c表 2 邮件分类结果参考文献1张鹏鹏,张自力.一种基于神经网络的垃圾邮件过滤方法.计算机科学.2008,35(5):190-193file:/D|/我的资料/Desktop/新建文本文档.txtAppliance Error (configuration_error)Your request could not be processed because of a configuration error: Could not connect to LDAP server.For assistance, contact your network support team.file:/D|/我的资料/Desktop/新建文本文档.txt2012-07-12 20:42:52

展开阅读全文