电子邮件过滤器的设计.doc

上传人:本田雅阁 文档编号:2043917 上传时间:2019-02-08 格式:DOC 页数:46 大小:1,013.02KB
返回 下载 相关 举报
电子邮件过滤器的设计.doc_第1页
第1页 / 共46页
电子邮件过滤器的设计.doc_第2页
第2页 / 共46页
电子邮件过滤器的设计.doc_第3页
第3页 / 共46页
亲,该文档总共46页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《电子邮件过滤器的设计.doc》由会员分享,可在线阅读,更多相关《电子邮件过滤器的设计.doc(46页珍藏版)》请在三一文库上搜索。

1、摘摘 要要 随着网络技术的不断发展和应用技术的不断推广,在日常生活中的各个方面,我们 都离不开网络信息技术,信息技术正以前所未有的速度和范围改变着我们的生活和工作。 但是随之诞生的垃圾邮件也成为互联网领域的一重大难题。因此研究和设计高效率的垃 圾邮件过滤系统有着重要的研究意义。 首先,本文对垃圾邮件的背景及研究意义做了简要概述,并且对国内外的研究现状 与最新过滤技术进行说明。然后对垃圾邮件相关知识的进行研究,阐述了垃圾邮件的发 展状况以及危害,随后研究了电子邮件的工作原理和相关邮件协议。本文是基于内容而 设计的垃圾邮件过滤器,通过对一些邮件过滤技术的优缺点进行分析,最终选出以朴素 贝叶斯算法为

2、理论基础设计了垃圾邮件过滤器。文本分类领域普遍会运用贝叶斯算法, 它具有广泛的应用性,而垃圾邮件过滤本质上是文本分类问题,所以选用贝叶斯算法进 行设计邮件过滤器。其次,通过比较选用更加合理有效的邮件预处理技术(包括邮件内 容提取,邮件解码,中文分词,特征词提取,特征库等),从而更好的设计出垃圾邮件 过滤器。 最后,利用 Java 语言实现了垃圾邮件过滤系统,并且进行了实际应用层面的测试, 实验结果具有可靠性和实用性,在对基于中文的垃圾邮件分类与过滤取得了令人满意的 效果。 关键词关键词:电子邮件;邮件过滤;电子邮件过滤系统;朴素贝叶斯算法 ABSTRACT With the continuou

3、s development of network technology and application technology unceasing promotion, in all aspects of daily life, We cannot leave the network information technology, information technology is changing at an unprecedented speed and scope of our life and work. But with the birth of spam has become a m

4、ajor problem in the field of the Internet. So the research and design efficient spam filtering system has important research significance. First of all, this paper make a brief overview of the background and research significance of spam , and account for domestic and foreign research present situat

5、ion and the latest filtering technology. Then study the knowledge about spam, expound the developing situation of spam and harm, then the paper studied the E-mail the working principle and the related agreement. This article is based on the content of spam filters designed, through the analysis of t

6、he advantages and disadvantages of some mail filtering technology, finally choose the design on the theory of naive Bayes algorithm spam filters. Common in text categorization using Bayesian algorithm, it has extensive applicability, and spam filtering is essentially a text classification problem, s

7、o the article choose Bayesian algorithm design mail filters. Secondly, through the comparison, choosing more reasonable effective E-mail pretreatment techniques (including mail content extraction, email decoding, Chinese word segmentation, key words extraction, feature library, etc.), and thus desig

8、ning better spam filters. Finally, using the Java language to realize the spam filtering system, and carring out the actual application layer surface test, the result of the experiment has reliability and practicability, the filtering spam classification and based on Chinese satisfactory results hav

9、e been achieved. Key Words: E-mail; Mail filtering; E-mail filtering system; naive Bayes algorithm - I - 目目 录录 1 绪论绪论 1 1.1 选题背景和研究意义1 1.1.1 选题背景 1 1.1.2 研究意义 2 1.2 国内外研究动态2 1.3 最新过滤技术3 1.4 论文主要内容和章节安排4 1.4.1 主要内容 4 1.4.2 章节安排 4 2 垃圾邮件过滤的基础知识和相关技术垃圾邮件过滤的基础知识和相关技术 6 2.1 电子邮件过滤基础知识6 2.1.1 电子邮件工作原理 6 2

10、.1.2 电子邮件相关协议 7 2.2 电子邮件过滤方法9 2.2.1 基于来源的邮件过滤 9 2.2.2 基于内容的垃圾邮件过滤 10 2.3 本章小结11 3 垃圾邮件过滤相关技术垃圾邮件过滤相关技术 13 3.1 基于内容过滤的贝叶斯分类算法13 3.1.1 贝叶斯技术简介 13 3.1.2 贝叶斯技术原理 13 3.2 朴素贝叶斯算法14 3.2.1 基本原理 14 3.2.2 朴素贝叶斯技术在邮件过滤中的应用 15 3.3 本章小结19 4 邮件过滤系统的总体设计邮件过滤系统的总体设计 20 - II - 4.1 系统设计及流程20 4.2 主要模块设计 21 4.2.1 邮件预处理

11、模块 21 4.2.2 训练模块 24 4.2.3 分类模块 24 4.3 本章小结24 5 邮件过滤系统的实现邮件过滤系统的实现 25 5.1 邮件样本集的选取25 5.2 过滤模型的设计25 5.2.1 中文分词 25 5.2.2 基于朴素贝叶斯分类算法的模型建立 31 5.3 训练过程的基本步骤31 5.4 分类过程的设计与实现33 5.5 系统测试及测试结果显示34 5.5.1 测试语料 34 5.5.2 主界面介绍 35 5.5.3 训练 35 5.5.4 选择测试邮件或测试邮件集 36 5.6 本章小结37 6 总结与展望总结与展望 38 6.1 全文总结38 6.2 展 望.38

12、 致谢致谢 40 参考文献参考文献 41 - 1 - 1 绪绪 论论 1.1 选题背景和研究意义选题背景和研究意义 1.1.1 选题背景选题背景 随着网络技术的不断发展和应用技术的不断推广,在日常生活中的各个方面,都离 不开网络信息技术,信息技术正以前所未有的速度和范围改变着我们的生活和工作。目 前,无论是我们的生活还是工作,都离不开网络技术,在这样一个信息爆炸的时代,网 络所提供的巨大的信息量和查询信息的方便性都带给我们前所未有的预料。同时基于网 络技术的各种具体应用也不断增加,而在其中电子邮件技术(E-mail)就是其中应用性最 多、范围最广的一种。 网络的发展使人们社会生活中的交流越来越

13、方便,越来越容易,信息的传播越来越 迅速,但是同时也产生了许多垃圾邮件信息,普遍称之为垃圾邮件,1975 年垃圾邮件的 概念首次被 JonPostel 提出了,但至今为止还没有严格规范的定义。中国互联网协会 反垃圾邮件规范中分析指出,垃圾邮件1包括下列的属性: 收件人事先没有意愿或要求接收广告,电子刊物,各种形式的宣传性的电子邮 件。 收件人不能拒绝接收的电子邮件。 通过隐藏发件人的信息,包括身份,邮件地址、邮件标题等电子邮件。 含有不真实的信息,例如信息源、邮件发件人、邮件路由等信息的电子邮件。 电子邮件给人们带来了许多生活中的便捷,但同时也带来了各类的麻烦,最为严重、 造成了网络一些重大灾

14、难、使网络拥堵的问题就是垃圾邮件问题。一些非法团体和个人, 利用网络邮件服务存在的一些漏洞,大批发送电子邮件,造成了大量的垃圾邮件使整个 网络瘫痪,主要的垃圾邮件的危害有2: 他们占用了大量的网络带宽和用户的邮箱存储空间,导致邮件服务器的拥堵, 从而降低了网络运行速度,严重会影响到邮件服务器和网络系统的正常运行,甚至阻碍 了正常信息的传送,造成了无法估计的经济损失。 严重影响 ISP 的服务形象和侵害他人的名誉。在国际上,频繁转发垃圾邮件的 主机会被上级国际 ISP 列入国际垃圾邮件数据库(黑名单),从而导致该主机不能访问国 外许多网络。中国有些企业的邮件服务器被外国的黑客利用来发送垃圾邮件,

15、导致其被 列入“黑名单”,以致很多无辜的中国企业邮件服务器不能向国外发送邮件。 大量的垃圾邮件造成收件人容易误删正常邮件,浪费收件人的时间、金钱、精 - 2 - 力。 垃圾邮件可能装载一些恶意软件,如病毒,造成用户的系统崩溃,以及跟踪用 户网上行踪的软件,窃取用户信息。 一些带有反动宣传性质内容的垃圾邮件还可能危及到国家的稳定和安全。 1.1.2 研究意义研究意义 垃圾邮件有六个特点主要包括3:数量多、可重复性、强制性的、欺骗的、不健康 的,传播速度快。这些特性带来的后果,使人们的正常生活遭到干扰,浪费用户宝贵的 时间与精力,甚至更为严重的是存在信息安全的隐患。同时,垃圾邮件消耗了网络资源,

16、并且垃圾邮件带来的网络安全危害日益严重。垃圾邮件造成的主要危害如下4: 传输过程中浪费了许多网络资源。互联网中,垃圾邮件在传输过程中,占用了 大量的传输空间和运算速度、存储资源等,使网络带宽越来越窄,严重浪费了网络资源, 从而使网络的使用效率降低了,使收发邮件系统不能正常运行。 侵害了用户的利益。因垃圾邮件拥有强制性、不健康性、欺骗性和传播速度快 等特性,其特性产生的后果干扰了个人的正常生活。 垃圾邮件损害 ISP 的市场形象,造成无形资产流失。国外邮件服务商曾封杀中 国邮件服务器 IP 地址一事,致使中国用户蒙受了不可估量的损失。 对网络安全形成威胁。垃圾邮件和黑客攻击、病毒等结合也越来越密

17、切。随着 垃圾邮件的演变,用恶意代码或者监视软件等来支持垃圾邮件己经明显地增加,造成更 严重的破坏性。他们利用电子邮件系统发送数以亿万计的垃圾邮件猛烈袭击目标,造成 被攻击网站网路堵塞,最终瘫痪,拒绝服务。 垃圾邮件会对现实的社会造成危害。大量的垃圾邮件被一些别有用心者利用散 播各种有害信息和虚假信息,扰乱社会公共秩序,严重危害社会的团结与稳定。 随着网络应用的普及,电子邮件的传输迅速、使用方便、价格低廉的特点使其成为 现代社会主要通讯工具之一,也是互联网上最重要、最普遍的应用之一。而与此同时, 用户收到的垃圾邮件数量呈上升趋势,大大的占用了存储空间、计算和网络资源,降低 了网络使用率,占用了

18、用户太多的处理时间。所以,研究垃圾邮件过滤的方法,并且设 计它是一件具有深远意义的事情。 1.2 国内外研究动态国内外研究动态 随着垃圾邮件过滤技术的发展,垃圾邮件的制造者采用一些更为隐蔽的方法与技术, 这样使得人们对垃圾邮件制造者更加厌恶。垃圾邮件制造者发送技巧有5: - 3 - 盗取用户身份,他们把全球各地的发信者 IP 地址收集起来,然后利用新垃圾邮 件的域名,创建 URL 在垃圾邮件中,隐藏在其他“健康”URL 的后面以获得好信誉, 或利用如微博、邮箱、网页链接等这些网络资源来达到身份欺骗。在发送电子邮件的过 程中,他们使用免费的资源将 URL 重新定位到己知垃圾邮件域名或 IP 地址

19、中。 图片垃圾邮件及多层图片垃圾邮件6:发送者发送垃圾邮件会运用各种方式方 法来隐藏信息,他们使用图片的格式来发送,而不是文本。在检索的所有垃圾邮件中, 因为图像占用的存储空间大约是普通文本邮件的 7.5 倍,所以发送者图像垃圾邮件呈现 上升趋势,给电子邮件系统造成了无法估计的负担。 躲避全球 IP 监控及信誉评分7:信誉评分技术是指根据信誉筛选和检索邮件的 方法,按照寄件人行为进行分析然后评比。评比的标准按照几项变数,例如收件人的申 诉率、数量,收件人取消订阅后,根据要求作出回应。此外,发送者对 IP 地址进入黑 名单的地址也要尽量回避,因此,他们一直致力于搜寻新的僵尸服务器,从而发送垃圾

20、邮件。 躲避文本内容的过滤8,附带 URL 与一些不法图片,大量的垃圾邮件发送者为 躲避内容过滤的引擎,将电子邮件装饰为一封正常邮件,但是在邮件中附带的 URL 地 址与一些不法图片是他们真正想要的结果。 这些非法新技术的扩张性和隐蔽性导致垃圾邮件泛滥成灾,给人们造成了很多困扰。 随着问题的增多,人们对垃圾邮件产生的问题日益关注,研究人员纷纷提出了自己的技 术方案:信誉评分技术、基于信号检测理论、图片识别技术、意图分析技术和分布式邮 件过滤技术等等。 由此得出结论国内外有关垃圾邮件过滤的研究现状,可以分成两种趋势9: 发达国家(尤其是英语国家,如美国、英国、加拿大、澳大利亚等,这些国家同 时也

21、是垃圾邮件的重患区)倾向于研究反垃圾邮件基础理论知识,将一些新理论与新方 法融入到反垃圾邮件技术领域。 非英语发达国家和发展中国家10(如中国、德国、瑞士、韩国、日本、巴西)则 更倾向于把反垃圾邮件的研究成果运用到生活中。但是,其中不乏一些国家对已经有的 反垃圾邮件理论和技术进行改革与创造性的工作。 1.3 最新过滤技术最新过滤技术 针对新的垃圾邮件的问题,也要有新的解决方案来解决这些新的问题。那么,相应 的垃圾邮件过滤技术也应用而生了,主要有以下的新技术11: 发件人特征识别技术(Predictive Sender Profiling)。特征识别技术是指那些盗用身 - 4 - 份而发送邮件过

22、滤的技术,这样就需要对发信者的身份进行验证,并且要对发送垃圾邮 件的发送者进行预测。如列出制造垃圾邮件者的行为特征,加强对邮件的身份验证等。 信誉评分技术(IP Reputation)。对用户使用电子邮件的情况分析并进行信誉评分。 例如办理手机卡一样,如果信誉低,会被进入黑名单,不再予以办理任何业务。因此, 如果该电子邮件信誉差,被列入黑名单,那么就不能收发电子邮件,他所发送的邮件就 被视为垃圾邮件而被抛弃。 多重图片识别技术。垃圾邮件为了逃避基于内容的过滤技术,将文本内容改为 图片形式,把垃圾内容嵌入到图片中进行发送,对于图片邮件过滤技术,主要有图片垃 圾邮件指纹识别技术。主要是把新处理的图

23、片采用不同颜色对比、文字背景等进行组合 统一进行比对,然后进行过滤。 意图分析技术12(Intention Analysis)。主要是猜测垃圾发送者为什么要发送垃圾 邮件,对垃圾邮件的发送意图进行分析,分析它们发送的意图和行为能够更好地过滤邮 件。因为不同的时间,发送垃圾邮件的意图是不同的,因此要随时洞察它的意图并对其 进行阻断,所以分析意图就更为重要了。大多数的垃圾邮件发送者的动机是想让用户点 击某个 URL 地址或各种广告宣传品等,垃圾邮件内容隐藏在了 URL 链接当中,其它的 基于内容的过滤技术没有办法将其过滤,通过分析垃圾邮件的这个意图,然后对 URL 的链接做出相应的处理来过滤电子邮

24、件。所以要对常用的垃圾邮件网络 URL 地址构成 的数据库进行更新与维护,这样就有利于对垃圾邮件的过滤,能够通过该 URL 地址来 阻断垃圾邮件。从而实现垃圾邮件过滤。 1.4 论文主要内容和章节安排论文主要内容和章节安排 1.4.1 主要内容主要内容 本文主要设计实现基于内容的垃圾邮件过滤器,完成垃圾邮件过滤的功能。本文的 主要内容为以下几个方面: 垃圾邮件相关知识的研究,首先概括了垃圾邮件的研究背景,当前的现状,以 及危害,随后研究了电子邮件的工作原理和相关邮件协议,并对三种垃圾邮件过滤手段 进行归纳总结。 通过比较选用更加合理有效的邮件预处理技术(包括邮件内容提取,邮件解码, 中文分词,

25、特征词提取,特征库等),从而更好的设计出垃圾邮件过滤器。 设计了垃圾邮件过滤系统的总体架构。 合理的设计了邮件预处理过程,包括邮件内容的提取,电子邮件解码的实现, - 5 - 中文分词的实现,以及特征词提取的实现。 完成并实现了垃圾邮件过滤器,主要包括包括预处理过程、训练过程、分类过 程和测试过程。 1.4.2 章节安排章节安排 本文的章节安排如下: 第一章为绪论,首先概括了垃圾邮件的研究背景,其次简述了垃圾邮件的研究意义, 最后概括了国内外垃圾邮件的过滤技术的的现状和最新的过滤技术及常用的过滤技术。 第二章主要研究和总结了电子邮件的相关原理,包括电子邮件过滤的基本理论知识、 相关协议(主要包

26、括 SMTP 协议,POP3 协议、IMAP 协议等重要协议)和电子邮件编码格 式(MIME 编码、Base64 编码、QP 编码等)等。并且对目前常见的几种垃圾邮件过滤技 术进行了简要的概述。 第三章主要研究了贝叶斯技术,它基于统计的原则,根据用户认为的垃圾邮件和合 法邮件的数量进行统计计算,具有循序渐进的功能,可以逐渐取得好的效果。本章首先 介绍了贝叶斯技术的相关背景知识和基本原理、公式,使我们对其有了大体的了解,接 着,本章着重介绍了其中的朴素贝叶斯算法及其在垃圾邮件过滤领域中的实际应用。 第四章主要介绍了邮件过滤系统的总体设计,第一节简单介绍了系统的设计及流程, 第二节主要介绍了本过滤

27、系统的主要构成模块包括邮件预处理模块、训练模块、分类模 块等。 第五章主要设计和实现了预处理模块,包括对汉字解码(先进行 MIME 解码,再进 行汉字解码,最后进行汉字解析)、特征词提取(本系统采用文档频率法实现)、中文分词 (本系统采用正向最大匹配算法实现)、去除停用词等过程的设计实现,并给出了相应实 现步骤和具体流程。最后进行了系统测试,给出了测试结果。 第六章总结与展望。总结了本文的主要工作,分析了本系统的优点和不足,并展望 了系统可能的改进方法。 - 6 - 2 垃圾邮件过滤的基础知识和相关技术垃圾邮件过滤的基础知识和相关技术 电子邮件是自 Internet 问世后最早的应用,它一出现

28、就得到了广泛的喜爱和青睐, 用户可以用非常低廉的价格13,以非常快速的方法,与世界上任何一个角落的网络用户 联系,使世界范围内的即时通信变为可能,并且随着技术的进步,电子邮件不仅可以传 送文字,而且可以传送图象、声音等各种音视频文件14。正是由于电子邮件的使用简易、 投递迅速、收费低廉,易于保存、全球畅通无阻,使得电子邮件被广泛地应用,它使人 们的交流方式得到了极大的改变。 2.1 电子邮件过滤基础知识电子邮件过滤基础知识 2.1.1 电子邮件工作原理电子邮件工作原理 电子邮件的工作原理为15:当用户要发送电子邮件时,首先,通过 MUA(邮件用户 代理)来编辑邮件,然后通过 MTA(邮件传输代

29、理)将邮件传送到发送端邮件服务器上, 发送端邮件服务器将该邮件存入自身的缓存区内,然后根据邮件的收件人地址通过域名 解析得到接收端服务器的 IP 地址,再通过 MTA(邮件传输代理)传送到接收端邮件服务 器上,接收端邮件服务器收到该邮件后,根据邮件的收件人地址将邮件通过 MDA(邮件 投递代理)投递到收件人的邮箱,收件人通过 MUA(邮件用户代理)即可看到邮件信息。 其传输过程如图 2-1 所示。 邮件传输代理MTA邮件传输代理MTA 待发送邮件队列邮件投递代理MDA 用户代理MUA 终端用户 用户邮箱 用户代理MUA 终端用户 图图 2-1 电子邮件传输原理图电子邮件传输原理图 - 7 -

30、下面补充解释邮件传输过程中的重要概念。 MUA(Mail User Agent),邮件用户代理。MUA 是用户用来查阅或者编辑邮件的代 理,所有的邮件都是由邮件用户代理发出的,在整个邮件系统中,用户仅仅接触到邮件 用户代理,并不需要了解邮件传输的内部过程16。 MTA(Mail Transfer Agent),邮件传输代理。MTA 是邮件在网络上用于传输的代理, 可以在用户与服务器或者服务器与服务器之间传输邮件,并通过目的地址选择传送邮件 的合适路径。 MDA(Mail Delivery Agent),邮件投递代理。MDA 是服务器向收件人邮箱投递邮件 的程序,他根据收件人的邮箱地址信息找到收

31、件人的邮箱,并将邮件投入邮箱中。 2.1.2 电子邮件相关协议电子邮件相关协议 1. SMTP 协议 SMTP(Simple Mail Transfer Protocol)简单邮件传输协议17,是互联网上传输电子邮 件的标准协议,主要是运用传输系统,然后提供传输邮件,并且对来信进行相关的通知。 它属于 TCP/IP 协议族,提供一种面向连接的可靠的服务,他控制着电子邮件从发送端 地址到目的端地址的传输以及中转机制。SMTP 协议规定,若发送端服务器和接收端服 务器同处于一个网络之中,则允许直接传递,否则,必须经过中转服务器进行传递。 SMTP 是一种独立的传输子系统,并且是特定的,必要的是要有

32、可靠有序的数据流信道 支持。它使用 TCP 的 25 号端口做为默认端口进行传输。 2. POP3 协议 POP3 (Post Office Protocol)邮局协议18,是目前应用最广泛的邮件接收协议,规定 了收件人如何从服务器接收邮件的规则,属于离线式工作协议。在离线工作方式下,若 用户想发送或者接收一封邮件时,都需要首先要通过 POP3 客户端代理来登录支持 POP3 的服务器,通过该 POP3 服务器发送或接收邮件,当用户要接收邮件时,需将全 部邮件下载到本地,邮件服务器将随后删除这些邮件的信息。 POP3 支持离线的工作方式,并且支持在线的工作方式。当在在线工作方式下收发 邮件时,

33、用户可以在邮件服务器上直接读取邮件,不需下载到本地,而且邮件服务器也 会继续保留用户的邮件,不会删除。 3. IMAP 协议 IMAP ( Internet Message Access Protocol)网际消息访问协议19,也是一种邮件接收 协议,他允许用户通过查看邮件头信息来决定是否读取、删除或者查找邮件,还允许用 户在服务器上新建或者修改文件夹。它不仅使用户能够有选择的从邮件服务器接收邮件, 并且能够支持基于服务器的信息处理功能,还有共享信箱的功能。IMAP 能够提供脱机 - 8 - 工作,联机工作和断连接工作方式。IMAP4 的脱机方式下工作时,不会主动清除在邮件 服务器上己被下载的

34、邮件。 4. 电子邮件编码格式 现在的电子邮件通常采用 MIME(Multipurpose Internet Mail Extensions)编码20,即 多用途互联网邮件扩展编码,它使得一些超文本文件能够在网络上进行传输,如图片、 音频、视频等二进制流数据。利用 MIME 编码方式。可以允许邮件中含有不同编码方式 的文件,解决了原来只能传送一种编码格式的缺陷。MIME 编码格式不仅广泛应用在电 子邮件上,而且也己成为超文本传输协议的一个组成部分。 MIME 协议诞生之前,电子邮件中只能传输 7bit 的 ASIIC 码,但是 8bit 内码的字码 却不能传输,这使得一些不使用英语的国家不能使

35、用电子邮件,所以计算机工作者们才 发明了 MIME 编码,其设计思想是,在发送的的地方将 8bit 转化为 7bit 的内码,在接 收端进行解码,将编码后的字串还原为 8bit 的原码。 MIME 编码算法简单,易于理解,己经成为当今主要的邮件编码方式,不仅是用来 传送 8bit 的字符,也可以用来传送二进制的文件,如邮件中包含的的图片、视频等信息。 MIME 主要定义了两种编码方法 Base64 和 QP(Quote-Printable)21。下面将分别进行 介绍。 1) Base64 编码 Base64 编码操作简单,易于理解,是目前网络上使用最广泛的一种编码规则,尤其 是在电子邮件的编码

36、处理方法中,它己经成为了主流方向。 Base64 的实现方法为22:从字符流中依次取 3 个 8bit,然后平均分为四段,每段含 有 6 个 bit,每 6 个 bit 前加两个 0,形成新的 8bit 段,计算新形成的每个 8bit 段的十进 制值,最后在 Base64 编码表中查找对应的字符(编码表中包含A-Z , a-z , 0-9 , + , / ,这些字符分别对应十进制数0-64 ,还包含一个=用来作为补足码), 并用该字符表示,这样就完成了 Base64 的编码过程。当然还存在一种情况就是当字符 流中仅有一个或者两个 8bit 字符时,此时仍然从高位向低位每次取 6bit,当不足

37、6bit 时 低位补 0,6bit 段的个数不足 4 个时,用=补足。这就是 Base64 完整的编码过程。 2) QP 编码 QP 即 Quote-Printable 的缩写,多数情况下用于电子邮件的中的编码格式,该方法 实现起来最简单但是编码效率也最低。 QP 编码原理是:将 8bit 的字符用两个十六进制数来表示,并在编码后的字符前加 = ,所以在 QP 编码后的文件中会含有大量的= ,如: - 9 - =BF=A1=C7=E5=A3=AC=C4=FA=BA。而 7bit 的字符则直接输出,不需要编码, 不用编码的字符的 ASCII 分布在 33-60,62-126 的范围内。 2.2

38、电子邮件过滤方法电子邮件过滤方法 邮件过滤从其本质上来讲就是对邮件的一个分类,即将邮件分为合法邮件和不合法 邮件两类。根据对电子邮件系统的组成及工作原理的学习,我们可以从邮件中提取出一 些几个关键的地方:收件人、发件人、邮件头、邮件正文。在进行邮件过滤的时候也就 是从邮件的这几个部分提取特征值,然后判断该特征值是否符合不合法邮件的定义,这 就是目前最常用的邮件过滤的原理。根据这种原理发展而来的邮件过滤方法主要由如下 两种:第一种是基于来源的方法。其主要原理是基于发送方的邮件地址和 IP 地址及特 定的邮件发送人,拒绝接受不受欢迎的电子邮件,以此对付电子邮件的中继和垃圾邮件 的攻击。基于地址的方

39、法主要有邮件地址过滤、邮件信头过滤和邮件群发过滤。而基于 内容的方法是,对其邮件的内容进行检测,对侵害他人利益的电子邮件进行过滤删除。 2.2.1 基于来源的邮件过滤基于来源的邮件过滤 邮件来源过滤的基本技术方法有23:IP黑/白名单、实时黑名单列表(RBL)。 1. IP黑白名单的过滤技术 IP黑/白名单是一种很早以前就开始研究的反垃圾邮件技术,它可以应用在各个层次。 大部分的做法是创建一个黑、白名单列表,并收集IP地址,当发件人IP地址已被加入到 白名单中,则认为从该IP发来的任何邮件都是合法邮件。若列表中没有该地址,那么会 产生一个特殊的质询响应,然后会发给发件人,这个质询消息包含让发件

40、人答复的指示, 这样就可以方便将其加到“白名单”中。而回复地址的信息大部分都是假的,所以就没 有人会接收到,假使他们回复了,并且是有用的地址,但他们一般不会响应这个质询。 但是当这个质询被合法的用户恢复后,那么系统会把他的地址加入到“白名单”中,这 样就很方便以后来自同一地址的消息时,直接就自动了通过了检查。 当一个已知垃圾邮件的地址已经被添加到黑名单中时,当新接收到一封邮件时,首 先会到黑名单中去查找,如果能找到对应的,那么这封邮件为垃圾邮件,就会被阻隔, 不能发送。国内外很多组织会提供一些垃圾制造者的黑名单,给用户做出及时更新,但 是狡猾的他们经常改变IP地址,逃避检测,所以这个技术只能起

41、到补充作用。 2. 实时黑名单列表(RBL) 实时黑名单(Real-time Black hole List,简称RBL)技术24,它的思想与黑名单一样, 也是通过检查收到邮件的IP地址,与黑名单中的IP地址比对后来阻隔邮件。两者不同之 - 10 - 处在于,实时黑名单不需要手动维护IP地址列表清单,而是采用DNS方式(查询和区域传 输)来动态的查找一个IP地址的某记录是否存在。 由于是实时黑名单运营商来维护公共RBLs,所以使用的公司或单位只需要订阅实 时黑名单服务就可以了。相比之下,实时黑名单技术比黑名单技术更为有效。并且, RBLs的使用成本很低,一般采用一个类似于DNS的协议进行实现,

42、所以网络使用成本 也很低。RBLs的缺点是:因为RBLs具有一些激进的特性,可能会产生误报,所以需要 考虑之后是否使用订阅服务。 2.2.2 基于内容的垃圾邮件过滤基于内容的垃圾邮件过滤 一般情况下,因为发送邮件的人不是固定的,并且发送的内容在不断的变化。所以 基于来源的邮件过滤存在一些缺陷。这样我们就会想到通过对电子邮件的内容进行剖析, 从而判断是否为垃圾邮件。这样我们将垃圾邮件过滤与邮件的文本信息内容联系起来, 设计一种将文本信息内容引入到垃圾邮件过滤技术中。这就是“基于内容的垃圾邮件过 滤”。这是一种更加精确的邮件过滤方法,根据垃圾邮件的特征,并且随时对垃圾邮件 的特征的变化及时作出更新

43、。 基于内容的垃圾邮件过滤技术分为基于规则和基于概率统计的方法。前者是制定一 些规则,而后者是通过计算得到的结果。 1. 基于规则的邮件过滤 基于规则的方法25,是指先开始定义一些过滤规则,然后让新接收的邮件与这些规 则进行对比来决定是否为垃圾邮件。当系统对邮件进行排查时,如果与其中的一条规则 相同,那么这封邮件为垃圾邮件。过滤规则一般有下列几个方面来是制定。 信头分析:对邮件的发送地址进行检查判断是否有假。 群发策略:如果一个邮件服务器在很短的时间收到同样的地址发来大量的邮件, 或者是在很短的时间里发送给不同的地址相同的信息的电子邮件,那么就被怀疑为垃圾 邮件。 关键词匹配:先制定一些垃圾邮

44、件的特征词,或者是短语,如“免费”、“特 卖”、“培训”、“赠送”等等,当在邮件标题或正文中匹配到若干个关键词或短语时, 这时,这些邮件为垃圾邮件。所以这项技术,需要提前建立词库。 2. 基于统计的邮件过滤 基于统计的方法11,首先将电子邮件过滤技术中融入文本分类方法,将邮件分类为 合法邮件和垃圾邮件。然后根据相应的方法进行计算,所以这个方法相对而言比较精确, 并且速度快,是一种比较流行的研究趋势。重点是要实现文本分类算法。 1) kNN方法 - 11 - kNN方法是传统的模式识别算法,它是一种应用于文本分类方法,在文本分类方面 得到了广泛的研究与应用。它是通过计算文本间的相似度,找出训练集

45、合中预测是否为 文本最相似的K篇文本,然后定义其类别。 其原理非常的直观,也很容易理解,但用此方法分类时,计算的方法比较复杂,占 用存储空间比较大,运行的时间比较慢,所以不太适合运用与实时性高的垃圾邮件过滤。 2) Rocchio方法 Rocchio方法是一种经常用于信息检索的方法。其思路是:将所有的文本向量化, 然后用所有正例向量和反例向量的加权差。 形式地表示为: (2-1) ii ii xDxD a Cxx DD 其中D+表示正例集合,D-表示反例集合,|D+|表示正例集合大小,|D-|反例集合的大 小。、为加权系数,计算得到的结果表示该类的类别向量。上式计算可以得到垃C 圾邮件类的类别

46、向量。此方法运用于垃圾邮件过滤时,新的邮件与类别向量计算距离, 距离小于某个阈值则判定该邮件属于垃圾邮件类,否则为合法邮件。虽然这个计算方 法简单并且占用时间比较短,但是其过滤的效果比较差。 3) Bayes方法 目前在基于概率统计方法中使用最多的是贝叶斯12(Bayes)方法。其原理是通过计算 文本属于每个类别( =1,2,M,M为类别个数)的概率,并将它们排序取d i Ci(|) i P Cd 其最大值来得到所属的类别。根据贝叶斯公式,最后归结于求每个类别的概率d 和从类别生成文本的概率。而两个概率可以训练语料得到其结果。() i P C i Cd(|) i P Cd 朴素贝叶斯13(Na

47、ive Bayes)是贝叶斯方法中使用最多的一种。其本质是,假设由d 互相独立的多个特征(=1,2,N,N是中不同特征数)产生,所以 j wjd 又可以总结为求。朴素贝叶斯方法被广泛用于文本分类中,并且取得(| ) i P Cd(|) i P Cd 了不错的成效。 2.3 本章小结本章小结 本章主要研究和总结了电子邮件的相关原理,电子邮件过滤的基础知识、电子邮件 相关协议(主要包括 SMTP 协议,POP3 协议、IMAP 协议等重要协议)和电子邮件编码格 式(MIME 编码、Base64 编码、QP 编码等)等。通过本章的研究和总结是我对电子邮件 - 12 - 的有了比较深刻的了解,尤其是邮

48、件结构和 MIME 编码部分,这对后面提取邮件信息及 对邮件进行解码奠定了理论基础,对垃圾邮件过滤系统的实现提供了很大的帮助。 本章还主要对目前常见的几种垃圾邮件过滤技术进行研究,通过简单分析得出结论: 不同的垃圾邮件在一定程度上都可以帮助用户阻隔垃圾邮件。 任何一种垃圾邮件过滤技术都有自己的优点和缺点,因而都有一定的局限性和 使用范围。 基于内容的垃圾邮件过滤技术,它可以更为准确的过滤邮件,并且可以自动获 得垃圾邮件的特征,而且能够及时得到垃圾邮件的特征的变化。 所以,本文将采用朴素贝叶斯算法,结合信息增益来判别垃圾邮件。 - 13 - 3 垃圾邮件过滤相关技术垃圾邮件过滤相关技术 3.1

49、基于内容过滤的贝叶斯分类算法基于内容过滤的贝叶斯分类算法 3.1.1 贝叶斯技术简介贝叶斯技术简介 贝叶斯算法是以托马斯贝叶斯(Thomas Bayes)(1702-1763)命名的,他是英国著名的 数学大师。贝叶斯算法是一种基于概率分析的的推理理论。1763 年,他在论有关机遇 问题的求解中登载了贝叶斯统计理论,其原理是根据已经发生的事件的概率,来预测 未发生事件的可能性26。 目前,计算机行业中贝叶斯理论的应用相当广泛27。贝叶斯理论实际是对事物的不 确定性进行描述。贝叶斯算法的过滤器运用的实质是通过计算邮件中的内容中词频来判 断其是否为垃圾邮件。首先,选择一部分正常邮件,一部分垃圾邮件,从中进行学习18。 所以,其效果更好,误报的更少。 如今发送垃圾邮件的人更加狡猾,运用静态过滤垃圾邮件技术很难抵抗。他们只要 稍微留心研究一下,就可以知道现在使用哪一种静态过滤垃圾邮件技术,根据此技

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1