微信流量分类模型及其业务识别算法研究.docx

资源描述

《微信流量分类模型及其业务识别算法研究.docx》由会员分享，可在线阅读，更多相关《微信流量分类模型及其业务识别算法研究.docx（5页珍藏版）》请在三一文库上搜索。

1、微信流量分类模型及其业务识别算法研究摘要：以微信流量模型和业务识别为主要研究内容，首先分析了微信流量的特点，即脉冲式长连接的方式，并提出了分类的模型；其次，在分类模型的基础上分析了微信的协议特征，通过匹配有效载荷识别出微信流；同时，提出了进一步识别出微信流量的算法以及细粒度分类微信子业务；最后，进行了实验分类微信流，以98%的分类准确度识别出52%的微信子业务。关键词： QoS；流量分类；协议特征；深包检测；细粒度分类中图分类号： TN911?34； TM417 文献标识码： A 文章编号： 1004?373X（2016）15?0028?04Abstract： Taking the

2、 WeChat traffic model and business identification as the main research contents， the characteristic （pulsed long connection） of WeChat traffic is analyzed， and the classification model is put forward. On the basis of the classification model， the protocol feature of WeChat is analyzed， and the WeCha

3、t traffic is identified accurately by matching the effective load. An algorithm to identify the WeChat traffic futher is poposed to classify the WeChat sub?business with fine grit. The experiment was performed to classify the WeChat traffic. The algorithm can identify 52% WeChat sub?business with 98

4、% classification accuracy.Keywords： QoS； traffic classification； protocol feature； deep packet detection； fine grit classification随着计算机技术与互联网技术的不断发展，新的应用模式与应用需求不断涌现，网络流量的增长变得多样化，给互联网管理和运营带来巨大的压力和挑战，网络流量分类作为一种认识网络流量，优化流量是一项必不可少的方式【1】。对网络流量进行合理的分类可以使服务提供商识别网络中的流量，并根据流量的特性规划网络，从而提供更合适的QoS服务。其次，网络流量安全也是

5、信息安全的一项重大主题，随着安全的重要性不断提高，网络流量分类是入侵检测的核心，如果能在流量到达目的地之前就进行拦截，能极大地提高网络的安全性及网络性能，营造更好的互联网安全平台。1 基于微信流量的分类模型目前对微信的流量识别方式较少，有些是基于深包检测的研究方法【2】，但这些方法缺乏系统化的流量分类方法，在现有的深包检测的基础上，进一步对微信流量分类细化，提出了一种基于层次化的微信流量分类模型，能广泛用于类似微信的基于DPI的分类方法中【3】。1.1 流量模式分析从协议的角度上分析，微信流量是不具备加密性的，但可能存在一些重要的数据在网络传输前就进行过本地的加密。进一步，微信是基于一个主TC

6、P连接发生的，在进入微信的同时，会开启一个客户端到服务器的 TCP握手，当用户发生操作行为时，会在TCP连接中传输数据；当TCP连接传送完成时，也不会立刻关闭这个连接，由于微信业务的实时性，会有可能不断地发生更新，如果立即关闭TCP，很可能又需要再次开启，为了节省握手的资源消耗，微信采取了心跳包的方式，图1简要介绍了微信的大致通信机制。1.2 基于DPI的微信流量的分类模型基于上述微信的特点，提出了一种层次化的基于DPI的微信识别方法对微信流量进行识别研究。基于层次化的模型有如下好处：首先，层次化的结构是一种自上而下的结构，逐步细化求精的过程，轮廓分明；其次，基于层次化的结构易于管理和维护，一

7、旦其中某一环发生了问题，可以立刻追踪到所归属的层次进行改进或者发现问题；最后，层次化的结构有及时反馈的扩展功能【4】。（1）深包检测原理。微信流量分类使用的主要技术是基于正则表达式的DPI匹配技术对微信流量进行识别。首先，通过对微信流量的统计分析，得到微信的正则表达式特征，然后根据该正则表达式对微信流量进行匹配。实验结果表明，基于DPI的匹配技术在微信流量分类上具有较高的匹配度和识别度。（2）微信流量分类模型。基于DPI的方法是通过分析捕获网络包的内容，通过签名的分类方法对网络流识别的一种流量分类方法，它强调了流的隐私性和加密性，如果流量是隐私或加密的流，则DPI的方法不可行。一般地，对于

8、流中的有效载荷，其方法是通过流量的各个阶段分析流量特征的正则表达式，从而得出适合准确鉴别的流量特征。图2提出了基于层次化的流量分类结构的模型。2 微信流量的识别2.1 微信业务的研究对象本文以微信5.1版本的流量为研究对象，该版本涵盖了实验研究的主流微信业务。实验室选用定点镜像交换机收集手机系统的微信流量进行研究，由于这些流量直接来自于定向的手机流量，所以得到的流量是100%的真阳性的微信流量，最终收集的流量存储在pcap【5】文件中，实验分析研究的对象就是这些本地的pcap文件。2.2 微信特征分析（1）微信特征包的采样对比实验首先对微信的文本图片等业务进行了采样比对，发现某些包具有一些特

9、定的特征。对单一的微信文本流量进行观察，发现wireshark软件中提示continuation or non?HTTP traffic包中的载荷部分的字节存在恒定的字段，进一步对微信的图片流量进行分析。在微信的图片流量中，仍然存在一些非HTTP协议的微信包可能包含有微信的特征字段，而这些包正式被标记为continuati on or non?HTT Ptraffic包，这说明，这类包中可能具备微信包的某种DPI特征，而图片和文本的微信流量的此类型包之间也存在一定的公共性。这些存在公共部分特征的包极有可能用来表征微信，于是实验重点研究了这些可能被DPI识别的微信特征包，也就是后面提到的研究所抽

10、取的微信特征包。（2）微信特征获取为了研究采集的特征不过于偏向于微信的某些业务特征，分析阶段对微信流量的各项业务进行了平均性的抽样采集，分别采集了9种不同业务的特征包，包括心跳、登陆、注销、刷新、文本、图片、语音、视频和社交业务，每种业务提取30个可能具备特征的包进行分析，总共分析了270个包的有效载荷。通过wireshark的分析，收集到的270个可能包含特征的包中，在前16字节中，有一部分字段随着包的不同不会发生变化，这些载荷的字段部分极有可能是公共字段部分。为了重点研究这16字节，采用L7?filter【6】工具。实验考虑了异或运算，对实验观察的包的对应位字段分别采用异或处理，得到初步

11、的微信特征正则表达式序列：2.3 微信特征优化为了得到最短的特征序列，并确定该特征序列可以最优匹配微信流量，实验采用了增量式的研究策略，基于增量式的筛选方法如下：首先对处理的特征选取一个较短的初匹配序列，该匹配序列可能掺杂大量的假阳性，然后不断地对这个较短的匹配序列增加长度，由于每一次的增加都减少了匹配范围，这会导致能匹配到的包越来越短，最终导致结果越来越精确，当匹配的包数不变时，不再出现假阳性，此时的字段便是最优的匹配字段【7】。实验选取了来自互联网不同时段的校园流量进行了7组取样。每组流量约4 GB，分别有300400万个包。初匹配序列选取的长度是4，这个选择是一个经验性的推断，在互联网流

12、量中，3不大可能标识一个互联网协议，所以没有必要取得太短。微信的特征优化见表1。3 微信业务的细粒度识别和分类3.1 微信业务的细粒度识别和分类针对微信的业务流量存在的特点，将微信的业务分为三大类，并在这三类的基础上对其进行分类：短消息业务（文本，刷新，登陆，注销，心跳等）、复合短消息业务（语音，朋友圈，新闻等）、长消息业务（图片，视频等）。图3为微信的业务特殊字段的获取流程图，实验结果表明，根据微信业务的特征字段及上述方法可以得出微信业务的公共字段为对应包的第12字节。表2为微信业务特征字段，第12字段能起到区分微信业务的作用，匹配该字段可以找到其对应的微信业务，这个过程经历了从微信的流量识

13、别到业务类别的识别，但并未识别出业务的整个过程的流，而长度从7个字段的匹配长度变为12个字段，这意味着在匹配耗时上的增加。3.2 短业务的分类在短业务的识别算法中，首先对业务特征进行匹配，如果到来的特征包对应的业务属于短业务，那么就按照短业务的识别方式进行。短消息业务为两次过程，一次是主方发送一次信息给从方，从方给确认，然后从方再发送一次反馈信息给主方，主方给确认。在这两次发送中，主动方发送的包都包含有可识别的特征包，算法中，在第一次读到特征包后，对同一条流继续进行匹配，当两次特征包进行了匹配后，读出后续的确认包，于是得到这次短消息业务的整个流程，从而在主TCP连接中标记出这一次业务的行为及对

14、应的包序列号。一般来说，短业务仅仅通过较少的几次特征包的交互，确认进行，所以，只需对短消息的特征包次数设置一个权值，在有限权值次数的交互下，都归类为一次短业务。3.3 复合短业务的分类对于语音业务来说，一次较长的语音业务可能由多次短的语音业务复合而成，而这些短业务又互相不可分割，所以需要找到一种方式识别出该次业务所包含的所有短语音业务。首先，由于每次短业务的消息发送的包都是可以根据语音业务的特征识别的，可以对每次短分片进行特征匹配，匹配到的语音业务的包不大可能是其他业务产生的，这样把统计的包范围限定在语音业务范围内；为了解决不同次语音业务之间的区别，即识别出的语音不会被误识别为其他业务或者把别

15、次语音的业务误识别到所识别的业务之中。于是定义了一个阈值设置是为了识别出一次语音业务中所有连续出现的语音特征包，时间越短，说明该业务的连续性越强，由于连续发送的语音包间隔非常短，而对于正常操作下，两次不同的语音操作用时会很长，明显会超出这个阈值于是，在此阈值下，所有与上次发送的特征包间隔时间小于该值的语音包则被认为是同一次业务下发生的业务。3.4 长业务的识别为了对长业务类型的微信业务进行识别，实验采用图片业务研究长业务的分类。经过大量的实验及观察，发现存在公有的特征，就是传输连接的开始端前若干个包具有固定的长度序列，对于图片业务来说，前3个包具有比较明显、固定的序列特征，如果能找到这些包，对

16、于识别图片的数据连接很重要。在其算法中，定义了阈值表示数据传输连接的时间上的逼近，设置阈值的好处是用数据流连接和主TCP的时间间隔判断数据流，如果符合一个非常短的阈值，同时也满足微信的数据传输流的特征，此两种情况下，该流属于其他流的可能性会很低。首先，通过特征包的业务字段匹配找到在长业务结尾的确认包后，需要向前寻找数据连接。由于可能存在完全找不到的情况，当寻找的次数超时时，会选取最短间隔的传输数据连接作为最终判断长业务的数据传输连接。得到长业务的数据传输连接之后，与主TCP的确认短消息进行组合便得到分类的微信的长业务流。4 实验及分析基于垂直化流量分类结构的实验研究环境如表3所示。实验采用镜像

17、交换机进行网络流量的采集，并将采集结果送达分析节点，分析节点进行流量分类，最终将分类结果反馈给ISP节点进行控制。为了证实实验的有效性，根据本文提出的微信流量的分类方法，最终采用Python语言实现了微信流量分类的整个过程。由于网络流量过于复杂，对于未识别出的其他微信业务部分本文没有考虑。实验数据主要考虑的是识别出的微信流量中微信的准确率和识别率。从实验结果看来，对于互联网流量来说，本文提出的基于DPI的分类算法分类出了52%的微信业务，并达到了98%的分类精准度。52%的业务分类率不代表分类子业务的最大限度，而是考虑的微信子业务的部分占了52%左右，如果考虑更多的微信子业务，识别率可以进一步

18、提高。实验结果表明，微信正是以一种脉冲式的长连接方式进行通信的，在建立初始的TCP连接后，通过持续的心跳包保持连接。根据本文提出的分类模型，能有效地识别出微信的流量并分离出其中的各个子业务，实验结果表明了基于DPI识别方法的有效性，最终达到了对52%的微信业务识别达到了98%的准确度。5 结论本文以微信流量为研究对象，研究了流量分类的方式。分析了微信的流量模式，提出了对微信流量进行分类的模型；在此基础上，采集了微信的流量，并对微信的特征包进行分析，得出微信的特征字段并进行了优化；然后，将微信的业务划分为三个大类，并根据各个大类提出了相应的分类算法；最后，进行了实验分析，实验结果对互联网中的流

19、量分类出了52%的微信流量并达到98%的分类准确度，证实了分类算法的可行性。参考文献【1】孙瑜玲，林勤花.基于遗传神经网络的P2P流量识别系统.现代电子技术，2015，38（17）：117?120.【2】邢玉凤，毛艳琼.基于有督导机器学习的网络流量识别系统.现代电子技术，2015，38（21）：22?25.【3】陈平，郭兰珂，方俊湘.微信业务的识别方法研究.移动通信，2013（18）：80?83.【4】蒋建春，马恒太，任党恩，等.网络安全入侵检测：研究综述.软件学报，2011（11）：45?46.【5】 JOHNSON M E， GOETZ E. Embedding informati

20、on security into the organization . IEEE security & privacy， 2007， 5（3）： 16?24.【6】 HUANG S J， CHEN K， LIU C， et al. A statistical?feature?based approach to internet traffic classification using machine learning / Proceedings of 2009 International Conference on Ultra Modern Telecommunications & Workshops. Petersburg： IEEE， 2009： 1?6.【7】 NGUYEN T T T， ARMITAGE G. A survey of techniques for internet traffic classification using machine learning . IEEE communications surveys & tutorials， 2008， 10（4）： 56?76. 贺建英，李茹钰，谭琳.基于微信公众平台和OpenAPI的微校城平台构建与实现.现代电子技术，2015，38（17）：49?52.

展开阅读全文