人工智能安全-2-非平衡数据处理问题.ppt

资源描述

《人工智能安全-2-非平衡数据处理问题.ppt》由会员分享，可在线阅读，更多相关《人工智能安全-2-非平衡数据处理问题.ppt（42页珍藏版）》请在三一文库上搜索。

1、 -人工智能安全人工智能安全1 现象与原因非平衡数据处理方法概览欠采样过采样混合采样特征层算法层面提纲 -人工智能安全人工智能安全2非平衡数据分类问题在网络信息安全问题中，诸如恶意软件检测、SQL注入、不良信息检测等许多问题都可以归结为机器学习分类问题。这类机器学习应用问题中，普遍存在非平衡数据的现象。-人工智能安全人工智能安全3 产生的原因攻击者的理性特征使得攻击样本不会大规模出现。警惕性高的攻击者，会经常变换攻击方式避免被防御方检测出来。少数类样本的信息量比多数类要少得很多。-人工智能安全人工智能安全4 -人工智能安全人工智能安全5 非平衡数据对各种分类器的影响 KNN B

2、ayes 决策树 Logistic回归当用于非平衡数据分类时，为了最大化整个分类系统的分类精度，必然会使得分类模型偏向于多数类，从而造成少数类的分类准确性低。-人工智能安全人工智能安全6 现象与原因非平衡数据处理方法概览欠采样过采样混合采样特征层算法层面提纲 -人工智能安全人工智能安全7处理方法 -人工智能安全人工智能安全8 现象与原因非平衡数据处理方法概览欠采样过采样混合采样特征层算法层面提纲 -人工智能安全人工智能安全9欠抽样欠抽样方法通过减少多数类样本来提高少数类的分类性能。常见的欠采样方法有随机欠采样、启发式欠采样等。随机欠采样通过随机地去掉一些多数类样本来减小

3、多数类的规模，缺点是会丢失多数类的一些重要信息，不能够充分利用已有的信息。-人工智能安全人工智能安全10 启发式欠采样基本出发点是保留重要样本、有代表性的样本，而这些样本的选择是基于若干启发式规则。经典的欠采样方法是邻域清理(NCL，Neighborhood cleaning rule)和Tome links法，其中NCL包含ENN，典型的有以下若干种。-人工智能安全人工智能安全11 Edited Nearest Neighbor(ENN)对于多数类的样本，如果其大部分k近邻样本都跟它自己本身的类别不一样，就将他删除。也可以从少数类的角度来处理：对于少数类样本，如果其大部分k近邻样本都是少数类

4、，则将其多数类近邻删除。-人工智能安全人工智能安全12 把多数类样本转换为少数类 Condensed Nearest Neighbor（CNN）对点进行KNN分类，如果分类错误，则将该点作为少数类样本。在实际运用中，选择比较小的K。-人工智能安全人工智能安全13 把多数类样本转换为少数类或剔除 Near Miss（NM）NearMiss-1：对于每个多数类样本，计算其与最近的三个少数类样本的平均距离，选择最小距离对应的多数类样本。NearMiss-2：与NearMiss-1相反，计算与最远的三个少数类样本的平均距离，并选择最小距离对应的多数类样本。NearMiss-3：对每个少数类样本，选择与

5、之最接近的若干个多数类样本。NearMiss-1针对数据分布的局部特征；NearMiss-2针对数据分布的全局特征。NearMiss-1倾向于在比较集中的少数类附近找到更多的多数类样本，而在离群的少数类附近找到更少的多数类样本。-人工智能安全人工智能安全14 Tomek Links方法如果有两个不同类别的样本，它们的最近邻都是对方，也就是A的最近邻是B，B的最近邻是A，那么A,B就是Tomek link。数学语言：两个不同类别的样本点xi和xj，它们之间的距离表示为d(xi,xj)，如果不存在第三个样本点xl使得d(xl,xi)d(xi,xj)或者d(xl,xj)d(xi,xj)成立，则称(

6、xi,xj)为一个Tomek link -人工智能安全人工智能安全151234 -人工智能安全人工智能安全16Tomek Link Removal处理方法：把所有Tomek link都删除掉，即对于Tomek link的两个样本，如果有一个属于多数类样本，就将该多数类样本删除掉。-人工智能安全人工智能安全17 现象与原因非平衡数据处理方法概览欠采样过采样混合采样特征层算法层面提纲 -人工智能安全人工智能安全18方法概览 SMOTE Borderline-SMOTE1 Borderline-SMOTE2 -人工智能安全人工智能安全19SMOTE Synthetic Minority

7、Oversampling Technique(SMOTE)-人工智能安全人工智能安全20 该算法只是简单在两个近邻之间进行插值采样，而没有考虑到采样点附近的样本分布情况，从而可能产生趋向于其他类别的样本，以及样本重复等问题。-人工智能安全人工智能安全21Borderline-SMOTE1该算法根据少数类近邻样本的类别分布情况，判断该样本以后被误分的可能性，从而有选择地进行线性插值采样生成新的少数类样本。-人工智能安全人工智能安全22Borderline-SMOTE2在DANGER数据集中的点不仅从S集中求最近邻并生成新的少数类点，同时也在L数据集中求最近邻，并生成新的少数类点。这会使得少数类的

8、点更加接近其真实值。-人工智能安全人工智能安全23 现象与原因非平衡数据处理方法概览欠采样过采样混合采样特征层算法层面提纲 -人工智能安全人工智能安全24组合采样SMOTE+Tomek Link RemovalSMOTE+ENN -人工智能安全人工智能安全25 SMOTE+Tome Links 首先，利用SMOTE方法生成新的少数类样本，得到扩充后的数据集T。然后剔除T中的Tomek links对。为什么需要这两者的组合呢？避免SMOTE导致原本属于多数类样本的空间被少数类“入侵”（invade），由Tomek links去除噪声点或者边界点。-人工智能安全人工智能安全26ABC

9、-人工智能安全人工智能安全27 SMOTE+ENN和SMOTE+Tomek links方法的思路相似，包含两个步骤。1)利用SMOTE方法生成新的少数类样本，得到扩充后的数据集T。2)对T中的每一个样本使用kNN（一般k取3）方法预测，若预测结果和实际类别标签不符，则剔除该样本。-人工智能安全人工智能安全28 现象与原因非平衡数据处理方法概览欠采样过采样混合采样特征层算法层面提纲 -人工智能安全人工智能安全29 特征层解决不平衡数据分类的思路就是选择最合适的特征表示空间，再进行分类。“最合适”是指提高少数类及整体的分类正确性。把数据样本投影到这个“最合适”的子空间中，多数类可能聚集

10、在一起或重叠在一起，那么就有利于减小数据的非平衡性。根据机器学习的特征理论，在特征空间的构造方面，存在两大类方法，即特征选择和特征提取。-人工智能安全人工智能安全30 现象与原因非平衡数据处理方法概览欠采样过采样混合采样特征层算法层面提纲 -人工智能安全人工智能安全31算法层面a)代价敏感：设置损失函数的权重，使得少数类判别错误的损失大于多数类判别错误的损失b)单类分类器方法：仅对少数类进行训练，例如运用SVM算法c)集成学习方法：即多个分类器，然后利用投票或者组合得到结果。-人工智能安全人工智能安全32代价敏感算法相关问题正常、入侵检测错误时代价是什么以分类错误总代价最低

11、为优化目标，能更加关注错误代价较高类别的样本，使得分类性能更加合理。实现方法：一是，改变原始的数据分布来得到代价敏感的模型；二是，对分类的结果进行调整，以达到最小损失的目的；三是，直接构造一个代价敏感的学习模型。-人工智能安全人工智能安全33 代价矩阵优化目标最优的Bayes预测就是把x分为使得R(i|x)最小化的类别k，即：K=argmin R(i|x),i=1,2,N其中R(i|x)是某个类别i的样本x的分类风险Metacost算法：教材 -人工智能安全人工智能安全34代价敏感SVM对于一个给定的训练数据集(x1，Y1，)，(xn，yn)，标准的非代价敏感支持向量机学习出一个决策边界普通S

12、VM -人工智能安全人工智能安全35 偏置惩罚支持向量机(BP-SVM)-人工智能安全人工智能安全36 代价敏感教练损失支持向量机(CSHL-SVM)-人工智能安全人工智能安全37单分类器方法密度估计法基于聚类的方法基于支持域的方法 -人工智能安全人工智能安全38SVM 单类支持向量机(OneclassSVM)支持向量数据描述（Support Vector Data Description，SVDD）-人工智能安全人工智能安全39 当多数类中存在明显簇结构时，使用聚类方法获得聚类结构有利于提高多数类轮廓描述的精度。-人工智能安全人工智能安全40集成学习的方法典型的集成学习方法有Bagg

13、ing、Boosting、Stacking SMOTEBagging SMOTEBoost -人工智能安全人工智能安全41Bagging Over Bagging：每次迭代时应用随机过采样在小类数据 Under Bagging：每次迭代时应用随机下采样在大类数据 SMOTEBagging：结合了SMOTE与bagging,先使用SMOTE生成更加全面的小类数据，然后应用bagging Asymmetric bagging：每次迭代时，全部小类数据保留，从大类数据中分离一个与小类数据一样大的子集 -人工智能安全人工智能安全42Boosting SMOTEBoost:结合了SMOTE方法代替简单的增加小类观察点的权重 BalanceCascade:是典型的双重集成算法，采用Bagging作为基本的集成学习方法，并在训练每个Boostrap数据时，使用AdaBoost作为分类算法。

展开阅读全文