人工智能安全-2-非平衡数据处理问题.ppt

上传人:eieieie 文档编号:21712643 上传时间:2023-11-03 格式:PPT 页数:42 大小:740KB
返回 下载 相关 举报
人工智能安全-2-非平衡数据处理问题.ppt_第1页
第1页 / 共42页
人工智能安全-2-非平衡数据处理问题.ppt_第2页
第2页 / 共42页
人工智能安全-2-非平衡数据处理问题.ppt_第3页
第3页 / 共42页
人工智能安全-2-非平衡数据处理问题.ppt_第4页
第4页 / 共42页
人工智能安全-2-非平衡数据处理问题.ppt_第5页
第5页 / 共42页
点击查看更多>>
资源描述

《人工智能安全-2-非平衡数据处理问题.ppt》由会员分享,可在线阅读,更多相关《人工智能安全-2-非平衡数据处理问题.ppt(42页珍藏版)》请在三一文库上搜索。

1、 -人工智能安全人工智能安全1 现象与原因 非平衡数据处理方法概览 欠采样 过采样 混合采样 特征层 算法层面提纲 -人工智能安全人工智能安全2非平衡数据分类问题 在网络信息安全问题中,诸如恶意软件检测、SQL注入、不良信息检测等许多问题都可以归结为机器学习分类问题。这类机器学习应用问题中,普遍存在非平衡数据的现象。-人工智能安全人工智能安全3 产生的原因 攻击者的理性特征使得攻击样本不会大规模出现。警惕性高的攻击者,会经常变换攻击方式避免被防御方检测出来。少数类样本的信息量比多数类要少得很多。-人工智能安全人工智能安全4 -人工智能安全人工智能安全5 非平衡数据对各种分类器的影响 KNN B

2、ayes 决策树 Logistic回归当用于非平衡数据分类时,为了最大化整个分类系统的分类精度,必然会使得分类模型偏向于多数类,从而造成少数类的分类准确性低。-人工智能安全人工智能安全6 现象与原因 非平衡数据处理方法概览 欠采样 过采样 混合采样 特征层 算法层面提纲 -人工智能安全人工智能安全7处理方法 -人工智能安全人工智能安全8 现象与原因 非平衡数据处理方法概览 欠采样 过采样 混合采样 特征层 算法层面提纲 -人工智能安全人工智能安全9欠抽样欠抽样方法通过减少多数类样本来提高少数类的分类性能。常见的欠采样方法有随机欠采样、启发式欠采样等。随机欠采样通过随机地去掉一些多数类样本来减小

3、多数类的规模,缺点是会丢失多数类的一些重要信息,不能够充分利用已有的信息。-人工智能安全人工智能安全10 启发式欠采样基本出发点是保留重要样本、有代表性的样本,而这些样本的选择是基于若干启发式规则。经典的欠采样方法是邻域清理(NCL,Neighborhood cleaning rule)和Tome links法,其中NCL包含ENN,典型的有以下若干种。-人工智能安全人工智能安全11 Edited Nearest Neighbor(ENN)对于多数类的样本,如果其大部分k近邻样本都跟它自己本身的类别不一样,就将他删除。也可以从少数类的角度来处理:对于少数类样本,如果其大部分k近邻样本都是少数类

4、,则将其多数类近邻删除。-人工智能安全人工智能安全12 把多数类样本转换为少数类 Condensed Nearest Neighbor(CNN)对点进行KNN分类,如果分类错误,则将该点作为少数类样本。在实际运用中,选择比较小的K。-人工智能安全人工智能安全13 把多数类样本转换为少数类或剔除 Near Miss(NM)NearMiss-1:对于每个多数类样本,计算其与最近的三个少数类样本的平均距离,选择最小距离对应的多数类样本。NearMiss-2:与NearMiss-1相反,计算与最远的三个少数类样本的平均距离,并选择最小距离对应的多数类样本。NearMiss-3:对每个少数类样本,选择与

5、之最接近的若干个多数类样本。NearMiss-1针对数据分布的局部特征;NearMiss-2针对数据分布的全局特征。NearMiss-1倾向于在比较集中的少数类附近找到更多的多数类样本,而在离群的少数类附近找到更少的多数类样本。-人工智能安全人工智能安全14 Tomek Links方法 如果有两个不同类别的样本,它们的最近邻都是对方,也就是A的最近邻是B,B的最近邻是A,那么A,B就是Tomek link。数学语言:两个不同类别的样本点xi和xj,它们之间的距离表示为d(xi,xj),如果不存在第三个样本点xl使得d(xl,xi)d(xi,xj)或者d(xl,xj)d(xi,xj)成立,则称(

6、xi,xj)为一个Tomek link -人工智能安全人工智能安全151234 -人工智能安全人工智能安全16Tomek Link Removal处理方法:把所有Tomek link都删除掉,即对于Tomek link的两个样本,如果有一个属于多数类样本,就将该多数类样本删除掉。-人工智能安全人工智能安全17 现象与原因 非平衡数据处理方法概览 欠采样 过采样 混合采样 特征层 算法层面提纲 -人工智能安全人工智能安全18方法概览 SMOTE Borderline-SMOTE1 Borderline-SMOTE2 -人工智能安全人工智能安全19SMOTE Synthetic Minority

7、Oversampling Technique(SMOTE)-人工智能安全人工智能安全20 该算法只是简单在两个近邻之间进行插值采样,而没有考虑到采样点附近的样本分布情况,从而可能产生趋向于其他类别的样本,以及样本重复等问题。-人工智能安全人工智能安全21Borderline-SMOTE1该算法根据少数类近邻样本的类别分布情况,判断该样本以后被误分的可能性,从而有选择地进行线性插值采样生成新的少数类样本。-人工智能安全人工智能安全22Borderline-SMOTE2在DANGER数据集中的点不仅从S集中求最近邻并生成新的少数类点,同时也在L数据集中求最近邻,并生成新的少数类点。这会使得少数类的

8、点更加接近其真实值。-人工智能安全人工智能安全23 现象与原因 非平衡数据处理方法概览 欠采样 过采样 混合采样 特征层 算法层面提纲 -人工智能安全人工智能安全24组合采样SMOTE+Tomek Link RemovalSMOTE+ENN -人工智能安全人工智能安全25 SMOTE+Tome Links 首先,利用SMOTE方法生成新的少数类样本,得到扩充后的数据集T。然后剔除T中的Tomek links对。为什么需要这两者的组合呢?避免SMOTE导致原本属于多数类样本的空间被少数类“入侵”(invade),由Tomek links去除噪声点或者边界点。-人工智能安全人工智能安全26ABC

9、-人工智能安全人工智能安全27 SMOTE+ENN和SMOTE+Tomek links方法的思路相似,包含两个步骤。1)利用SMOTE方法生成新的少数类样本,得到扩充后的数据集T。2)对T中的每一个样本使用kNN(一般k取3)方法预测,若预测结果和实际类别标签不符,则剔除该样本。-人工智能安全人工智能安全28 现象与原因 非平衡数据处理方法概览 欠采样 过采样 混合采样 特征层 算法层面提纲 -人工智能安全人工智能安全29 特征层解决不平衡数据分类的思路就是选择最合适的特征表示空间,再进行分类。“最合适”是指提高少数类及整体的分类正确性。把数据样本投影到这个“最合适”的子空间中,多数类可能聚集

10、在一起或重叠在一起,那么就有利于减小数据的非平衡性。根据机器学习的特征理论,在特征空间的构造方面,存在两大类方法,即特征选择和特征提取。-人工智能安全人工智能安全30 现象与原因 非平衡数据处理方法概览 欠采样 过采样 混合采样 特征层 算法层面提纲 -人工智能安全人工智能安全31算法层面a)代价敏感:设置损失函数的权重,使得少数类判别错误的损失大于多数类判别错误的损失b)单类分类器方法:仅对少数类进行训练,例如运用SVM算法c)集成学习方法:即多个分类器,然后利用投票或者组合得到结果。-人工智能安全人工智能安全32代价敏感算法 相关问题 正常、入侵检测错误时 代价是什么 以分类错误总代价最低

11、为优化目标,能更加关注错误代价较高类别的样本,使得分类性能更加合理。实现方法:一是,改变原始的数据分布来得到代价敏感的模型;二是,对分类的结果进行调整,以达到最小损失的目的;三是,直接构造一个代价敏感的学习模型。-人工智能安全人工智能安全33 代价矩阵优化目标最优的Bayes预测就是把x分为使得R(i|x)最小化的类别k,即:K=argmin R(i|x),i=1,2,N其中R(i|x)是某个类别i的样本x的分类风险Metacost算法:教材 -人工智能安全人工智能安全34代价敏感SVM对于一个给定的训练数据集(x1,Y1,),(xn,yn),标准的非代价敏感支持向量机学习出一个决策边界普通S

12、VM -人工智能安全人工智能安全35 偏置惩罚支持向量机(BP-SVM)-人工智能安全人工智能安全36 代价敏感教练损失支持向量机(CSHL-SVM)-人工智能安全人工智能安全37单分类器方法 密度估计法 基于聚类的方法 基于支持域的方法 -人工智能安全人工智能安全38SVM 单类支持向量机(OneclassSVM)支持向量数据描述(Support Vector Data Description,SVDD)-人工智能安全人工智能安全39 当多数类中存在明显簇结构时,使用聚类方法获得聚类结构有利于提高多数类轮廓描述的精度。-人工智能安全人工智能安全40集成学习的方法 典型的集成学习方法有Bagg

13、ing、Boosting、Stacking SMOTEBagging SMOTEBoost -人工智能安全人工智能安全41Bagging Over Bagging:每次迭代时应用随机过采样在小类数据 Under Bagging:每次迭代时应用随机下采样在大类数据 SMOTEBagging:结合了SMOTE与bagging,先使用SMOTE生成更加全面的小类数据,然后应用bagging Asymmetric bagging:每次迭代时,全部小类数据保留,从大类数据中分离一个与小类数据一样大的子集 -人工智能安全人工智能安全42Boosting SMOTEBoost:结合了SMOTE方法代替简单的增加小类观察点的权重 BalanceCascade:是典型的双重集成算法,采用Bagging作为基本的集成学习方法,并在训练每个Boostrap数据时,使用AdaBoost作为分类算法。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 通信/电子


经营许可证编号:宁ICP备18001539号-1