基于人工免疫算法的数据压缩技术在滑坡异常提取.doc

资源描述

《基于人工免疫算法的数据压缩技术在滑坡异常提取.doc》由会员分享，可在线阅读，更多相关《基于人工免疫算法的数据压缩技术在滑坡异常提取.doc（13页珍藏版）》请在三一文库上搜索。

1、精品论文推荐基于人工免疫算法的数据压缩技术在滑坡异常提取中的应用研究袁勇1,2许强2郭科1陈聆1（1. 成都理工大学信息管理学院，成都，610059）（2. 成都理工大学地质灾害防治与地质环境保护国家重点实验室，成都，610059）摘要滑坡异常信息提取对滑坡预测预报至关重要，但在滑坡异常提取过程中，数据间存在大量的冗余和不相关信息，所以如何从监测数据中有效提取异常是一个值得研究的问题。本文尝试应用人工免疫算法对滑坡监测数据进行压缩，在有效去除监测数据中的冗余与不相关信息的同时，增加了有效数据密度，为准确提取滑坡异常信息提供了可能。本文以丹巴滑坡为例，应用前人提出的异常识别方法，对压缩

2、后数据进行了异常识别，获得了较好的效果。关键词免疫算法数据压缩滑坡异常提取Application of Data Compression Based on AISto Landslide Anomaly ExtractionYUAN Yong1,2XU Qiang2GUO Ke1CHEN Ling1（ 1.College of Information Management, Chengdu University of Technology, Chengdu610059）（2. State Key Laboratory of Geohazard Prevention and Geoenviro

3、nment Protection, ChengduUniversity of Technology, Chengdu ，610059）ABSTRACT Anomaly extraction is a very important technique for landslide forecasting, owing to its good reflection to landslide. But the landslide anomaly information is influenced not only by redundancy and irrelevancy of the monitor

4、ing data but also by many factors such as terrain andweather and so on. Therefore, how to effectively extract the anomaly really related to landslide from complex data information is a key problem. An applied methodthe immune algorithm was proposed for data compression in this paper and a data set g

5、ot rid of the impacts of redundancyand irrelevancy was obtained. In case study, the existing anomaly recognition method was used to7the compressed data, and some obvious anomalies were got. The application evidence shows that the immune algorithm can be utterly applied to the data compression in ord

6、er to effectively extract the anomaly information of landslide.Keywordsimmune algorithmdata compressionlandslideanomaly extraction1 引言尽管滑坡预测预报的模型和方法很多，但勿庸置疑的是滑坡异常信息的精确提取，对于滑坡时间预报至关重要1。要准确提取滑坡异常信息，就需要在滑坡体的不同部位上布置多种类、多数量的传感器进行监测，以获取大量含有丰富坡体变化信息的监测数据。但这些数据在提供可利用的信息量的同时，也增加了有效利用这些数据的困难，预期提取的异常反而可能会淹

7、没在大量的数据冗余和不相关信息中，增加了特征提取的困难，所以，直接利用这些数据提取滑坡异常，将不可避免地产生很大的误差甚至错误，进而影响滑坡时间的预测预报。因此，如何将监测数据冗余压缩到最小，保留有用信息，增加有效数据密度，对于滑坡异常信息的提取方法研究具有重要的现实意义。本文尝试应用人工免疫算法对滑坡监测数据进行数据压缩，并用前人提出的异常识别方法进行了异常识别，取得了较好的效果，为进行精确的滑坡预测预报奠定了基础。2 数据压缩及人工免疫系统2.1 数据压缩数据压缩的理论来源于仙农信息论。仙农信息论告诉我们，信源的熵是信源无失真编码的极限，也就是说不论采取何种压缩算法，其压缩后的

8、数码率不会小于该数据的熵，如果小于的话，这种压缩必然是失真的。遗憾的是，尽管仙农给出了信息编码所应遵循的规律，却未给出具体的编码方法，因此广大研究者不断提出各种各样的编码方法。如典型的用于无损压缩的算法有哈夫曼（Huffman）编码、算术(Arithmetic)编码、行程编码(RLE)、LZ 编码。这类压缩算法的主要特点是压缩比较低。典型的用于有损压缩的算法有：混合编码的 JPEG袁勇，女，1976 年生，地质工程专业在读博士，主要从事地质灾害评价、预测及防治处理研究。本文研究受高等学校博士学科点专项科研基金（20040616005），四川省科技厅应用基础研究项目（05JY029-08

9、7-1），成都理工大学地质灾害防治与地质环境保护国家重点实验室专项基金（GZ200509）联合资助。标准，预测编码，变换编码。这类算法的特点是压缩比高，可以达到几十到几百倍2。近年来，数据压缩已经不仅限于编码方法的研究，已逐步形成较为独立的体系。主要研究数据的表示、传输和转换的方法，目的是减少数据所占据的存储空间和传输所需要的时间3。数据压缩在办公自动化、广告艺术、出版业、制造业、局域网信息管理系统、语音音乐合成等方面都已广泛应用。2.2 常用的数据压缩方法聚类分析是数据挖掘的基本方法之一，其基本原理是基于竞争和自组织理论，通过所给数据样本集相关程度的评估，把具有预定相似程度的数据

10、分到同一数据组。通过聚类，将样本数据聚集到较少的聚类中心点上，很自然地消除了相似的、冗余的样本，从而实现数据的浓缩。常用的聚类方法有4：系统聚类法：特点是采用距离系数统计量，把每一个样本分为一类，计算各样本间的距离系数，把距离最小的两类合并为一类，重新计算类间距离，直到合并为一类为止。它可由谱系图直接指出由粗到细的多种分类情况。但当样本点数量十分庞大时，绘制谱系图非常繁琐，计算速度也很慢。动态聚类法，首先是按照一定的原则选择一批凝聚点（聚核），然后让样品向最近的凝聚点凝聚，这样就由点凝聚成类，得到初始分类。再按最近距离原则进行修改，直到分类合理为止。综上所述，对样本数据进行统计聚

11、类，即是将样本聚类到几个聚类中心点上，但单纯的聚类方法只是考虑了样本量的冗余问题，没有考虑到每个样本参量间的相关性，且常规的聚类方法还存在聚类精度不高、收敛速度慢等问题。2.3 人工免疫系统及免疫算法近年来，人工免疫系统的研究受到人们的重视，并在生物免疫系统的克隆选择原理基础上发展出一种免疫聚类算法，通过对训练样本的学习，系统自动产生记忆抗体集合，而这些记忆抗体能准确反映样本在特征空间中的分布结构，同时实现数据的压缩5。免疫识别算法是借鉴生物免疫系统抗体识别抗原的原理，将待识别数据作为抗原，抗体作为抗原的一个内映象，通过竞争、选择增加高亲合力抗体群体，产生尽可能多的抗体对抗千变万化

12、的抗原，最终产生抗体记忆压缩集合，当再次遇上相似抗原时，快速启用记忆集合，消灭抗原。相关计算公式见文献5，算法框图见图 1：精品论文推荐抗原输入随机产生抗体亲和力计算抗体产生的促进和抑制记忆亲和力高的抗体随机产生新的抗体加入到抗体集合N满足终止条件Y结束图 1免疫算法流程图2.4 基于免疫算法的数据压缩技术在滑坡监测数据中的应用可能性当前数据压缩方法很多，对应的编码方式也很丰富，但它们大多是针对图像、语音等数据的压缩6,7,8，在滑坡数据处理上的应用还很少。主要原因是：一方面在实际监测工作中常根据工程经验仅对关键点进行加密监测，得到的数据量有限；另一方面是滑坡数据和图像声音等对应的数

13、据除了相似之外，还有差别：（1）监测数据压缩质量的度量准则与其他应用中不同，一般使用基于逼近误差和显著特征的保真度准则，尽可能在反映滑坡变形的异常信息不丢失的前提下进行数据压缩。（2）不同于其他应用对数据的要求，滑坡的各类监测数据应统一使用与存储数据表示一致的表示形式，；人们已经认识到，从斜坡形成到滑坡发生的整个过程自身具有一定的免疫特性，这种特性必然通过各个监测指标从不同侧面反映和体现。所以，应用基于生物免疫的人工免疫算法对这些监测数据进行压缩处理，较之其他应用于图像和声音等的压缩方法应具有更多的适应性和优越性。孙婉胜等人就曾在克隆选择算法和机器学习算法的基础上，在模拟有机体克隆选

14、择过程和维持免疫网络平衡的前提下，从工程应用的角度对其算法进行了改进，给出了基于主元核相似度的亲合力定义，并将该算法用于动态系统状态数据的压缩9。3 基于人工免疫算法的数据压缩定义 1：免疫形态空间 S 是一个 N 维的矩阵空间，定义了抗体抗原之间、抗体抗体之间的全部可能的免疫操作。定义 2：免疫分子之间的亲合力 f 是形态空间中样本矢量之间的相互作用。即：抗体抗原作用亲合力是抗原表位与抗体对位在形态空间上的匹配度；抗体抗体间的亲合力是免疫网络调节的抑制作用力，可以用相似性度量表示.定义 3：压缩比指压缩后数据与压缩前数据个数之比。定义 4：保真度指压缩后数据保持原有数据的结构特点及规

15、律的程度。满足对称性、有界性和最大值唯一性。定义 5：突变率指对克隆的抗体进行变异操作以产生具有更高亲和力的抗体时的变异系数，其大小由随机函数及亲和力大小确定。从免疫系统的角度来看，数据压缩实际上就是将原始的监测数据视为抗原，随机产生初始抗体集合，初始化相关参数如：压缩比、保真度及各种阈值，通过使用免疫算法，寻找抗体记忆集合，即压缩后的具有适当压缩比和保真度的数据集合。具体地，有如下的步骤：Step1: 初始化压缩比、保真度、突变率等参数；Step2: 输入原始监测数据，并进行数据同步、归一化处理10，消除数据量纲不同带来的影响，并以一个阈值 s0 去除雷同或相近的抗原，构成有

16、效抗原(记为 Ag )集合。Step3: 在有效抗原集合中，随机初始化 q 个抗体 Ab ；Step4: 对每一个抗原数据 Agi 进行以下运算：计算 Ab 中所有个体与 Agi 的亲和力 aij ；aN选择其中亲和力 aij 大的 n 个抗体，对每个选取的抗体依据 aij 大小克隆 Nc 个， ij 越大， c越大；按下式对克隆的抗体进行变异操作，以产生具有更高亲和力的抗体：Ab= Ab ( Ab Ab )j = 1, 2 Njjjic其中为突变率，其大小由随机函数及亲和力大小确定；AbAgiij %a重新计算各个与的亲和力，选择其中集 mk ；个具有最高亲和力的抗体作为记忆msms去

17、除k 中相似度 ij 大于阀值的个体，产生新的记忆集合k ，以达到免疫系统克隆抑制原理；（其中，s 为免疫抑制阈值，能控制最后生成的抗体数目，显示出控制网络弹性的能力。该值越大，生成的记忆抗体就越松散，抗体就越具有一般性，聚类的类别就越少。）选取下一代抗原数据，直到每一个抗原数据都进行上述克隆、变异及抑制操作，完成一代网络学习过程。Step5: 将产生的全部记忆集合 m 合并为记忆数据集 M ；Step6: 去除 M 中相似度 sij 大于阈值 s 的个体，以达到对不同克隆集合的网络抑制作用； Step7: 随机产生 r 个抗体替换抗体集合中亲和力较低的个体，以实现免疫系统的自组织功能；S

18、tep8: 返回 3 进行下一代的网络学习过程，直到达到要求的学习代数或者满足设定的目标要求。Step9: 还原记忆抗体集合中的抗体数据。学习结束后，还原得到的记忆数据集 M 中的每一个抗体，即得到压缩后的输出结果。这个结果既去除了不必要的信息数据，又有效缩减了数据规模，在数据量越大时，越能体现其实用价值。4 实例研究丹巴滑坡位于大金河右岸，即丹巴县城建设街南侧白呷山高陡斜坡下部。该滑坡是在古滑坡的基础上发育形成的，滑坡平面上呈圈椅状，高程介于 1887m 至 2110m 之间，前后缘高差 223m。滑坡后缘位于白呷山级平台前缘，海拔标高在 2070-2110m 之间，滑坡两侧中部见

19、基岩出露，前缘直抵坡脚建设街，滑坡周界明显清楚。滑坡前部为 6-28m 的干砌陡坎，坡精品论文推荐度 56-65。后部 zk7 号钻孔一带为缓斜坡，坡度约 10。中部坡面较陡，平均地形坡度31。滑坡体前缘标高 1881-1892m，宽 250m，中部宽 230-240m，后缘宽约 280m。纵长 290m，面积约 0.08km2,滑坡体厚 18-45.23m，平均厚约 30m，体积约 220 万 m3，为一特大型堆积层滑坡。根据滑坡变形特征，滑坡可明显划分为右侧牵引区()，后部左侧牵引区()和主滑体区()三个区域(见图 1)。丹巴县城区Qco l + d l4S4m x 坡滑区

20、区 S4m x Qde l4区 S 4m x 区 Qco l + d l4图 1丹巴滑坡分区图2005 年 2 月，四川省国土资源厅组织专家组对该滑坡进行了及时、细致分析并采取了一系列应急抢险措施，如坡脚堆载等，斜坡变形基本得到控制。本文所用数据是自 2005 年1 月底至 4 月中旬的每日监测数据，即涵盖抢险前后的数据。4.1 应用人工免疫算法进行数据压缩应用 MATLAB11对以上免疫算法进行编程，并对丹巴滑坡镜 2、镜 6、镜 9 的监测数据进行压缩处理，得到如下结果：精品论文推荐http:/图 2镜 2 监测数据压缩前后对比上图说明镜 2 压缩前监测数据有 84 个，压缩后为 6

21、9 个，压缩比为 0.821。从图上可以看出压缩后数据较好地保持了原有数据的特性和规律，并去除了原始数据中的冗余数据，因此可以用来进行异常识别。这里需要说明的是，由于滑坡变形的异常信息是一种较小的信息模式，所以不适宜一味追求高压缩比，使用过高压缩比进行压缩可能在压缩过程能中丢失预期的异常信息。图 3镜 6 监测数据压缩前后对比上图说明镜 6 压缩前的监测数据有 83 个，压缩后有 68 个，压缩比为 0.819。从图上也可以发现压缩后数据很好的保持了原有数据的特性与规律，并去除了原始数据中的冗余数据。精品论文推荐图 4镜 9 监测数据压缩前后http:/13上图说明镜 9 压缩前有

22、 76 个，压缩后为 63 个，压缩比为 0.829。从图上看，同样可以发现压缩后数据很好的保持了原有数据的特性与规律，并去除了原始数据中的冗余数据。4.2 在压缩后数据中提取异常滑坡异常信息，即是滑坡在变形过程中尤其是进入临滑阶段后集中表现出的地声、地下水位等异常，是监测信息中比较小的一种信息模式。秦四清应用数理统计、信息论和灰色理论方法提出了识别异常并根据异常进行滑坡预报的方法1。其具体步骤是：首先，建立系统的同态模型，将观测序列 f (t ) 分解为趋势成分P(t ) 、周期成分 Q(t) 和随机涨落 S (t) ，并用五点三次平滑低通滤波器求出 P(t ) 的时间安序列 P(t )

23、，用傅立叶级数表示周期成分的拟合推估值，对随机涨落建立自回归预测模型；其次，建立异常识别准则：计算系统的输出误差V (t ) =f (t ) P(t ) + Q(t) + S (t ) ：模型拟合系统的标准误差 S =EV (t )V (t ) 及V (t ) 的概率置信区间qS , qS ，q 一般取 2，2.5，3，相应于置信度为 95，99，99.5；最后，把研究时段划分为 N 个等间距的时间单元，计算每一时间单元的异常概率 P(i) ， P(i) 一般按下式近似计算： P(i) =C (i)NC (i)i =1，C (i) 为第 i 个时间单元的异常事件个数。若实际观测序列 f (t

24、) 超出经验理论序列 f (t ) 的置信区间，就认为在一定的概率意义上出现了异常。精品论文推荐本文应用以上异常识别方法，取 q 2，即置信水平为 95，以 1 天为一个时间单元，对丹巴滑坡镜 2、镜 6、镜 9 的压缩后数据进行异常识别和提取，分别得到如下结果：25.015.05.0位移（mm）-5.0-15.0-25.01 11 21 31 41 5161 时间（d）图 5镜 2 压缩后数据的动态拟合1.0概率P(i)0.50.01 11 21 31 41 5161 时间（d）图 6镜 2 压缩后数据的异常概率图即说明 q 2 时，镜 2 压缩后的数据序列中超出经验理论序列的置信区间的有四

25、个点，即认为在一定的概率意义上出现了四个滑坡前兆异常，对应时间是 1 月 24 日，2 月 26 日，2 月 27 日，2 月 28 日。10.08.06.04.0位移（mm）2.00.0-2.0-4.0-6.0-8.0-10.01112131415161 时间（d）图 7镜 6 压缩后数据的动态拟合1.0概率P(i)0.50.01112131415161 时间（d）图 8镜 6 压缩后数据的异常概率图即 q 2 时，镜 6 压缩后的数据序列中超出经验理论序列的置信区间的有四个点，其对应时间是 1 月 29 日，30 日及 2 月 7 日，2 月 19 日。15.010.0位移（mm）5.0

26、0.0-5.0-10.0-15.01 11 21 31 41 5161 时间(d)图 9镜 9 压缩后数据的动态拟合1.00概率P(i)0.500.001 11 21 31 41 5161 时间（d）图 10镜 9 压缩后数据的异常概率图即 q 2 时，镜 9 压缩后的数据序列中超出经验理论序列的置信区间的有四个点，对应时间是 1 月 31 日，2 月 6 日，2 月 7 日，2 月 22 日。5 结论针对滑坡异常信息提取过程中所需的大量监测数据中存在大量冗余的实际，本文提出并实现了一类基于人工免疫算法的数据压缩算法。在有效去除样本数据中的冗余和相关性的同时，很好地保持了原数据集的结构特点

27、，尤其是保留真正的异常信息。以丹巴滑坡为例，采用已有的异常识别方法对压缩后数据集中进行了异常识别与提取，取得了较为满意的效果，从而进一步验证了应用人工免疫算法进行数据压缩的有效性。参考文献1秦四清，张倬元，王士天，黄润秋. 非线性工程地质学导引M.成都：西南交通大学出版社，19932袁枚，袁文. 数据压缩技术及其应用M.北京：电子工业出版社，1994 3曾玲.几种数据压缩算法的比较.通信技术J.2002(9):12-15 4郭科，龚灏. 多元统计及其程序设计M.成都：电子科技大学出版社，2003 5李涛，计算机免疫学M. 北京:电子工业出版社，2004 6张景超.一种图像数据压缩方法J.燕山大学学报, 1999,23(4):303-3077黄巧玲，谢维波. 一种新的语音数据压缩算法J.计算机时代，2006(5):1-2 8汉泽西,郭枫,秦李颗等.一种基于测井数据特征的无损压缩方法J. 西安石油大学学报(自然科学版)2006,21(1)：61639孙婉胜等.基于免疫聚类的特征数据浓缩方法J.信息与控制.2005,34(2):181-187 10朱海，莫军.水下导航信息融合技术M.北京:国防工业出版社，2002 11尹泽明，丁春利等编著. 精通 MATLAB6M. 北京:清华大学出版社，2002

展开阅读全文