一种基于SOM的多维农业时空数据可视化分析方法.doc

上传人:吴起龙 文档编号:1591995 上传时间:2018-12-26 格式:DOC 页数:10 大小:19.30KB
返回 下载 相关 举报
一种基于SOM的多维农业时空数据可视化分析方法.doc_第1页
第1页 / 共10页
一种基于SOM的多维农业时空数据可视化分析方法.doc_第2页
第2页 / 共10页
一种基于SOM的多维农业时空数据可视化分析方法.doc_第3页
第3页 / 共10页
亲,该文档总共10页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《一种基于SOM的多维农业时空数据可视化分析方法.doc》由会员分享,可在线阅读,更多相关《一种基于SOM的多维农业时空数据可视化分析方法.doc(10页珍藏版)》请在三一文库上搜索。

1、一种基于SOM的多维农业时空数据可视化分析方法伴随全球定位系统、遥感技术等技术的不断突破及在农业领域的广泛应用,产生了大量多维时空数据。这些数据有效记录并展示了事物各阶段的发展状况,是一种结构复杂、多层嵌套、具有空间和时态特征的高维数据1。由于数据在时间和空间上具有很强的相关性,蕴含巨大的挖掘潜力。如何挖掘和分析这些数据对于精细农业的发展、农业生产的进步及现代社会的发展有着极大的研究意义。 作为探索数据内在隐藏信息的一种手段,时空数据可视化方法通过对多维时空数据进行图形化表示,能够全面展示数据基本特征,实现数据之间的交互2。当前,多维时空数据的可视化方法除了传统的2D、3D显示技术,还可分为基

2、于几何的技术、基于层次的技术、基于图标的技术、面向像素的技术和降维映射技术等3-5。除了降维映射技术,其他多维时空数据可视化方法多是将数据各个维度直接映射于某一实体,降维映射技术能够将多维或高维数据投影到二维或三维空间,以数据散点图显示数据集的聚类结构和数据分布,并显示聚类结果类标信息(不同的类可以用数字或颜色区分)6。因此被广泛应用于维度较高、数据量较大的信息可视化。 降维可视化方法关键在于降维或映射技术的选择7。当前降维可视化方法主要有主成分分析法、投影寻踪法、自组织映射法(SOM)和多维标度法等。雷君虎等通过主成分分析法实现对烟用香料图谱数据进行数据降维和香料分类8。闫绪娴运用投影寻踪聚

3、类方法对中西部地区20002011年自然灾害社会易损性时空?稻萁?行3个层面的空间特征和区域差异分析,从而对地区自然灾害社会易损性进行综合评价9。芮小平等利用自组织映射降维技术实现了对2003年中国“非典”的多维信息进行数据降维和可视化分析10。李权利用Sammon投影(一种典型的多维标度法)将多维数据映射到二维平面,从而实现对海量微博数据进行可视化分析11。 本研究采用SOM算法实现对高维数据的降维。原因在于SOM神经网络实现对数据降维的同时,能保留其拓扑结构不变,从而避免“维数灾难”的发生。同时,SOM将输入数据转换成数据量较小的矢量数据,数据在被其他投影技术分析和表达的同时,在较少计算量

4、的情况下,能产生良好的投影结果。 考虑到多维数据多包含大量时空信息,单纯通过SOM降维可视化技术进行数据可视化,并不能很好地反映当前信息的时空特征。同时,针对某一问题的研究,由于采集数据的属性维度较多且存在差异性,即使采用多属性的时空数据可视化表达也无法保证其能够达到良好的可视化效果。有学者考虑使用多种可视化分析方法集成的模式对时空数据进行可视化分析表达,例如:Andrienko等利用SOM降维数据对美国41年间各州犯罪率时空数据进行降维分类,并在地图上进行各州犯罪情况的可视化展示,取得了良好的数据挖掘效果,提升了数据分析效率12。然而,这种多可视化方法集成的模式更多地还是集中于对原始数据的可

5、视化表达,相互关联性并不强,且运算量较大,并不能很好地满足当前对时空数据全面、高效、动态的深入分析和挖掘要求。 针对单一的可视化方法无法满足时空数据多角度表示和分析的要求,集成的可视化方法更多也仅是对时空数据可视化工具的组合,本质上还是独立地对时空数据进行表达说明。本研究提出一种基于SOM的多视图协同可视化分析方法,该方法从对降维数据的可视化角度出发,集成多种可视化分析工具,针对降维后数据进行可视化表达,既解决了传统可视化分析工具无法对高维多属性时空数据进行可视化的问题,又做到各表达工具之间的联动,实现对数据的实时多角度可视化表达和分析,增强分析者对隐藏信息的挖掘能力。本研究以美国农业时空数据

6、为例,搭建基于该方法的动态可视化分析平台,进行时空数据可视化分析,验证该方法的可行性,旨在为推进我国精细农业的发展提供依据。 1 基于SOM的降维可视化 1.1 基于SOM的聚类方法 1982年芬兰学者Kohonen根据人脑的生物学、生理学、心理学的研究成果,提出自组织映射网络(self-organizing feature map,SOM),别称kohonen网络,它是无监督学习的神经网络13。SOM网络主要面向高维数据,通过降维将数据从完全混乱转换为整体有序,从而挖掘感兴趣的特征。其学习过程是一个竞争过程,即调整一部分输入数据的权值使得权向量更接近或更偏离输入矢量,最终使得所有权向量都在输

7、入空间内相分离,形成各自所代表的一类输入空间模式。具体算法过程如下: 设有m个输入样本,每个输入样本有n个属性,即输入为n维向量X=(x1,x2,xn),从而构成一个二维的神经元输入层。输出层由P个神经元节点构成,每个结点与一个权值相联系。其连接权值wi,j表示第i个输入神经元节点与第j个输出神经元节点之间的连接权值。 (1)初始化:为网络的权向量在0,1区间随机赋予1个值,要求互不相同,从而确定邻域的初始值。邻域是指以确定的获胜神经元为中心包含若干神经元的区域范围。 (2)接收输入并寻找获胜节点:对输入数据X进行归一化处理,计算权向量与X之间的欧氏距离,找出最小距离,确定获胜神经元i。 式中

8、:xi(t)表示t时刻输入样本数据值,i(x)即为最匹配神经元。 (3)定义优胜邻域:以获胜神经元为中心,确定权值调整值。 式中:ri(x)、rj分?e为输入节点i(x)、j的位置,表示邻域范围,hj,i(x)(t)为值域函数,表示获胜神经元周围的邻域函数,随时间单调递减。 (4)调整权值:对邻域内所有神经元与输入层神经元之间的权向量进行修正。 式中:(t)表示学习速率0 3 平台搭建及试验效果 3.1 平台搭建 为验证时空数据可视化分析方法的实际应用效果,以美国农产品时空数据为例,通过Visio studio 2010平?_,利用C#语言,建立基于SOM的美国农产品时空数据可视化分析平台。研

9、究平台主要分为3个模块,分别为数据层、挖掘层、可视化界面层(图5)。 数据层用于存储时空数据,支持各模块进行数据调用。挖掘层基于SOM的高维数据降维和挖掘进行数据分类,为可视化提供数据基础。可视化界面层为平台可视化展示层,用于对数据进行可视化表达。可视化主要包括数据挖掘前后的可视化表示方式2种,前者主要用于对数据进行检索,通过数据检索获取感兴趣的数据源,后者主要是对前者选取的数据源进行基于SOM降维聚类后的数据可视化表达。主要表达工具有U-Marrix算法、平行坐标、时空立方体等。 3.2 研究数据源 研究数据源为美国NASS网站的农业调查数据,其原始数据按照年份与地域尺度(州、县)进行划分,

10、主要分为农作物、动物及产品、农业经济、农业环境4部分数据,其中农业经济数据包括农业资产和农业租借费用两方面。鉴于原始数据的缺陷,首先对数据进行筛选处理,最终用于本研究的数据源为其农作物数据源。数据主要包含美国50个州20012010年19种农产品各自的总面积、总收成及总产量。 3.3 试验效果 对数据进行归一化处理后,输入SOM神经网络进行数据降维,并对结果进行可视化展示。将可视化流程和平台设计最终所得可视化结果通过农业时空数据可视化平台的可视化界面层进行展示,达到数据的多角度显示和分析的作用,结果如图6所示。 3.3.1 时空数据视图窗口 时空数据视图窗口由时空数据选择窗口和时空数据表视图窗

11、口两部分组成。通过时空数据选择窗口对最初的多维时空数据进行选择,并将筛选出的数据以二维表的形式在时空数据表视图窗口显示。其目的在于实现用户与系统之间交互,通过对海量数据的筛选,达到任意时空、属性维度数据挖掘和分析的目的。本研究按照年份和属性选择2001、2003、2005、2007、2009年的大麦、大豆、马铃薯、小麦、燕麦的总面积等5个属性数据,探索其间关系。 3.3.2 SOM神经网络视图窗口 SOM神经网络视图窗口显示数据进行SOM神经网络聚类降维后,进行U-Marrix算法可视化的结果。窗口左图为U矩阵图,右图为labels图,按照U矩阵图,灰度深浅表示相邻区域距离的远近,颜色大小是权

12、重的多少,labels图上显示最为代表性的区域及其时间。2005年亚拉巴马州的数据(12005)和2005年俄克拉何马州的数据(402005)分别最为接近此时权重的代表值。研究基于SOM的神经网络可视化主要通过Matlab软件实现,采用混合编程的模式,利用SOM Toolbox作为SOM神经网络的软件工具,利用Matlab软件中Deploytool工具将m函数编译为 .NET 程序集,再由C#软件调用。 3.3.3 平行坐标视图窗口 平行坐标视图窗口用于对SOM神经网络视图窗口中显示的代表性区域的某年数据信息的补充说明。如在SOM神经网络视图显示的权重最小的2005年俄克拉何马州数据,其大麦、

13、大豆、马铃薯、小麦、燕麦的总面积的参数分别为0、325 000、0、5 700 000、45 000。同时,通过轴线形象化表示,达到最直观的比较数据参数的目的。如在代表性数据中,大豆、马铃薯总面积最大的是2005年爱达荷州(162005),燕麦总面积最大的是加利福尼亚州(62005)。平台平行坐标可视化功能直接在VS上由C#中 GUI+界面设计完成。 3.3.4 时空立方体视图窗口 时空立方体窗口的每一平面代表某一年份以显示地理空间属性数据,其区域颜色与SOM神经网络算法颜色匹配。研究主要通过在VS平台上应用ArcEngine组件库,将ArcScene的3D建模移植到平台窗口,进行时空立方体的

14、构建。通过观察颜色的变化情况,可直观看出随年份的变化各地区颜色变化情况。如俄勒冈州,颜色从2001、2003、2005、2007年的橙色到2009年的绿色;华盛顿州、蒙他拿州、爱达荷州、北达科州等没有发生颜色的变化。 3.3.5 平台协同多视图实现 通过在时空数据视图窗口对研究数据进行筛选,获取所需研究数据进行SOM降维,在对降维数据进行可视化表达后,获得各个窗口的显示结果,通过对结果进行观察可获得数据内在联系,挖掘有用信息。例如,对时空立方体视图窗口进行观察,由图7可知,南达科他州的颜色变化从2001、2003、2005、2007年的深粉色变成2009年的黄色,同样的还有南卡罗来纳州,其颜色

15、变化从2001、2003、2005、2007年的浅蓝色变成2009年的灰蓝色,说明2个州在前4年作物种植面积相似,而2009年有一定变化。针对这一现象,对时空数据视窗口显示的相关数据进行观察(图8),发现南达科他州的作物种植面积的确在2009年较前几年有明显改变,表现在大麦、燕麦总面积有明显减少。南卡罗来纳州也存在相似情况,2009年大豆总面积有明显提升。同样的,对SOM神经网络视图窗口所得结果观察可知,浅蓝色在时空数据显示上最具代表性,数据向2005年亚拉巴马(12005)数据聚拢。这一结论亦可由时空立方体视图窗口显示结果观察获得:从时空立方体平面图展示结果来看,2001、2003、2005

16、、2007、2009年作物生产面积上大部分显示浅蓝色。当需要研究这一聚类数据维度关系具体情况时,可通过平行坐标窗口观察获得。 总体而言,利用SOM降维技术对高维数据进行聚类降维后,通过U-Marrix算法、平行坐标和时空立方体等可视化工具对时空数据进行协同可视化表达,能够解决传统的SOM降维可视化表达对高维时空数据时空关系说明存在的缺陷,清晰展现多维农业时空数据在时间维度上的地理空间变化,说明数据的聚集和分布情况,方便对数据的潜在关系进行挖掘和分析。 4 结论 通过聚类降维算法和多种其他可视化方法的结合使用,实现多视窗协同可视化,克服了单一的可视化方法存在的维度、样本量限制等问题,较大地提高挖掘效率,为多维时空数据的分析挖掘提供新思路,在对海量农业数据挖掘和分析中,能够提供良好的技术支持,有利于精细农业的发展和推广,具有一定的经济效益和社会效益。然而,不同聚类方法对数据集的拓扑特性拟合能力不同,导致聚类准确性存在差异,同时不同可视化方法数据可视化表达侧重点各有不同。对此,针对不同农业数据集,如何寻找合适的聚类降维算法,如何确定其拓扑分布,判断其聚类准确性,选用合适可视化工具展示其时空关系,值得进一步研究。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1