数据挖掘中趋势模型的建立与分析.docx

资源描述

《数据挖掘中趋势模型的建立与分析.docx》由会员分享，可在线阅读，更多相关《数据挖掘中趋势模型的建立与分析.docx（4页珍藏版）》请在三一文库上搜索。

1、数据挖掘中趋势模型的建立与分析于晨捷袁晓洁马涛（天津南开大学计算机科学与技术系，天津 34%）5,./16：789:;28#9.摘要当今，数值型数据在数据挖掘中被广泛应用，然而，多分析是基于布尔类型数据的。所以，文章介绍了一种新的模型去描述数值型数据，以便可以挖掘到隐藏的趋势信息。关键词数据序列数值型数据数据挖掘文章编号 %!,$33%,（!）$,%?$,3文献标识码 &中图分类号 A3%!#$%&(%)#* +#, -#+./$)$ 0 %12 34252#% 3,2. )# 6+%+ 3)#)#*7 !12#8)27+# 9)+8)23+ :+（B;C/DE.;2E F G.C8E;

2、D H91;29; /2I ;9:26J7，K/2L/1 M21N;DO1E7，1/2P/I/7O，Q8/2E1E/E1N; N/68;O /D; P1I;67 8O;I 12 I/E/ .1212J，:P;N;D ./27 /2/67O1O .;E:IO /D; R/O;I 2 R6;/2 N/68;O#:1O C/C;D 12EDI89;O / 2;P .I;6 E I1O9D;E; Q8/2E1E/E1N; I/E/ O E:/E 1E 9/2 .12; :1II;2 ED;2I 12FDS ./E12#2/=&,$：I/E/ O;Q8;29;，Q8/2E1E/E1N; I/E/，I/E

3、/ .1212J% 前言当今世界，数据每天都在迅猛地增长，如何有效地使用这些数据却成为了一个问题，常出现数据丰富而知识缺乏的现象。数据挖掘正是为解决这类问题而发展起来的一门技术，它是将隐藏在大型数据库中原来未知的数据模式发掘出来。典型的理论有特征规则挖掘、关联规则挖掘、分类规则挖掘、聚类规则挖掘、势分析、间序列分析等。通过查阅大量文献资料可发现，目前的数据挖掘技术偏重于发现数据库中不同离散化属性值之间的关系，而对数值型属性之间变化趋势的相互影响分析不够，因此无法发现类似下述这种知识，如：价格下降多少，销售量才能上升多少；某种股票换手率变化了某个值会导致股票价格有什么变化等。采

4、取以往的数据挖掘技术处理该问题时非常牵强，通常做法是，一些连续化的数值型数据进行聚类操作，将之转化成布尔型的数据，再对之进行关联规则等经典数据挖掘的操作。而有些情况下，要考虑的数值型数据又有随时间成不均匀变化的情况，例如：在股票交易中，当分析股票之间的关系时，由于每一支股票都有自己的价格变化区间（股票& 的价格可能一直在 %! 元之间浮动，而股票 ( 的价格可能在 )* 元之间浮动），所以无法对所有的股票按照同样的情况进行聚类操作。同样实际中人们真正关心的是股票的价格涨了多少（一般用百分数表示），而不是当天的价格是多少，因此研究数值属性上的变化趋势显

5、得尤为重要，例如，在第 ! 个交易数据和第 !+% 个交易数据已知的情况下，要根据这种变化的趋势去预测第 !+! 个交易数据。基于上述考虑，笔者决定用一种新的模型去描述有关数值型数据的变化情况，模型有效地解决了上面遇到的问题，并为在数值型数据上进行关联规则挖掘提供了很大的方便。! 模型的建立这一模型主要是对数值型属性字段的数据进行处理，以变化趋势来取代原始数据，清楚起见，行如下定义：定义 %：定 #$%，%!，，%&，，%，(，为所研究的数值型的数据按时间顺序排列的序列，其中 %& 为第 & 个元素的值。同样可以规定 !#$%!)*，%!)*+%，%!，%!+*,

6、%，%!+*(，表示以第! 个元素作为中心，与之相临的前 * 个元素和后 * 个元素组成的序列（后面的研究都是以这个序列作为出发点）。由上面的定义可以看出，上述操作将实际数值型的元素按照时间的顺序组织成了序列的形式。例如：在股票交易中，人们很关心股票每日的收盘价，所以可以将一支股票的收盘价按照交易日的顺序组织成序列的形式 #$%，%!，，%&，，%，(，其中 %& 为第 & 个交易日的收盘价。同样在研究股票收盘价的时候也是应该有一个界限标定实际研究的范围，所以一般在原始的序列上采用滑动窗口技术将之演化成若干个 !，样为后面模型的描述奠定了基础。定义 !：定 *,-.! 为以第

7、 ! 个元素为中心，在前 * 个元素（包含 %!）中出现的最大值；定 *,-/! 为以第 ! 个元素为中心，在后 * 个元素（包含 %!）中出现的最大值；定 *,01! 为以第 ! 个元素为中心，在前 * 个元素（包含 %!）中出现的最小值；定 *,02! 为以第 ! 个元素为中心，在后 * 个元素（包含 %!）中出现的最小值，即：*,-.!- ./0 %&!)*!&!*,01!- .12 %&!)*!&!*,-/!- ./0 %&!&!&+*,02!- .12 %&!&!+*基金项目：教育部骨干教师资助计划基金资助作者简介：于晨捷，硕士生，主要研究领域为数据库

8、、数据挖掘。袁晓洁，副教授，主要研究领域为数据仓库、数据挖掘。马涛，硕士生，主要研究领域为数据库、数据挖掘。 %?$!#$ 计算机工程与应用很多时候，际研究中关心的总是在某一段时间中出现的数据的最小值点和最大值点，了顺应这一要求，所以作出了上面的定义。下面还是以股票数据为例加以说明：在进行股票交易时，是希望以一段时间内的最低价买入，而在这段时间的最高价时卖出，根据上面定义，可以看出：!#$% 为前 ! 个交易日中收盘价的最高值，!#&% 为后 ! 个交易日中收盘价的最高值，!#% 为前 ! 个交易日中收盘价的最低值，!()% 为后 ! 个交易日中收盘价的最

9、低值。而实际中经常关心的是在第 % 个交易日之前（或之后）! 个交易日中出现的最高（低）比第 % 个交易日的收盘价高（低）出来的百分率。所以需要引入下面的定义。定义 %：定 !#$% 为以第 % 个元素为中心，在前 ! 个元素（包含 *%）中出现的最大值与当前值的差值比率；定 !#&% 为以第 % 个元素为中心，在后 ! 个元素（包含 *%）中出现的最大值与当前值的差值比率；定 !(% 为以第 % 个元素为中心，在前! 个元素（包含 *%）中出现的最小值与当前值的差值比率；定 !()% 为以第 % 个元素为中心，在后 ! 个元素（包含 *%）中出

10、现的最小值与当前值的差值比率，即：!#$%& !#$% +*,!#$%!#&%& !#&% +*,!#&%!(%& !(% +*,!(%!()%& !()% +*,!()%因为对于一般的数值型数据，不容易运用关联规则对之进行数据挖掘，所以考虑对数值型数据进行差值计算，然后将所得到的差值比率进行聚类，再运用关联规则进行数据挖掘。例如：在股票数据中，!#$% 为前 ! 个交易日中收盘价的最高值比当前收盘价高出的比率；!#&% 为后 ! 个交易日中收盘价的最高值比当前收盘价高出的比率；!(% 为前 ! 个交易日中收盘价的最低值比当前收盘价低出的比率；!()%

11、为后 ! 个交易日中收盘价的最低值比当前收盘价低出的比率。然后，可以对得到的比率值进行聚类操作，将之分成离散的等级（例如：分成、(、)、*），以便后面对之进行挖掘操作。但是，在通常情况下，实际关心的不仅仅是在第 % 个交易日之前（或之后）! 个交易日中出现的最高（低）比第 % 个交易日的收盘价高（低）出来的百分率，包括对应的最高（低）产生的周期（即出现时所对应的 , 的值）。所以需要进行下面的定义。定义 +：定 -!#$% 为以第 % 个元素为中心，在前 ! 个元素（包含 *%）中出现最大值时所对应的产生变化的时间间隔；定 -!#&% 为以第 % 个元素

12、为中心，在后 ! 个元素（包含 *%）中出现最大值时所对应的产生变化的时间间隔；规定 -!(% 为以第 % 个元素为中心，在前 ! 个元素（包含 *%）中出现最小值时所对应的产生变化的时间间隔；定 -!()% 为以第 % 个元素为中心，在后 ! 个元素（包含 *%）中出现最小值时所对应的产生变化的时间间隔，即：-!#$%&,-.（%+.），/0121 *.& ,34 *,%+!,!%-!#&%&,-.（.+%），/0121 *.& ,34 *,%!,!%/!-!(%0,-.（%+.），/0121 *.& ,-. *, %+

13、!,!%-!()%&,-.（.+%），/0121 *.& ,-. *,%!,!%/!通过上面的定义，可以得到在实际研究中所关心的另一个主要数据，即对应的最高（低）出现的相对时间。例如：在股票交易中，-!#$% 为前 ! 个交易日中收盘价的最高值所出现的时间与当前交易时间相差的交易日数；-!#&% 为后 ! 个交易日中收盘价的最高值所出现的时间与当前交易时间相差的交易日数；-!(% 为前 ! 个交易日中收盘价的最低值所出现的时间与当前交易时间相差的交易日数；-!()% 为后 ! 个交易日中收盘价的最低值所出现的时间与当前交易时间相差的

14、交易日数。样，得到了实际中所关心的相对时间。但是，在随后进行数据挖掘的时候，通常是将最大（小）差值的比率和所出现的时间当作一个密不可分的因素来考虑，所以通常用下面的数对形式表现这两者之间的关系。定义 5：定 *%，!+,34617821 为由 !#$% 和 -!#$% 组成的数对，即：*%，!+,34617821 &9!#%，-#%1，并由符号 %! 表示；规定 *%，!:,3437;12 为由 !#&% 和 -!#&% 组成的数对，即：*%，!:,3437;12 &2!#&%，-!#&%1，并由符号 #%! 表示；定 *%，!:,-.37;12 为由 !(% 和

15、-!(% 组成的数对，即：*%，!+,-.617821 &9!(%，-!(%1，并由符号 $%! 表示；定 *%，!+,-.37;12 为由 !()% 和 -!()% 组成的数对，即：*%，!+,-.37;12 &9!()%，-!()%1，并由符号%! 表示。由上面的定义，就可以将研究的重点从元素转到 %!，#%!， $%! 和 %! 上来了，即上面在定义 3 所描述的序列 402*，*!，，=,，，*.，1可以转化成下面的四个由 %!，#%!，$%! 和 %! 组成的序列：02!，!，,!，.!，1#&9#!，#!，#,!，#.!，1$&9$!，$!，$,!，$.!，1

16、%&9%!，%!，%,!，%.!，1可以将原始序列 402*，*!，=,，*.，1与序列 #、$ 放在同一张图中显示出来（如图）。基于该模型，可将数值型属性序列转化为变化趋势序列，使不同的数值型属性的变化趋势具有可比性，样再利用已有的经典数据挖掘算法，即可发现数量型属性之间的趋势变化关系，从而为应用部门提供决策支持。% 模型的分析和应用该模型主要用于发现隐藏在数值型数据内部的知识和隐藏在其中的发展趋势，它同以往的对数值型数据聚类然后再进行挖掘的方式相比，有较大的优点。例如在前面所描述的例子中：当分析股票之间的关系时，由于每一支股票都有自己的价格变化区间（股票的价格可能一直在

17、 ?! 元之间浮动，而股票 ( 的价格可能在 5? 元之间浮动），时就无法有效地对所要分析的数据（股票价格）行分类操作。而且如果对于同一支股票来说，它的价格也会随着时间的推移在某个价格的上下徘徊，样就无法有效地找出潜藏在数值型数据内部的潜在发展趋势，而实际研究中又不能将股票的价格波动仅仅分成上升和下降两类来进行考虑，样就无法找到股票的总体发展趋势，无法找到描述买入点和卖出点所对应的时间和出现规律。而使用上述模型进行分析的时候，情况会产生较大的不同，具体分析如下所示（在此仍以大家熟知的股票作为示例）：（）操作中，可以将序列 =A、=A#、=A$、=A% 与其它序列作计

18、算机工程与应用 !#$BB图 -序列 ( 与序列 !、在同一张图中的显示为重点研究的对象，这样就可以根据得到的序列找到买入点和卖出点出现的规律，可以在股票的运动中正确地预测到买入点和卖出点出现的时机。（!）可以将每支股票的当天价格和在某个人为定义的区间内股票价格在这天前后出现的极大值（极小值）进行比较，找到它们之间相差的比率和产生这个极大（小）值时与当天之间的时间偏移量。这样，就可以将两支股票价格经过处理得到的序列 %&!（或 %&、%9;9;1 3?93A9?; 2B5: C:A4:; :A ?D 9A:8 9; 5321: E3A3C3: (7IJK G?;D:2:;: 3;31:8:;

19、A ?D K3A3，L3M9;1A?; K#G#，N(0，-OO#P：!.,!-Q!#/ 0123435，/ (29=3;A#R3A 351?29AM8 D?2 89;9;1 3?93A9?; 2B5:FGH#7;：%2?#?D AM: !AM G?;D:2:;: ?; S:2T U321: K3A3 V3:，(3;A931?，GM95:，-OO)#O：).$,)OO#(M35?8 6B2，W:DD2:T K N5583;，(:21: 0C9A:C?B5 :A 35#XB:2T R5?=：0 I:;:2359Y3A9?; ?D 09;9;1FGH#7;：%2?#0G (7I,JK G?;D:2

20、:;: 3;31:8:;A ?D K3A3 ，(:3AA5: ，L3?A43;9，G2391 (95Z:232=:A V3,=:A：I:;:2359Y9;1 0?93A9?; /B5: A? G?22:53A9?;(7IJK G?;D:2:;: 3;31:8:;A ?D K3A3，029Y?;3，-OO.：!QP,!.PP#/ 0123435，/ (29=3;A#9;9;1 (:B:;A935 %3AA:2;FGH#7; ：%2?#?D AM:-AM 7;A5 G?;D:2:;: ?; K3A3 ;19;:29;1，639:9，63943;，-OOP#Q#张朝晖，陆玉昌，张钹#发掘多值属性的关联规则FWH#软件学报，-OO$；O（-）!#$ 计算机工程与应用

展开阅读全文