《数据挖掘》习题库及答案.docx

上传人:极速器 文档编号:591231 上传时间:2025-09-01 格式:DOCX 页数:36 大小:265.11KB
下载 相关 举报
《数据挖掘》习题库及答案.docx_第1页
第1页 / 共36页
《数据挖掘》习题库及答案.docx_第2页
第2页 / 共36页
《数据挖掘》习题库及答案.docx_第3页
第3页 / 共36页
《数据挖掘》习题库及答案.docx_第4页
第4页 / 共36页
《数据挖掘》习题库及答案.docx_第5页
第5页 / 共36页
点击查看更多>>
资源描述

1、数据挖掘复习试题和答案考虑表中二元分类问题的训练样本集表48练习3的数据集实例z目标类1TTLO+2TT6.0+3TF5.04FF4。+5FT7.06FT3.07FF&08TF70+9FT5.Q1.整个训练样本集关于类属性的滴是多少?2.关于这些训练集中a1,a2的信息增益是多少?3.对于连续属性a3,计算所有可能的划分的信息增益。4.根据信息增益,a1,a2,a3哪个是最佳划分?5.根据分类错误率,a1,a2哪具最佳?6.根据gini指标,a1,a2哪个最佳?答1.ExamplesforcomputingEntropyCl0C26Entropy(t)=-p(jOlog2p(jt)P(C1)三

2、0/6=0P(C2)=6/6=1Entropy=-0log0-1logI=-O-O=OP(C1)=16P(C2)=5/6Entropy=-(1/6)Iog2(1/6)-(5/6)Iog2(5/6)=0.65P(C1)=26P(C2)=4/6Entropy=-(2/6)Iog2(2/6)-(4/6)Iog2(4/6)=0.92Z7(+)=4/9andP(一)=5/9-4/9Iog2(4/9)-5/9Iog2(54)=0.9911.答2:SplittingBasedonINFO.InformationGain:Ckr、GAINpht-Entropy(p)-Entropy(J)ParentNode,

3、pissplitintokpartitions;niisnumberofrecordsinpartitioni- MeasuresReductioninEntropyachievedbecauseofthesplit.Choosethesplitthatachievesmostreduction(maximizesGAIN)- UsedinID3andC4.5- Disadvantage:Tendstoprefersplitsthatresultinlargenumberofpartitions,eachbeingsmallbutpure.(估计不考)Forattribute,thecorre

4、spondingcountsandprobabilitiesare:+-TF3114TheentropyforaisI-(34)log2(34)-(l4)log2(l4)+3-(l5)log2(l5)-(45)log2(45)=0.7616.Therefore,theinformationgainforais0.99110.7616=0.2294.Forattributes,thecorrespondingcountsandprobabilitiesare:S+T23F22Theentropyfor敢is3-(25)log2(25)-(35)log2(35)7-(24)log2(24)-(24

5、)log2(24)=0.9839.Therefore,theinformationgainfor做is0.99110.9839=0.0072.ContinuousAttributes:ComputingGiniIndex.Forefficientcomputation:foreachattribute,-Sorttheattributeonvalues一Linearlyscanthesevalues,eachtimeupdatingthecountmatrixandcomputingginiindex一Choosethesplitpositionthathastheleastginiindex

6、CheatSortedVaIues_SplitPositions_NoNoNoYesYesYesNoNoNoIMOI60I7。I75I85TaxableIncome9095100I120125I2255657280879297110122172230Yes0303030312213030303030No0716253434343443526170Gini0.4200.4000.3750.3430.4170.4000.3430.3750.4000.420Tan,Steinbach,KumarIntroductiontoDataMining4/18/200437Q3ClasslabelSplitp

7、ointEntropyInfoGain1.0+2.00.84840.14273.0-3.50.98850.264.04.50.91830.07285.05.0-5.50.98390.726.0+6.50.97280.01837.07.0+7.50.88890.1022答4:Accordingtoinformationgain,aproducesthebestspIit.答5:ExamplesforComputingErrorError(t)=1maxF(z11)Therefore,accordingtoerrorrate,aproducesthebestspIit.答6:Gini(ChiIdr

8、en)=7/12*0.408+5/12*0.32=0.371BinaryAttributes:ComputingGINIIndex Splitsintotwopartitions EffectofWeighingpartitions:一LargerandPurerPartitionsaresoughtfor.Gini(N1)=1-(5/7)2-(2/7)2=0.408Gini(N2)=1-(1/5)2_(4/5)2=0.324/18/200434三)Tan,Steinbach,KumarIntroductiontoDataMiningForattributentheginiindexisr15

9、一1-(3/4)2-(1/4)2+-1-(1/5)2-(4/5)2=0.3444.Forattribute02,theginiindexis51(2/5)2(3/5)2+Ii(2/4)2(2/4)2=qssqSincetheginiindexforaissmaller,itproducesthebettersplit.二、考虑如下二元分类问题的数据集AB类标号TF+TT+TT+TFTT+FFFFFFTTTF图443二元分类问题不纯性度量之间的比较1 .计算a.b信息增益,决策树归纳算法会选用哪个属性ThecontingencytablesaftersplittingonattributesAa

10、ndBare:A=TA=FB=TB=FtD33315Theoverallentropybeforesplittingis:Erig=0.4log0.40.6log0.6=0.9710TheinformationgainaftersplittingonAis:4433EA=T=jlogw-亏lgJ=州527777尸33(J0nEa=F=-2log3-31g3=0=Emg-7/10EA=T-3/10EA=F=O.2813TheinformationgainaftersplittingonBis:3311Eb=t=-7lg7-7lg7=081134444EB=F=-77logp_77lg77=0.G

11、500bbb=EoHg-4/10EB=T-6/10EB=F=O.2565Therefore,attributeAwillbechosentosplitthenode.2 .计算a.bgini指标,决策树归纳会用哪个属性?Theowrallginibeforesplittingis:Goria=1-0.42-0.62=0.48ThegaininginiaftersplittingonAis:GA=T=l-(02-0)2=0.4898-=1=-(D2=Gorig-710G=t-310G=f=0.1371ThegaininginiaftersplittingonBis:GR=TGR=FY)Ie)LE

12、Y)YGorig-410G11三-6/1OGH=F=0.1633Therefore,attributeBwillbechosentosplitthenode.这个答案没问题3 .从图4-13可以看出嫡和gini指标在0,0.5都是单调递增,而0.5,1之间单调递减。有没有可能信息增益和gini指标增益支持不同的属性?解释你的理由Yes,eventhoughthesemeasureshavesimiIarrangeandmonotonousbehavior,theirrespectivegains,whichareseaIeddifferencesofthemeasures,donotneces

13、sariIybehaveinthesameway,asiIIustratedbytheresuItsinparts(八)and(b).贝叶斯分类ExampleofNaiveBayesClassifierGivenaTestRecord:X-(Refund=No5Married,Income=120K)naiveBayesClassifier:P(Refund=YeslNo)=3/7P(Refund=NolNo)=P(XYes)P(Yes)ThereforeP(NoX)P(YesX)=Class=No4/18/200466IntroductiontoDataMining7.考虑表540中的数据集

14、表g1C匀殖7的数据建记录ABC类1000+200130114O115001+6101+7101-81019111+10101+(八)估计条件概率尸(A+),P(B),P(Q+),P(AH),P(BH)和尸(C|一)。C=O)的类(b)根据(八)中的条件概率,使用朴素贝叶斯方法预测测试样本(A=0,B=l标号。(C)使用m估计方法(p=1/2且加=4)估计条件概率。(d)同(b),使用(C)中的条件概率。(e)比较估计概率的两种方法。哪一种更好?为什么?1. PA=1/-)=2/5=0.4,P(B=11-)=2/5=0.4,P(C=1/-)=1,P(A=0/-)=3/5=0.6,P(B=0/

15、)=3/5=0.6,P(C=0/-)=0;Pa=1/+)=3/5=0.6,P(B=1/+)=1/5=0.2,P(C=1/+)=24=0.4,P(A=0/+)=2/5=0.4,P(B=0/+)=4/5=0.8,P(C=0/+)=3/5=0.6.LetPA=0,B=1,。=O)=K.F(+A=0,3=1,C=O)F(A=0,B=l,C=0)尸(+)产(4=0,8=1,。=0)PA=0)P(B=1+)P(C=O)XF()一K=0.4X0.20.60.57=0.024/K.P-A=0,8=1,C=0)F(A=O,B=1,。=O-)尸(一)=F(A=O,B=1,C=0)P(A=O-)P(B=1-)P(

16、C=O-)F(一)=K=OlK2. Theclasslabelshouldbe3. P(A=0/+)=(2+2)/(5+4)=4/9,PA=O/-)=(3+2)/(5+4)=54,P(B=1/+)=(1+2)/(5+4)=3R,户(8=1/_)=(2+2)/(5+4)=4力,P(C=O/+)=(3+2)/(5+4)=5力,P(C=O/-)=(0+2)/(5+4)=2R.4. LetPa=O,8=1,C=O)=KP(+=O,B=1,C=O)P(A=O,B=1,C=O)P()=F(A=O,B=1,C=O)PA=O+)P(B=1+)P(C=O)尸(十)=K(4/9)(3/9)(5/9)0.5=K=0

17、0412/KP(-A=O,=l,C=O)P(A=O,B=1,C=O-)XP(一)=F(.4=O.8=Le=O)P(A=O-)P(B=1|一)XP(C=O-)尸(一)=K(5/9)(4/9)(2/9)0.5=K=0.0274/KTheclasslabelshouldbe5. 当的条件概率之一是零,则估计为使用m-估计概率的方法的条件概率是更好的,因为我们不希望整个表达式变为零。&考虑表5-11中的数据集。表511习题8的数据集实例IABC类I0012101+30104100,51I016001+711I0-80009010+10111估计条件概率P(A=Ii+),P(B=Il+),P(C=Il

18、),P(A=1HP(B=Ik)和F(C二ip)0(b)根据(八)中的条件概率,使用朴素贝叶斯方法预测测试样本(4=1,B=1,C=I)的类标号。(C)比较产4=1),F(B=I)和尸(A=1,8=1)。陈述A、,之间的关系。(d)对P(A=1),P(B=0)和P(A=1,8=0)重复(C)的分析(e)比较P(A=I,B=l类=+)与P(A=类=+)和P(B=II类=+”给定类+,变量A,B条件独立吗?1. P(A=1/+)=0.6,P(B=1/+)=0.4,P(C=1/+)=0.8,P(A=1/-)=0.4,P(B=11-)=0.4,and户(C=I/一)=0.22.LetR:(4=fB-,

19、C=I)bethetestrecord.Todetermineitsclass,weneedtocomputePeIBandP(-/而.UsingBayestheorem,P(+R-9(/?/+)P(+)andPjIB=P(R-)P(一)P(R).SinceP(+)=p(-)=0.5andP(R)sconstant,RcanbecIassifiedbycomparingPGIR)andP(-R.Forthisquestion,PIRl+)二户(4=1/+)XP(B=+)XP(C=I/+)=0.192PkRj)二夕(4二1/一)XP(B=W)XP(C=I/)=0.032SincePlRI4sIa

20、rger,therecordisassignedto(+)cIass.3.P(A=1)=0.5,P(B=1)=0.4andP(A=1,=1)=P(KXP()=0.2.Therefore,AandBareindependent.4.P(A=1)=0.5,P(B=0)=0.6,andP(A=1,8=0)=P(A=1)XP(B=0)=0.3.AandBarestillindependent.5.CompareP(A=1,8=1/+)=0.2againstP(A=1/+)=0.6andP(B=1/Class=+)=0.4.SincetheproductbetweenP(A=1/+)andPA=1/-)

21、arenotthesameasP(A=1,8=1/+),AandBarenotconditionalIyindependentgiventhecIass.三、使用下表中的相似度矩阵进行单链和全链层次聚类。绘制树状况显示结果,树状图应该清楚地显示合并的次序。Table8.1.SimilaritymatrixforExercise16.(八)Singlelink.(b)Completelink.2.考虑表&22中显示的数据集。表622购物篮事务的例子顾客ID事务ID购买项10001aid,e100240,b,c,o20012加,短020031q30015b,cfi30022M,e40029(c4)

22、40040atb,c50033a,d,e500380,e(八)将每个事务ID视为一个购物篮,计算项集e,b,d和b,d,e的支持度。(b)使用的计算结果,计算关联规则瓦d-e和e-b,d的置信度。置信度是对称的度量吗?(C)将每个顾客ID作为一个购物篮,重复(八)。应当将每个项看作一个二元变量(如果一个项在顾客的购买事务中至少出现了一次,则为1;否则,为0)。(d)使用的计算结果,计算关联规则b,d-e和e-瓦d的置信度6(e)假定必和c1是将每个事务ID作为一个购物篮时关联规则r的支持度和置信度,而配和c2是将每个顾客ID作为一个购物篮时关联规则,的支持度和置信度。讨论和皿或Q和G之间是否存

23、在某种关系?Qs(k)=而=89s(b,d)=1=0.2s(b,e)=0.2c(bde)c(efed)=100%需=25%No.confidenceisnotaSymmetriCmeasure.=0.8s(e)=-=0.8s(Ad)=1s(b,d,e)=C2.c(bde)c(ebd)竽=80%瞿=100%U.oTherearenoapparentrelationshipsbetweensi,S2,and6.考虑表623中显示的购物篮事务。6-23购物篮项务事务ID购买项1(牛奶,啤酒,尿布)2(面包,黄油.牛奶)3牛奶.尿布,饼干4面包,黄油,饼干5(啤酒,饼干,尿布6(牛奶,尿布,面包,黄油

24、7面包,黄油,尿布8啤酒,尿布)9牛奶,尿布,面包,黄油10啤酒,饼干(八)从这些数据中,能够提取出的关联规则的最大数量是多少(包括零支持度的规则)?(b)能够提取的频繁项集的最大长度是多少(假定最小支持度0)?(C)写出从该数据集中能够提取的3项集的最大数量的表达式。(d)找出一个具有最大支持度的项集(长度为2或更大(e)找出一对项。和b,使得规则0fb和b-具有相同的置信度。(a) Whatisthemaximumnumberofassociationrulesthatcanbeextractedfromthisdata(includingrulesthathavezerosupport

25、)?Answer:Therearesixitemsinthedataset.Thereforethetotalnumberofrulesis602.(b) Whatisthemaximumsizeoffrequentitemsetsthatcanbeextracted(assumingminsup0)?Answer:Becausethelongesttransactioncontains4items,themaximumsizeoffrequentitemsetis4.(c) Writeanexpressionforthemaximumnumberofsize-3itemsetsthatcan

26、bederivedfromthisdataset.Answer:()=20.(d) Findanitemset(ofsize2orlarger)thathasthelargestsupport.Answer:Bread.Butter.(e) Findapairofitems,aandb,suchthattherulesabandb0havethesameconfidence.Answer:(Beer.Ckies)or(Bread,Butter).8.Apo打算法使用产生Tt数的策略找出频繁项集。通过合并一对大小为左的频繁项集得到一个大小为a1的候选项集(称作候选产生步骤)。在候选项集剪枝步骤中

27、如果一个候选项集的任何一个子集是不频繁的,则该候选项集将被丢弃。假定将他府戏算法用于表624所示数据集,最小支持度为30%,即任何一个项集在少于3个事务中出现就被认为是非频繁的。表624购物篮事务的例子事务ID购买项12(4d,eb,Gd345678910&btd,ealc、d,eGd,eb,d,eGdbtcad伍d(八)画出表示表6-24所示数据集的项集格。用下面的字母标记格中每个结点。 N:如果该项集被Apzoi算法认为不是候选项集。一个项集不是候选项集有两种可能的原因;它没有在候选项集产生步骤产生,或它在候选项集产生步骤产生,但是由于它的一个子集是非频繁的而在候选项集剪枝步骤被丢掉。

28、F:如果该候选项集被APrfbi算法认为是频繁的。 I:如果经过支持度计数后,该候选项集被发现是非频繁的。(b)频繁项集的百分比是多少?(考虑格中所有的项集)(c)对于该数据集,加汽。尸算法的剪枝率是多少?(剪枝率定义为由于如下原因不认为是候选的项集所占的百分比:在候选项集产生时未被产生,或在候选剪枝步骤被丢掉。)(d)假警告率是多少?(假警告率是指经过支持度计算后被发现是非频繁的候选项集所占的百分比。)AnuF42:Set)81Figure6.2.Anexampleofahashtreestructure.PruningratioistheratioofNtothetotalnumberof

29、itemsets.SincethecountofN=11,thereforepruningratiois11/32=34.4%.A4:FaIseaIarmrateistheratioof/tothetotaInumberofitemsets.Sincethecountof/=5,thereforethefaIseaIarmrateis5/32=15.6%.数据挖掘试题与答案一、解答题(满分30分,每小题5分)1 .怎样理解数据挖掘和知识发现的关系?请详细阐述之首先从数据源中抽取感兴趣的数据,并把它组织成适合挖掘的数据组织形式;然后,调用相应的算法生成所需的知识;最后对生成的知识模式进行评估,并

30、把有价值的知识集成到企业的智能系统中。知识发现是一个指出数据中有效、崭新、潜在的、有价值的、一个不可忽视的流程,其最终目标是掌握数据的模式。流程步骤:先理解要应用的领域、熟悉相关知识,接着建立目标数据集,并专注所选择的数据子集;再作数据预处理,剔除错误或不一致的数据;然后进行数据简化与转换工作;再通过数据挖掘的技术程序成为模式、做回归分析或找出分类模型;最后经过解释和评价成为有用的信息。2 .时间序列数据挖掘的方法有哪些,请详细阐述之时间序列数据挖掘的方法有:1)、确定性时间序列预测方法:对于平稳变化特征的时间序列来说,假设未来行为与现在的行为有关,利用属性现在的值预测将来的值是可行的。例如,

31、要预测下周某种商品的销售额,可以用最近一段时间的实际销售量来建立预测模型。2)、随机时间序列预测方法:通过建立随机模型,对随机时间序列进行分析,可以预测未来值。若时间序列是平稳的,可以用自回归(Aut。Regressive,简称AR)模型、移动回归模型(MOVingAverage,简称MA)或自U归移动平均(AUtoRegressiveMovingAverage,简称ARMA)模型进行分析预测。3)、其他方法:可用于时间序列预测的方法很多,其中比较成功的是神经网络。由于大量的时间序列是非平稳的,因此特征参数和数据分布随着时间的推移而变化。假如通过对某段历史数据的训练,通过数学统计模型估计神经网

32、络的各层权重参数初值,就可能建立神经网络预测模型,用于时间序列的预测。3 .数据挖掘的分类方法有哪些,请详细阐述之分类方法归结为四种类型:1)、基于距离的分类方法:距离的计算方法有多种,最常用的是通过计算每个类的中心来完成,在实际的计算中往往用距离来表征,距离越近,相似性越大,距离越远,相似性越小。2)、决策树分类方法:决策树(DeCiSiOrlTree)的每个内部结点表示在一个属性上的测试,每个分枝代表一个测试输出,而每个树叶结点代表类或类分布。树的最顶层结点是根结点。3)、贝叶斯分类方法:设X是类标号未知的数据样本。设H为某种假定,如数据样本X属于某特定的类C。对于分类问题,我们希望确定P

33、HX),即给定观测数据样本X,假定H成立的概率。4)、规则归纳方法:规则归纳有四种策略:减法、加法,先加后减、先减后加策略。a)减法策略:以具体例子为出发点,对例子进行推广或泛化,推广即减除条件(属性值)或减除合取项(为了方便,我们不考虑增加析取项的推广),使推广后的例子或规则不覆盖任何反例。b)加法策略:起始假设规则的条件部分为空(永真规则),如果该规则覆盖了反例,则不停地向规则增加条件或合取项,直到该规则不再覆盖反例。c)先加后减策略:由于属性间存在相关性,因此可能某个条件的加入会导致前面加入的条件没什么作用,因此需要减除前面的条件。d)先减后加策略:道理同先加后减,也是为了处理属性间的

34、相关性。典型的规则归纳算法有AQ、CN2和FOIL等。4 .数据挖掘的聚类方法有哪些,请详细阐述之数据挖掘的聚类方法:1)、划分方法(PartitioningMethods):给定一个有r?个对象的数据集,划分聚类技术将构造数据k个划分,每一个划分就代表一个簇,kno也就是说,它将数据划分为k个簇,而且这k个划分满足下列条件:a)每一个簇至少包含一个对象。b)每一个对象属于且仅属于一个簇。对于给定的k,算法首先给出一个初始的划分方法,以后通过反复迭代的方法改变划分,使得每一次改进之后的划分方案都较前一次更好。1)、层次聚类:层次聚类方法对给定的数据集进行层次的分解,直到某种条件满足为止。具体又

35、可分为:a)凝聚的层次聚类:一种自底向上的策略,首先将每个对象作为一个簇,然后合并这些原子簇为越来越大的簇,直到某个终结条件被满足。b)分裂的层次聚类:采用自顶向下的策略,它首先将所有对象置于一个簇中,然后逐渐细分为越来越小的簇,直到达到了某个终结条件。层次凝聚的代表是AGNES算法。层次分裂的代表是DIANA算法。2)密度聚类方法:密度聚类方法的指导思想是,只要一个区域中的点的密度大于某个域值,就把它加到与之相近的聚类中去。代表算法有:DBSCANOPTICSDENCLUE算法等。3)其它聚类方法:STING(StatistaicalInformationGrid_basedmethod)是

36、一种基于网格的多分辨率聚类技术,它将空间区域划分为矩形单元。STlNG算法采用了一种多分辨率的方法来进行聚类分析,该聚类算法的质量取决于网格结构最低层的粒度。如果粒度比较细,处理的代价会显著增加;但如果粒度较粗,则聚类质量会受到影响。5 .请阐述数据挖掘的基本过程及步骤一、业务理解:业务理解包括确定商业对象、了解现状、建立数据挖掘目标和制定计划书。应该是对数据挖掘的目标有一个清晰的认识,知道利润所在,其中包括数据收集、数据分析和数据报告等步骤。二、数据理解:一旦商业对象和计划书确定完备,数据理解就考虑将所需要的数据。这一过程包括原始数据收集、数据描述、数据探索和数据质量核查等。三、数据准备:确

37、定可用的数据资源以后,需要对此进行筛选、清理、调整为所需要的形式。数据整理和数据转换等数据建模的准备工作需要在这一阶段完成。更深层次的数据探索也可以在这一阶段进行,新增模型的应用再次提供了在业务理解基础上看清楚数据模式的机会。四、建立模型:数据模型建立是应用数据挖掘软件不不同的情景下获得结果的过程。五、模型评估:数据解释阶段是至关重要的,要对建立的模型是否能够达到问题解决的目的进行研究,即包括模型是否能够达到研究的目标;模型是否能够用合适的方法显示。六、模型发布:数据挖掘既可以应用于核实先前的假设,也可以应用于知识发现(识别未预期的有用的关系)。6 .为什么说强关联规则不一定都是有效的,请举例

38、说明之。并不是所有的强关联规则都是有效的。例如,一个谷类早餐的零售商对5000名学生的调查的案例。数据表明:60%的学生打篮球,75%的学生吃这类早餐,40%的学生即打篮球吃这类早餐。假设支持度阈值s=0.4,置信度阈值c=60%o基于上面数据和假设我们可挖掘出强关联规则(打篮球)一(吃早餐),因为其(打篮球)和(吃早餐)的支持度都大于支持度阈值,都是频繁项,而规则的置信度140%/60%=66.6%也大于置信度阈值。然而,以上的关联规则很容易产生误解,因为吃早餐的比例为75%,大于66%。也就是说,打篮球与吃早餐实际上是负关联的。二、分析题(满分20分,每小题10分)1、请分析关联规则挖掘方

39、法中,项目集格空间理论、发展及其在数据挖掘中的应用价值。项目集格空间理论 AgraWaI等人建立了用于事务数据库挖掘的项目集格空间理论(1993,Appriori属性)。 定理(Appnori属性1).如果项目集X是频繁项目集,那么它的所有非空子集都是频繁项目集。 定理(Apprion属性2).如果项目集X是非频繁项目集,那么它的所有超集都是非频繁项目集。项目集格空间理论发展 随着数据库容量的增大,重复访问数据库(外存)将导致性能低下。因此,探索新的理论和算法来减少数据库的扫描次数和侯选集空间占用,已经成为近年来关联规则挖掘研究的热点之一。 两个典型的方法:CIOSe算法、FP-tree算法2

40、请分析Web挖掘技术所采用的方法及其在数据挖掘中的应用价值。 Web挖掘依靠它所挖掘的信息来源可以分为: Web内容挖掘(WebContentMining):对站点的Web页面的各类信息进行集成、概化、分类等,挖掘某类信息所蕴含的知识模式。 Web访问信息挖掘(WebUSageMirIirig):Web访问信息挖掘是对用户访问Web时在服务器方留下的访问记录进行挖掘。通过分析日志记录中的规律,可以识别用户的忠实度、喜好、满意度,可以发现潜在用户,增强站点的服务竞争力。 Web结构挖掘(WebStructureMining):Web结构挖掘是对Web页面之间的链接结构进行挖掘。在整个Web空间

41、里,有用的知识不仅包含在Web页面的内容之中,而且也包含在页面的链接结构之中。对于给定的Web页面集合,通过结构挖掘可以发现页面之间的关联信息,页面之间的包含、引用或者从属关系等。 从大量的信息中发现用户感兴趣的信息:因特网上蕴藏着大量的信息,通过简单的浏览或关键词匹配的搜索引擎得到的是孤立而凌乱的表面信息,Web挖掘可以发现潜在的、丰富的关联信息。 将Web上的丰富信息转变成有用的知识:Web挖掘是面向Web数据进行分析和知识提取的。因特网中页面内部、页面间、页面链接、页面访问等都包含大量对用户可用的信息,而这些信息的深层次含义是很难被用户直接使用的,必须经过浓缩和提炼。 对用户进行信息个性化:网站信息的个性化是将来的发展趋势。通过Web挖掘,可以达到对用户访问行为、频度、内容等的分析,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > IT计算机 > 数据结构与算法

宁ICP备18001539号-1