数据仓库与数据挖掘习题课6.3.ppt

上传人:本田雅阁 文档编号:3484404 上传时间:2019-09-02 格式:PPT 页数:18 大小:1.13MB
返回 下载 相关 举报
数据仓库与数据挖掘习题课6.3.ppt_第1页
第1页 / 共18页
数据仓库与数据挖掘习题课6.3.ppt_第2页
第2页 / 共18页
数据仓库与数据挖掘习题课6.3.ppt_第3页
第3页 / 共18页
数据仓库与数据挖掘习题课6.3.ppt_第4页
第4页 / 共18页
数据仓库与数据挖掘习题课6.3.ppt_第5页
第5页 / 共18页
点击查看更多>>
资源描述

《数据仓库与数据挖掘习题课6.3.ppt》由会员分享,可在线阅读,更多相关《数据仓库与数据挖掘习题课6.3.ppt(18页珍藏版)》请在三一文库上搜索。

1、习题一,假定用于分析的数据包含属性age.数据元组age值(以递增序)是:13, 15, 16, 16, 19, 20, 20, 21, 22, 22, 25, 25, 25, 25, 30, 33, 33, 35, 35, 35, 35, 36, 40, 45, 46, 52, 70. (a) 使用min-max规范化将age值35变换到0.0,1.0区间。 (b) 使用z-score规范化变换age值35,其中age的标准差为12.94岁。 (c) 使用小数定标规范化变换age值35。 (d) 对于给定的数据,你愿意使用哪种方法?陈述你的理由。,解答一,(a) 使用min-max规范化将a

2、ge值35变换到0.0,1.0区间。 minA=13,maxA=70,new_minA=0.0,new_maxA=1.0,而v=35, (b) 使用z-score规范化变换age值35,其中age的标准差为12.94岁。,解答一(续),(c) 使用小数定标规范化变换age值35。 由于最大的绝对值为70,所以j=2。 (d) 对于给定的数据,你愿意使用哪种方法?陈述你的理由。 答:更倾向于选择小数定标规范化。因为小数定标规范化会保持数据的分布,这种变换更直观并容易解释,习题二,2.14 假设12个销售价格记录组已经排序如下:5,10,11,13,15,35,50,55,72,92,204,21

3、5。使用如下每种方法将其划分成三个箱。 (a) 等频(等深)划分。 (b) 等宽划分。,解答二,(a) 等频(等深)划分。 (b) 等宽划分。 每个区间的宽度是:(215-5)/3=70,习题三,3假定BigUniversity的数据仓库包含如下4个维:student(student_name, area_id, major, status, university),course(course_name, department),semester(semester, year)和instructor(dept, rank);2个度量:count和avg_grade。在最低概念层,度量avg_g

4、rade存放学生的实际课程成绩。在较高概念层,avg_grade存放给定组合的平均成绩。 (a)为该数据仓库画出雪花形模式图。 (b)由基本方体student, course, semester, instructor开始,为列出BigUniversity每个学生的CS课程的平均成绩,应当使用哪些特殊的OLAP操作。 (c)如果每维有5层(包括all),如“studentmajorstatusuniversityall”,该立方体包含多少方体?,解答三,解答三,b)由基本方体student, course, semester, instructor开始,为列出BigUniversity每个学生

5、的CS课程的平均成绩,应当使用哪些特殊的OLAP操作。 这些特殊的联机分析处理(OLAP)操作有: 沿课程(course)维从course_id“上卷”到department。 沿学生(student)维从student_id“上卷”到university。 取department=“CS”和university=“Big University”,沿课程(course)维和学生(student)维切块。 沿学生(student)维从university下钻到student_name。 c)如果每维有5层(包括all),如“studentmajorstatusuniversityall”,该立方

6、体包含多少方体? 这个立方体将包含54=625个方体。,习题四,4 假定数据仓库包含4个维: date(day, month, quarter, year), spectator(spectator_name, status, phone, address), location(location_name, phone#, street, city, province, country)和game(game_name, description, description, producer);2个度量: count和charge。其中, charge是观众在给定的日期观看节目的付费。观众可以是学

7、生、成年人或老人,每类观众有不同的收费标准。 (a) 画出该数据仓库的星形模式图。 (b) 由基本方体 date, spectator, location, game开始,为列出2004 年学生观众在GM-Place 的总代价,应当执行哪些OLAP 操作?,解答四,解答四,(b)由基本方体 date, spectator, location, game开始,为列出2004 年学生观众在GM-Place 的总代价,应当执行哪些OLAP 操作? 这些特殊的联机分析处理(OLAP)操作有: 沿date维从date id “上卷”到year 沿game维从game id “上卷”到all 沿locat

8、ion维从location id “上卷”到location name 沿spectator维从spectator id “上卷”到status 取status=“students”,location name=“GM Place”和year=2004切块,习题五,5给定两个对象,分别表示为(22,1,42,10),(20,0,36,8): (a)计算两个对象之间的欧几里得距离 (b)计算两个对象之间的曼哈顿距离 (c)计算两个对象之间的明考斯基距离,p=3,习题六,假设数据挖掘的任务是将如下 8个点(用(x,y)代表位置)聚类为3个簇: A1(2,10), A2(2,5),A3(8,4),

9、B1(5,8),B2(7,5), B3(6,4), C1(1,2), C2(4,9) 距离函数是欧几里德距离.假设初始选择A1, B1,C1为每个聚类的中心.用k-平均算法来给出 (a) 在第一次循环执行后的三个聚类中心 (b) 最后的三个簇,解答六,(a) (2,10),(6,6),(1.5,3.5) (b) A1 B1 C2 A3 B2 C3 A2 C1,第一次迭代: 中心为1: A1(2,10), 2: B1(5,8), 3: C1(1,2),因此:,1: A1 (2,10),2:A3, B1,B2, B3, C2 (6, 6),3: A2, C1 (1.5,3.5),第二次迭代: 中心

10、为1: (2,10), 2: (6,6), 3: (1.5,3.5),1: A1, C2 (3.5,9.5),2:A3, B1,B2, B3 (6.5, 5.25),3: A2, C1 (1.5,3.5),第三次迭代: 中心为1: (3.5,9.5 ), 2: (6.5,5.25), 3: (1.5,3.5),1: A1, B1,C2 (11/3,9),2:A3, B2, B3 (7, 13/3),3: A2, C1 (1.5,3.5),第四次迭代: 中心为1: (11/3,9), 2: (7, 13/3), 3: (1.5,3.5),1: A1, B1,C2 (11/3,9),2:A3, B2, B3 (7, 13/3),3: A2, C1 (1.5,3.5),

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1