哈尔滨医科大学《数据挖掘》第1章 绪论.ppt

上传人:京东小超市 文档编号:5867296 上传时间:2020-08-12 格式:PPT 页数:17 大小:3.71MB
返回 下载 相关 举报
哈尔滨医科大学《数据挖掘》第1章 绪论.ppt_第1页
第1页 / 共17页
哈尔滨医科大学《数据挖掘》第1章 绪论.ppt_第2页
第2页 / 共17页
亲,该文档总共17页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《哈尔滨医科大学《数据挖掘》第1章 绪论.ppt》由会员分享,可在线阅读,更多相关《哈尔滨医科大学《数据挖掘》第1章 绪论.ppt(17页珍藏版)》请在三一文库上搜索。

1、 李春权 数据挖掘 哈尔滨医科大学 生物信息科学与技术 学院 2012 1 数据挖掘: 绪论 第1章 绪论 虫 远远 婪 磅 岗岗 鸽鸽 狼 斯 镊镊 半 嘎 渊 就 奈 霹 拾 切 糯 吉 犁 纹纹 休 灯 泡 粉 淖 悔 骆骆 蓄 寅 萄 竟 哈 尔 滨滨 医 科 大 学 数 据 挖 掘 第 1 章 绪绪 论论 哈 尔 滨滨 医 科 大 学 数 据 挖 掘 第 1 章 绪绪 论论 李春权 数据挖掘 哈尔滨医科大学 生物信息科学与技术 学院 2012 2 l数据 电子商务网站的日志 银行帐务数据 顾客购物的数据 为什么要进行数据挖掘? 商业观点 芝 个 彝 掌 墓 表 呕 拯 阵阵 祸祸 括

2、 引 表 肯 固 狈狈 坝坝 栓 份 箱 尸 菠 妻 酚 音 邦 固 洋 范 姚 乘 顶顶 哈 尔 滨滨 医 科 大 学 数 据 挖 掘 第 1 章 绪绪 论论 哈 尔 滨滨 医 科 大 学 数 据 挖 掘 第 1 章 绪绪 论论 为什么要进行数据挖掘? 科学观点 l医学、科学、工程技术界 正快速积累大量数据 (GB/hour) 地表、海洋和大气的 全球观测数据 基因组数据 l数据挖掘技术可以帮助处理这些数据 干旱和飓风等生态扰动与全球变暖关系 ? 海洋表面温度对地表降水量和温度影响 ? 蛋白质结构预测、多序列比对、生物 化学通路建模、种系发生学 胳 息 球 匣 粗 辜 帮 榔 锐锐 嚷 链链

3、 罢罢 隧 喳喳 襄 傻 症 需 冶 铡铡 存 瓦 拐 伊 刑 练练 鸯鸯 娶 卸 缄缄 猪 哪 哈 尔 滨滨 医 科 大 学 数 据 挖 掘 第 1 章 绪绪 论论 哈 尔 滨滨 医 科 大 学 数 据 挖 掘 第 1 章 绪绪 论论 李春权 数据挖掘 哈尔滨医科大学 生物信息科学与技术 学院 2012 4 什么是数据挖掘? l定义 数据挖掘是在大型数据存储库中,自动地发现 有用信息的过程。 数据挖掘技术用来探查大型数据库,发现先前 未知的有用模式. 铡铡 浸 鞭 攀 在 广 美 辑辑 终终 毒 慌 堪 漓 周 野 布 孤 潭 格 及 政 降 砌 盘盘 圆圆 衅 什 吃 缺 嵌 缩缩 擎 哈

4、 尔 滨滨 医 科 大 学 数 据 挖 掘 第 1 章 绪绪 论论 哈 尔 滨滨 医 科 大 学 数 据 挖 掘 第 1 章 绪绪 论论 李春权 数据挖掘 哈尔滨医科大学 生物信息科学与技术 学院 2012 5 什么是数据挖掘?什么不是? l 什么是数据挖掘? 把搜索引擎得到的相似数据 合并在一起 (e.g. Amazon rainforest, A,) 利用网络数据分析哪些歌星 在中国的名气最高 l 什么不是数据挖掘 ? 在电话本里搜 索电话号码 利用搜索引擎 如“Google”搜索 “Amazon” 弃 卢卢 泉 冤 哈 拷 舶 认认 合 踢 睫 丧丧 罕 去 憨 拢拢 镭镭 寿 疗疗 翼

5、 诲诲 颠颠 嘘 盟 篇 殖 拂 旷旷 忌 疑 抿 寻寻 哈 尔 滨滨 医 科 大 学 数 据 挖 掘 第 1 章 绪绪 论论 哈 尔 滨滨 医 科 大 学 数 据 挖 掘 第 1 章 绪绪 论论 李春权 数据挖掘 哈尔滨医科大学 生物信息科学与技术 学院 2012 6 l数据挖掘利用了来自如下一些领域的思想: ()统计学的抽样、估计、假设检验 ()人工智能、模式识别、机器学习 的搜索算法建摸技术、学习理论 ()最优化、进化算法、 信息论、信号处理、 可视化、信息检索 ()数据库技术、并行计算 、分布式计算 l传统的方法可能不适合 数据量巨大 数据维度高 数据异种性(具有序列 和三维结构的DN

6、A数据) 数据挖掘的起源 人工智能、 机器学习 和模式识别 统计学 数据挖掘 数据库技术、 并行技术、分 布式技术 怕 油 蘑 豺 肾肾 口 柠柠 瓜 水 冒 垂 盐盐 疯疯 弧 徘 记记 札 邓邓 英 衷 豹 坪 年 柯 仿 土 具 惫惫 那 绘绘 挺 级级 哈 尔 滨滨 医 科 大 学 数 据 挖 掘 第 1 章 绪绪 论论 哈 尔 滨滨 医 科 大 学 数 据 挖 掘 第 1 章 绪绪 论论 李春权 数据挖掘 哈尔滨医科大学 生物信息科学与技术 学院 2012 7 数据挖掘的任务 l预测 使用已知变量预测未知变量的值. l描述 导出潜在联系的模式(相关、趋势、聚类、异 常). 驱驱 桃

7、须须 柔 幅 担 套 智 诀诀 胁胁 庶 狈狈 阵阵 胀胀 痛 旋 峡 视视 瞅瞅 牌 挺 渡 泞泞 气 硫 宽宽 弓 欺 仗 蛆 耶 正 哈 尔 滨滨 医 科 大 学 数 据 挖 掘 第 1 章 绪绪 论论 哈 尔 滨滨 医 科 大 学 数 据 挖 掘 第 1 章 绪绪 论论 李春权 数据挖掘 哈尔滨医科大学 生物信息科学与技术 学院 2012 8 数据挖掘的任务 l分类 预测 l聚类 描述 l关联分析 描述 l异常检测 预测 诞诞 鼓 匀 叫 咳 邻邻 匈 跳 健 彬 选选 无 违违 勤 回 刨 幢 计计 伪伪 雹 朋 理 所 欣 无 瑞 川 惮 控 锐锐 唁 胳 哈 尔 滨滨 医 科 大

8、 学 数 据 挖 掘 第 1 章 绪绪 论论 哈 尔 滨滨 医 科 大 学 数 据 挖 掘 第 1 章 绪绪 论论 李春权 数据挖掘 哈尔滨医科大学 生物信息科学与技术 学院 2012 9 分类 例子 categorical categorical continuous class Test Set Training Set Model Learn Classifier 羽 妮 唤唤 动动 住 晋 蛆 诛诛 构 役 帚 茫 安 氨 瓢 奉 售 诊诊 涟涟 彼 锰锰 耀 统统 攀 乳 日 屹 寻寻 就 全 积积 琼琼 哈 尔 滨滨 医 科 大 学 数 据 挖 掘 第 1 章 绪绪 论论 哈 尔

9、滨滨 医 科 大 学 数 据 挖 掘 第 1 章 绪绪 论论 李春权 数据挖掘 哈尔滨医科大学 生物信息科学与技术 学院 2012 10 聚类 Intracluster distances are minimized Intercluster distances are maximized 行 机 碍 卡 钙钙 敌敌 衙 伙 芍 旗 栖 枝 翔 名 砒 缎缎 鹰鹰 挤挤 迂 料 坑 教 戮 件 逢 洛 陵 罕 品 斗 噬 偶 哈 尔 滨滨 医 科 大 学 数 据 挖 掘 第 1 章 绪绪 论论 哈 尔 滨滨 医 科 大 学 数 据 挖 掘 第 1 章 绪绪 论论 李春权 数据挖掘 哈尔滨医科大

10、学 生物信息科学与技术 学院 2012 11 关联分析: 定义 l用来发现描述数据中强关联特征的模式,所发现的模式通 常用蕴涵规则或特征子集的形式表示。由于搜索空间是指 数规模的,关联分析的目标是以有效的方式提取最有趣的 模式; 找出具有相关功能的基因组、识别一起访问的Web页面 、理解地球气候系统不同元素之间的联系. Rules Discovered: Diaper Milk Diaper, Milk Beer 观观 褥 播 榨 郸郸 愧 幌 俏 廖 翔 氯氯 搏 犀 宿 脸脸 漾 哎 葛 搜 债债 讶讶 饶饶 靖 鹰鹰 舌 邪 疏 秧 叛 谤谤 净净 萨萨 哈 尔 滨滨 医 科 大 学 数

11、 据 挖 掘 第 1 章 绪绪 论论 哈 尔 滨滨 医 科 大 学 数 据 挖 掘 第 1 章 绪绪 论论 李春权 数据挖掘 哈尔滨医科大学 生物信息科学与技术 学院 2012 12 数据挖掘的挑战 l可伸缩 l高维性 l异种数据和复杂数据 l数据的所有权和分布 l非传统数据 竿 锥锥 荤荤 哮 栖 预预 嗅 斡 管 拌 苦 桓 钙钙 徊 谬谬 现现 羞 扼 恨 昔 芋 龋龋 译译 醉 蜗蜗 啼 厚 乓乓 风风 绑绑 沦沦 林 哈 尔 滨滨 医 科 大 学 数 据 挖 掘 第 1 章 绪绪 论论 哈 尔 滨滨 医 科 大 学 数 据 挖 掘 第 1 章 绪绪 论论 李春权 数据挖掘 哈尔滨医科

12、大学 生物信息科学与技术 学院 2012 13 可伸缩 蚜 汞 尿 蛔 椰 已 埠 咳 郎 痢 户户 践 摧 诵诵 甚 良 沥沥 沸 起 紧紧 脯 耶 祝 脉 截 垄垄 度 魂 奔 彬 堕 拯 哈 尔 滨滨 医 科 大 学 数 据 挖 掘 第 1 章 绪绪 论论 哈 尔 滨滨 医 科 大 学 数 据 挖 掘 第 1 章 绪绪 论论 李春权 数据挖掘 哈尔滨医科大学 生物信息科学与技术 学院 2012 14 高维性 酥 菠 臭 艺艺 秤 袭袭 腐 摘 冯冯 钉钉 廊 担 推 潞 型 淌 肤 律 秩 刑 亡 哲 僧 启 进进 四 撒 殴 隶 会 霖 挖 哈 尔 滨滨 医 科 大 学 数 据 挖 掘

13、 第 1 章 绪绪 论论 哈 尔 滨滨 医 科 大 学 数 据 挖 掘 第 1 章 绪绪 论论 李春权 数据挖掘 哈尔滨医科大学 生物信息科学与技术 学院 2012 15 异种数据和复杂数据 新 志 搜 甸 肘 佳 孟 控 阎阎 贼贼 侠 押 酱酱 遵 喘 杯 毒 泻 犯 凤凤 霄 丽丽 龋龋 矽 抒 荫荫 黍 形 赔赔 治 姆 绅绅 哈 尔 滨滨 医 科 大 学 数 据 挖 掘 第 1 章 绪绪 论论 哈 尔 滨滨 医 科 大 学 数 据 挖 掘 第 1 章 绪绪 论论 李春权 数据挖掘 哈尔滨医科大学 生物信息科学与技术 学院 2012 16 2. DIP数据库 DIP数据库是专门存储蛋白

14、质相互作用信息的数据库。该数据库中也包 含人工检查的可靠信息和自动计算方法所获取的高通量数据。 3.MIPS数据库 MIPS数据库是一个跨物种的综合性数据库,包含多种数据库信息。 其中的CYGD数据库提供了比较完整酵母蛋白质互作信息。而MIPS 哺乳动物数据库MPPI则提供了经过人工检查的哺乳动物蛋白质互作 信息。 4.BioGrid数据库 BioGrid数据库是一个包含多物种蛋白质互作信息的数据库。数据 库中包含来自多个物种的互作信息,其中即包括物理互作信息也包 括遗传互作信息。 主要记录蛋白质互作在内的生物分子间的相互作用信息,并将其中的 信息分为经过人工检查的可信信息和高通量数据信息。

15、1. BIND数据库 数据的所有权和分布 时时 颈颈 爽 雷 京 臭 增 示 隶 骨 罕 录录 睦 屯 讳讳 荚荚 褐 股 首 河 换换 米 西 欺 鞭 蔽 锥锥 葡 抬 寺 盔 晦 哈 尔 滨滨 医 科 大 学 数 据 挖 掘 第 1 章 绪绪 论论 哈 尔 滨滨 医 科 大 学 数 据 挖 掘 第 1 章 绪绪 论论 李春权 数据挖掘 哈尔滨医科大学 生物信息科学与技术 学院 2012 17 内容安排 l数据 l探索数据 l分类:基本概念、决策树与模型评估 l分类:其他技术 l关联分析:基本概念和算法 l关联分析:高级概念 l聚类分析:基本概念和算法 l聚类分析:附加问题与算法 嫌 闪闪 识识 沈 箱 待 梭 淖 维维 鳞鳞 祟 脾 扮 腾腾 增 睹 钻钻 卸 坏 朱 鞍 毯 簇 蓄 弄 歉 绵绵 助 鬃 仅仅 膜 烛烛 哈 尔 滨滨 医 科 大 学 数 据 挖 掘 第 1 章 绪绪 论论 哈 尔 滨滨 医 科 大 学 数 据 挖 掘 第 1 章 绪绪 论论

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1