统计图可视化研讨班.ppt

上传人:本田雅阁 文档编号:3217244 上传时间:2019-08-01 格式:PPT 页数:61 大小:8.59MB
返回 下载 相关 举报
统计图可视化研讨班.ppt_第1页
第1页 / 共61页
统计图可视化研讨班.ppt_第2页
第2页 / 共61页
统计图可视化研讨班.ppt_第3页
第3页 / 共61页
统计图可视化研讨班.ppt_第4页
第4页 / 共61页
统计图可视化研讨班.ppt_第5页
第5页 / 共61页
点击查看更多>>
资源描述

《统计图可视化研讨班.ppt》由会员分享,可在线阅读,更多相关《统计图可视化研讨班.ppt(61页珍藏版)》请在三一文库上搜索。

1、统计图可视化,目录,数据变换 统计图表 统计图表工具,视觉变换,归一化,目的 根据分布映射数据 颜色/尺寸/坐标位置编码 归一化区间: -1, 1 0, 1,数据变换,线性变换 对数变换 可以自定义变换函数,曲线拟合/光滑,目的:展示数据趋势 不同的拟合方式 线性回归 PLSR(partial least squares regression,偏最小二乘拟合) LOESS(Locally weighted scatterplot smoothing),统计采样,什么是统计采样? 从统计分布中选出的样本 用于近似原分布中的特征 影响采样的因素 分布本身的特性 数据的测量精度 是否需要分析样本细节

2、(样本精细度) 采样成本,降维*,主元分析(Principal Components Analysis,PCA) 多尺度标记(Multidimensional Scaling,MDS) 自组织网络(Self-Organizing Map,SOM),聚类,K-means聚类 其他聚类方法 * Expectation-Maximization Clustering (EM) * Gaussian Mixture Model (GMM)* Spectral Clustering* Hierarchical Clustering*,K-Means聚类,随机产生K个中心位置 将每个数据点归为距离最近的中

3、心位置所属的类 根据新的类别划分重新计算中心位置 回到第一步,直到满足一定约束 K-medoids 改进 中心位置必须在数据点所在位置上 中心位置满足“到类内所有数据点的距离之和最小”,统计图表,折线图,宽高比,太阳黑斑,45倾斜,两条线段在平均绝对角度为45时能够最大程度 被区分,优化横纵比为45倾斜,中值斜率倾斜,平均斜率倾斜,平均方向倾斜,横纵比倾斜,平均斜率 中值斜率 平均方向,闭合形式,迭代优化器,多尺度45倾斜,二氧化碳测量 William S. Cleveland Visualizing Data,多尺度45倾斜,目标 为不同的规模优化横纵比 方法 鉴别感兴趣数据的尺度 生成特定

4、规模的趋势线 把这些线向45倾斜 过滤生成的横纵比,多尺度45倾斜,使用光谱分析方法确定趋势 找到频率最高的组件 使用低通滤波方法生成趋势线,计算能量光谱,原始数据,利用离散傅里叶变换计算平方级数,能量光谱,光滑光谱,使用高斯滤波计算卷积 窗口大小=3, =1,光滑后的能量光谱,能量光谱,光谱阈值,阈值设为中值 保留连续运行中的上一个值,Threshold Power,生成趋势线,使用低通滤波生成趋势线,将趋势线倾斜为45,横纵比过滤,过滤相似的横纵比 如果i+1ci则保留(c默认为1.25),太阳黑斑周期,从1700-1987年的值,二氧化碳,Mauna Loa天文台在1950-1990每月

5、公布的数据,Aspect Ratio = 1.17 Aspect Ratio = 7.87 Power Spectrum Aspect Ratios,应用,趋势浏览器,small multiples,sparkline,尺度 (scales),哪一幅图比较好?,清晰标识尺度的中断,标识的不好 Cleveland 85,标识的非常好 Cleveland 85,尺度中断与log尺度,都提高了视觉分辨率 Log尺度容易比较所有数据 尺度中断很难跨越中断比较所有数据,线性尺度和log尺度,柱状图,捷克 爱尔兰 德国 澳大利亚 英国 美国,加拿大 南非 墨西哥 日本 巴西 中国,每个国家消费了 多少啤酒

6、?,每人每周消耗的瓶数,尺度,偏离设计,显示到主集合值的不同,使用零点为基准点,Naveen Sinha, 2009,散点图 (scatter plot),数据转换,曲线匹配数据的程度如何?,Y 值,残留图,从最佳匹配曲线的纵向距离划分 残留图体现了匹配的精度,Y 值,显示数据,相同的中值,方差,对应系数和线性回归线,盒须图,盒须图,盒须图变种,盒须图变种,其它统计图部件,坡度图(Slope Graph) By Edward Tufte 易于数据的对比,其它统计图部件,Bricks能更好地进行数值对比 但是不能很好地解决bricks重叠覆盖的情况,Bricks by Stephen Few,统

7、计图对比,By Stephen Few,数据走势 + 模糊分布,数据分布,折线图 重量级 同时表达数据走势和分布,Sparkline 轻量级 只表达数据走势,Bandline 中量级? 表达数据走势和分布,By Edward Tufte,制作统计图表的工具,统计领域常用 R SAS SPSS Stata Tableau 8 Google Charts Mathematica 9,http:/,www.r-project.org/,Google Chart Tools,https:/google- Chart Tools,https:/google- Charts功能,丰富可定制的图表 自由且与数据一致 跨浏览器,兼容移动设备 对动态数据有良好的扩展性,课外阅读,Google Charts https:/google- Visual and Statistical Thinking: Displays of Evidence for Making Decisions. Edward R. Tufte,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1