第讲警惕统计陷阱.ppt_三一文库31doc.com

资源描述

《第讲警惕统计陷阱.ppt》由会员分享，可在线阅读，更多相关《第讲警惕统计陷阱.ppt（66页珍藏版）》请在三一文库上搜索。

1、现代社会调查方法,第九讲警惕统计陷阱,蒙提霍尔问题/三门问题 Monty Hall problem,出自美国的电视游戏节目Lets Make a Deal。问题名字来自该节目的主持人蒙提霍尔。参赛者会看见三扇关闭了的门，其中一扇的后面有一辆汽车，选中后面有车的那扇门可赢得该汽车，另外两扇门后面则各藏有一只山羊。当参赛者选定了一扇门，但未去开启它的时候，节目主持人开启剩下两扇门的其中一扇，露出其中一只山羊。主持人其后会问参赛者要不要换另一扇仍然关上的门。那么问题来了：换另一扇门会否增加参赛者赢得汽车的概率？,参赛者选择汽车（1/3概率）,参赛者选择A羊（1/3概率）,主持人挑出任一只

2、羊,主持人必须挑出B羊,参赛者选择B羊（1/3概率）,主持人必须挑出A羊,参赛者最初选择时有1/3的相同概率选择汽车、A羊和B羊，转换后的获胜概率为2/3。,解释：当你从三扇门中选了门1后，这扇门后面有奖的几率是1/3，另两扇门是2/3。但接下来主持人给了你一个线索。如果奖品在门2后，主持人将会打开门3；如果奖品在门3后，他会打开门2。所以如果你改选的话，只要奖品在门2或门3后你就会赢，两种情况你都会赢！但是如果你不改选，只有当奖品在门1后你才会赢。总结：概率存在于被给予的条件下，概率不能寄托在实际的物体上。,霍桑效应 Hawthorne Effect,20世纪20年代，位于美国芝加哥

3、城郊外的西方电器公司的霍桑工厂，是一家制造电话机的专用工厂，它设备完善，福利优越，具有良好的娱乐设施、医疗制度和养老金制度。但是工人仍然愤愤不平，生产效率也很不理想。为此，1924年美国科学院组织了一个包括各方面专家在内的研究小组，对该厂的工作条件和生产效率的关系，进行考察和实验，就此拉开了著名的霍桑实验的序幕。 1927年至1933年，由哈佛大学心理家乔梅约（George Mayo）教授为首的研究小组进行了第二回合的实验研究。,实验最开始研究的是工作条件与生产效率之间的关系，包括外部环境影响条件（如照明强度、湿度）以及心理影响因素（如休息间隔、团队压力、工作时间、管理者的领导力）。研究意外

4、发现，各种试验处理对生产效率都有促进作用，甚至当控制条件回归初始状态时，促进作用仍然存在。这一现象发生在每一名受试验者身上，对于受试验者整体而言，促进作用的结论亦为真。显然，实验假设的各项条件并非是唯一的或决定性的生产效率影响因素。对此，梅奥团队所做的解释是，受试者对于新的实验测试会产生正向反应，即由于环境改变（研究者的出现）而改变行为。所以绩效的提高，并非由实验条件造成，而是自身的反应。这一效果即所谓的“霍桑效应”。,由于受到额外的关注而引起绩效或努力上升的情况我们称之为“霍桑效应”，也就是所谓的“宣泄效应”。在此之前的管理学把人假设为“经济人”，认为金钱是刺激积极性的唯一动力；霍桑实验

5、首次证明了人是“社会人”，是复杂的社会关系的成员，因此，要调动工人的生产积极性，还必须从社会、心理方面去努力。,统计数字会撒谎 How to Lie with Statistics,作者: 美达莱尔哈夫（Darrel Huff）,1. 内在有偏的样本 The sample with the built-in bias,示例1： “6月15日，人工智能公司iPIN.com在北京发布了2015年中国大学薪酬排行榜，清华大学高居榜首，复旦大学和上海财经大学分列二三位。据介绍，这份薪酬排行榜是根据来自招聘和猎头公司的4000万大学毕业生真实毕业去向数据分析所得，由各大学毕业五年薪酬指数计算所得。”

6、转自新浪教育频道，2015年6月16日,示例2： “近年来，湖南衡阳亲子鉴定人数越来越多。衡阳市中心医院病理科法医伍先生介绍，去年1月至今年7月，前来咨询做亲子鉴定的约有100例，其中不是亲生的占35%。亲子鉴定35%非亲生，如果这个数据确凿，确实令人惊讶。尽管社会的开放度提升了，但这个比例实在太高了。这个问题非常严重，一定要想办法解决。” 潇湘晨报 2013年7月28日,示例3： “据杜蕾斯的一项全球调查显示，男人一生平均有13个性伴侣，而女人的（性伴侣）只有7个。”男人真的比女人花心？转自搜狐网男人频道，2013年1月11日,小结：究竟调查了多少样本？多少人愿意回答调查问卷？调查问

7、卷基本是那些现在还能取得联系而且愿意回答这些问题的人“垄断”，基本没什么意义。你只能调查你看得到的人们在回答问题的时候也不会真的说真话，可能会美化自己的形象，或者迎合提问者的偏好。人格面具不可避免（尤其是面访时）,无论如何，只要有可能的误差（有形的、无形的），你都应该对结论保持怀疑的态度。可以刻意造成的误差：调查对象的年龄层、调查地点（大商场大多是年轻人，高级酒店大多是商务人士）、调查时间（早、晚）。场景要匹配从总体中抽出的样本（第一次抽样）远不能称为随机抽样，因此可能对所有的总体都不具有显著的代表性。,被调查的样本是否具有代表性，是否能代表未参加调查的样本？统计中会出现两种趋势：夸大

8、和缩小。两种趋势相互抵消的可能性极小。一般，一种趋势会强过另一种趋势，我们很难猜测哪种趋势胜出根据样本得到的结论，不会比样本更精确。看到精确的统计数据时，要思考统计的过程是什么样的。,为了确保结论有价值，要采用有代表性的样本，这样才能排除各种误差。心理学家说：人都点神经质从病例的数量来看，确实可以证明但病人在正常人中的比例是多少，正常人是不看心理医生的最基本的样本是随机样本，它是指完全遵循随机选择从总体中选出的样本，总体即形成样本的母体。,随机样本的检验方法是，总体中的每个名字或事物是否有相同的几率被选进样本？纯随机样本是唯一有足够把握经受统计理论审查的样本，样本选取难度大，成本昂

9、贵。分层随机抽样是一个更经济的替代品，通过准备好内部所有单位的名单，只调查被随机抽中的单位。,示例4： 1936年，共和党人兰登与当时的总统罗斯福竞选下届总统美国，文学文摘（Literary Digest）这家颇有声望的杂志承担了选情预测的任务。此前，它已经成功地预测了5次总统选举的结果。当时采用的是邮寄问卷的办法，调查人员雄心勃勃，从电话号码簿里和本杂志的订户中选取了需要邮寄问卷的对象1000万个，覆盖四分之一的选民。杂志最终收到了惊人的240万份回执，在统计计算完成以后，它预言兰登将击败寻求连任的罗斯福总统，然而这次调查的结论和实际的结果大相径庭，结果却是罗斯福以压倒多数再次当选。,2

10、. 精心挑选的平均数 The well-chosen average,示例1： “2012年底，城镇和农村人均住房面积32.9平方米、37.1平方米，分别比2007年增加2.8平方米和5.5平方米。” 温家宝：政府工作报告，第十二届全国人大一次会议，2013年3月25日,质疑： “32.9平方米”这个数字表明我国“全面小康”中含金量最大的一块住房小康已经基本实现（主要指标为：到2010年城镇人均住房建筑面积达到30平米，到2020年达到35平米），标志着我国城镇居民的住房问题基本解决。真相果真如此吗？又被平均了？这并非“民生话题”，而是一个再简单不过的“算术问题”。让我们来算一算,根据国家

11、统计局2012年度统计年报，到2012年底，“全国大陆总人口为135404万人，其中城镇人口为71182万人”。 71182万乘以人均32.9平方米的住房面积，意味着全国城镇到2012年底拥有的全部住房应该为2341887.8万平方米（约234.2亿平方米）。然而，根据原建设部公布的2002年底全国城镇存量住宅面积，加上中国统计年鉴公布的2003-2012年全国城镇住宅竣工的总面积，可得全国城镇总的住宅总面积为155.49亿平方米。可知，用官方公布的统计数据计算，城镇人均住房面积仅有21.8平方米，远低于政府工作报告所称的32.9平方米。,何为“平均”？提问：一条河的平均深度是0.8米，

12、一个小孩身高1.3米，他虽然不会游泳，但肯定不会在这条河里淹死。对吗？为什么？,示例2：富有的邻居：一个人声称社区居民的年平均收入为15万元，同时另一个人则说社区年平均收入是 3.5万元。两个人都对，为什么？,小结：三者关系：平均数（Arithmetic mean）为一个平衡点，是一组数据的重心。它使数轴保持平衡，即支点两侧的力矩是相等的。中位数（Median）只使其两侧的数据个数相同。众数（Mode）是指次数出现最多的，重量较大的那个数据。正态分布的钟型曲线，三个数落在相同点上。例如人类身高、体型订制校服长尾曲线（偏态分布），三种数值相差甚远。,三者比较：,示例3： “截至2

13、011年8月，中国家庭资产平均为121.69万元，城市家庭平均为247.60万元，农村家庭平均为37.70万元。” 中国家庭金融调查与研究中心：中国家庭金融调查报告，2012年,3. 没有披露的数据 The little figures that are not there,示例1：经科学验证，高露洁360牙膏能减少口腔细菌滋生，效果最高高出75%*，有效对抗八大口腔问题。 * 数据来自高露洁研究资料。与高露洁普通含氟牙膏相比。高露洁官网,没有披露的数据： 1. 样本容量：10个还是100个？ 2. 实验过程：测试对象选取、持续时间？,来做一个小实验：每人拿出一枚硬币，连续抛10次，记录

14、正面（数字）朝上的次数。,四种可能性：正面反面竖起来消失了,小结：数量小的样本存在偶然因素不充分的样本，必然导致偶然的、毫无指导意义的统计结论。任何由于机遇所产生的差异，在大样本的使用中都是微不足道的（如2%的抑菌效果）。样本究竟需要多大？取决于采用抽样方式所研究的总体容量有多大、变动程度有多大。但有时样本规模与看上去的并不一致（如小儿麻痹症疫苗实验，450名实验组成员vs. 680名对照组成员，所有人都没患病）。还有统计实验的持续时间问题（如感冒药盛行的逻辑）,数据的显著性检验：注意没有披露的数据显著性程度：10%、5、1% 另一种没有披露的数据：表明事物的变动范围（全距

15、）和给定平均数的偏离水平（标准差） “第六次全国人口普查显示，我国平均每个家庭户的人口为3.1人”两居室户型重复建设，低估了更大或更小规模家庭的需求。昆明和北非撒哈拉沙漠地区的年平均气温都在15左右，但昆明的气温波动范围是728，而沙漠的波动范围是-940,4. 毫无意义的工作 Much ado about practically nothing,示例1：小红和小明做了公认最好的智力测验斯坦福-比内测验（Stanford-Binet scale），结果是小红的智商为101，小明的只有98。专家告诉我们智商的平均数是100，即100意味着“正常”。于是进一步推断，小红是比较聪明的孩子，小明是

16、个笨孩子。任何类似的结论都是胡说！,解读：无论智力测验的是什么，它与通常意义上的智商都不会是一回事。智力测试只是智力水平的一个抽样，与其他抽样一样，智商值也具有统计误差，误差值将衡量该数值的准确度和可信度。假定测量的误差是3%，这样一个孩子的真正智商可能是983，也即95到101；而另一个孩子的真正智商可能是1013，也即98到104，而且在此区间内的分布是相同的。在这种情况下，其实还有不小的可能那个“智商低”的孩子的智商比那个“智商高”的孩子要高。,小结：对待智力测验以及许多其他类似的抽样结果都应该注意它的范围。如平均智商不应该只是100这样的一个数值，而应该是诸如90110这样的

17、一个范围。所有抽样统计都存在误差，忽略这些误差将导致一些愚蠢的举动。只有当差别有意义时，才能称之为差别。,示例2： 10种香烟焦油含量比较图,5. 令人惊奇的图形 The gee-whiz graph,一张图告诉你朴实的10%的增长，而另一张却看起来是让人振奋的100%的增长，别怀疑你的眼睛，截然不同的两幅图说的可是同一回事！,小结：最简单的统计图形是直线类图形。在显示趋势时，直线图形非常有用。数据是相同的，所以图形也相同，除了图形给人留下的印象不同之外，没有进行任何的伪造。改变一下横纵坐标的比例关系，就可改变图形（没有规定不可以这么做）。图形比文字更有效，图形更具有客观性的幻觉。

18、,6. 一维图形的滥用 The one-dimensional picture,数字是21，但视觉效果却是81。嘴上说的是1.5倍，看起来却是3倍或许你正在被这些图形所振奋着。,小结：在比较两种或两种以上事物某个方面的具体数量时，柱状图是一种便捷常用的方法。柱状图也具有欺骗性！在描述单一物体时，柱体改变宽度的同时，长度也会发生变好；在描述三维物体时，物体的体积又不容易进行比较，因此不论何种情况，我们都应该对柱状图保留一些怀疑。使用钱袋的形象，虽然长宽高都是1:2，但给人的感觉是体积感，显示数值的比例是远远大于1:2的。因此，在大多数时候，视觉效果起着决定性的作用。,7. 不完全匹配的资料

19、 The semi-attached figure,示例1：火车和飞机哪个更安全？ “2010年全国铁路交通死亡人数1589人，航空运输方面死亡42人。” 政府统计公报,解读：统计基数不同：2010年全国铁路共发送旅客16.76亿人次，全国民航旅客运输量则为2.68亿人次。统计口径不同：铁路交通事故数据绝大多数都是路外事故和生产事故，而不是行车事故，即真正因行车事故死亡的车内乘客只占一部分。而航空运输只统计飞行事故，不包含地面事故和生产事故。直接比较各类交通工具的意外事故数量来判断旅途安全情况是不正确的，应该通过询问每100万乘客里程的遇难人数，并比较这些人数才能确定哪种出行方式的风险

20、最大。,小结：当无法证明某件事时，通过证明别的事情，并假装它们是一回事，因此产生混淆。不完全匹配的资料很容易糊弄人。许多不相匹配的数据不是故意欺骗，而是被报道故意歪曲（如：当兵更安全？）。通过照片对比也可以制造不匹配（如减肥效果对比）。,8. 相关关系的误解 Post hoc rides again,示例1： “目前吸烟大学生的学习成绩差，与目前不吸烟大学生有显著性差异。应重视吸烟行为对大学生健康的危害，积极开展健康教育以及对大学生吸烟的行为进行干预。” 印爱平等：大学生吸烟状况调查，中国实用医药2007年第22期,解读：样本容量是否足够大？抽样过程是否科学合理？相关关系是否确实十分

21、显著？两个事物之间的关联关系并不能用于说明其中一个将引起另外一个的变化。谬误：如果b紧跟着a出现，那么a形成了b 抽烟与低分同时出现抽烟导致低分会不会是相反的作用关系？因为成绩不理想促使学生变得爱抽烟，依次释放压力。两个因素并不互为因果，而可能同为第三个因素的产物。也许性格与分数相关，也许内向性格的学生更爱抽烟。,小结：一种相关是由偶然性产生的小概率发生的事情，可以用很小的样本证明一种相关是互为因果收入越多，买的股票越多；买的股票越多，收入越多。一种相关是所有变量相互间没有影响，但是存在显著的关系抽烟多与成绩低之间的关系，但可能涉及第三因素：性格。,小结：超过相关关系的

22、数据范围而得出的结论雨多，谷物长得好；但是要是下连续下暴雨呢？不能超过“度” 一种趋势通常不是一对一的理想关系有些可以证明是正相关，但是同样也可以证明其毫无意义数据是真实的，但是未必能得出一个可以证实的结论，也许完全建立在假设之上。在胡乱使用相关性时，要分辨这种相关是事件变迁的产物或时代趋势的产物。,9. 如何反驳统计资料 How to talk back to a statistic,其一，谁说的？首先寻找有意识的偏差。当提到权威人士的时候，应看内容是不是权威的，而不是仅仅扯上大名。其二，他是如何知道的？看样本是否有偏？样本是否足够大？以保证结论值得信赖,关于数据的来源我

23、们需要注意五点：（1）数据发布机构是否权威（代表性）？国研网：行研报告，各类数据。国家统计局数据库：宏观数据、金融、教育、行业数据等，包含国家一级、31个省以及200多个市的数据。中国统计年鉴：历年统计年鉴以及普查数据、专题数据等。（2）是否发布机构的原版文件（可信度）？,（3）数据采集面向的对象（调研主体）？（4）数据是一手数据还是二手数据（时效性、相关性）？,（5）数据采集方式是什么?（投票方式）在网络上进行投票还是在现实中分发问卷有很大的不同，两者都有很多细节点需要注意。网络投票：如何防止机器人、恶意投票以及UI的设计是关键。现实问卷：如何设计题目（逻辑性、完整性、非诱

24、导性）以及投放方式（时间、地点、对象）是关键。,其三，遗漏了什么？信息发布者和信息本身具有利害关系，需要关注一下。很多信息缺乏比较而失去意义。有时仅给出百分数却没有原始数据也能造成欺骗。选择数据的产生的时期，也会产生误导大萧条后，利润指数增长超过工资，工会因此要求涨工资。实际上，大萧条时，利润降到了最低。有时文章遗漏引起变化的原因，而使读者误解其他因素是引起变化的原因。,其四，是否有人偷换了概念？相关关系变成因果关系。很多人标榜第一，但是从没有说清是哪个具体领域。其五，这些资料有意义吗？建立在未经证实的假设之上有意义吗？已发生的事情都是事实，而未来的趋势都是预测，暗含的条

25、件是所有条件都相同，现在的趋势将继续下去。,以下说法存在什么问题？,成龙的格力空调广告说：“我要省电30%。” 在美国与西班牙交战期间，美国海军的死亡率是9，而同时期纽约市居民的死亡率是千分16。后来海军征兵人员就用这些数据来证明参军更安全。英国新赫布里群岛土著居民的信条：身上的跳蚤会带来健康。因为通过几个世纪的观察，土著居民发现健康人的身上总有一些跳蚤，而身体羸弱的人身上通常没有跳蚤。于是他们得出结论：跳蚤使人身体健康，每个人身上都应该有跳蚤。,调查显示近半数中国富人想移居海外,巴克莱（Barclays）的一项新调查显示，近半数中国富人打算在未来五年内移居他国。这项调查访问了超过2000

26、名高资产值个人，这些人的资产总额超过15亿美元。该调查显示47%的中国受访者表示他们想移居他国，而调查得到的全球平均比例为29%。,华尔街日报中文网，2014年9月20日,中国取暖政策导致的空气污染对预期寿命的影响,2013年7月8日发表在美国国家科学院院刊（PNAS）的一篇论文，向已经逐渐意识到空气污染危害的中国民众再次展现了残酷的现实：以淮河为界，烧煤供暖的中国北方地区空气污染水平高于中国南方，北方5亿居民因严重的空气污染，平均每人失去5年寿命。,http:/www.pnas.org/content/110/32/12936.full,由于使用燃煤取暖，中国 5 亿北方居民预期寿命将缩短 5.5 年,如何得出结论？,淮河以北地区，政府提供了暖气，用烧煤的方式进行，而淮河以南则没有。作者发现，由于烧煤，淮河以北的空气总悬浮物比淮河以南多了，而空气污染造成的结果，淮河两岸的人均寿命差异则是惊人的5年。,这个结论有什么问题？,第一个问题：连续性假设是否对所有变量都成立？第二个问题：无法消除的自选择性第三个问题：小范围的有效性鉴于以上三个缺点，烧煤取暖到5.5年寿命差异这个逻辑链条，我们都不能够完全相信。更别说将这个寿命差异推广到整个北方地区了。,

展开阅读全文