为何大数据不是必然的好数据.pdf

上传人:tbuqq 文档编号:4742509 上传时间:2019-12-05 格式:PDF 页数:3 大小:318.04KB
返回 下载 相关 举报
为何大数据不是必然的好数据.pdf_第1页
第1页 / 共3页
亲,该文档总共3页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《为何大数据不是必然的好数据.pdf》由会员分享,可在线阅读,更多相关《为何大数据不是必然的好数据.pdf(3页珍藏版)》请在三一文库上搜索。

1、为何大数据不是必然的好数据 Facebook,谷歌或是 IBM 等一些技术公司,正忙于兜售“ 大数据 ” 那足以改变世 界的能力。大数据源于移动设备,网页搜索,公民科学研究,以及网络传感器。在 此前都没有如此巨大且涵盖面如此之广的数据供应,这其中甚至能包括网购动态或 癌症研究。然而,谈到数据时一些科学家仍不免小心翼翼,因为更大并不意味着更 好。 当信息从不同的资源上被截取时,通常会造成信息环境的缺失,从而导致不可 靠的分析结果。举例来说,从谷歌2008 年启用谷歌流感趋势(Google Flu Trends , GFT)服务以来,其在精确预测流感等级上时常会遇到困难。一个调研小组于本周 五,在

2、自然杂志的政治论坛版面发布了日志,详细说明了大数据工具的不 足,以及它所拥有的巨大潜力。 谷歌所设计的流感数据整合器,根据谷歌搜索, 与流感相关活动相匹配的内容, 提供全球范围内流感情况的实时监控。尽管有一些成就,但在过去两年中,GFT在 美国有过高预测流感峰值的情况。据来自于休斯顿大学,东北大学,哈佛大学的研 究者所言, GFT在 12-13 季度对流感流行趋势的预测,做的同11-12 季度一样糟, 误差都超过了百分之五十。此外,从 2012 年八月至 2013 年九月,在总共 108 周的 时间里, GFT 有 100 周的时间都过高估计了流感的流行。 自然杂志在 2013 年二月的新闻中

3、报道, GFT 预测类流感病例的求诊次数, 比美国疾病控制预防中心(Centers for Disease Control and Prevention (CDC) 基于若干实验室的检测报告所作出的预测数量要高出两倍。 (科学美国人是自然出版集团的子刊物) 自然杂志报导,谷歌的软件所依靠的是“ 谷歌搜索引擎对于键入搜索栏的, 与流感相关的搜索的数据挖掘记录,结合电脑建模。” 。尽管这周为政治论坛撰 稿的研究人员列举了许多GFT 存在的瑕疵, 但是自然杂志却指出 GFT 的整体工 作” 几乎与 CDC自身的监控数据在时间上是匹配的-然而它比 CDC所能传递数据的的 时间要快上好几天。“ 谷歌于去

4、年十月一项研究,自我推断出了在2012-2013 的美国流感季中, GFT 对于流感的算法 (就像最近他们所启用的谷歌登革热趋势(Google Dengue Trends ) 一样),容易受到媒体覆盖范围提高的影响“ 。“ 我们每年都要回顾流感趋势的模型, 从而决定如何进行改进-我们的上一次更新是在先于2013-2014 流感季度前的2013 年 10 月。” 根据一位谷歌发言人的说法。” 我们非常希望得到如何改进GFT以便让 它帮助我们更好地预测流感等级的反馈。 政治论坛的研究人员发现,增长的与流感相关的在线资源的传输也会成为 这个问题中值得考虑的因素,不过他们质疑“ 上个流感季因媒体刺激而

5、引起的恐慌” 是否完全解释了 “ 为何 GFT 在超过两年的时间里都有很大预测误差。而更为可能的 凶手,是谷歌的搜索算法本身所做出的改变。 这就是研究人员们争论的核心,他们争论于这两者谁对于GFT 所犯错误来说贡 献更大:算法动态和 “ 大数据沙文主义 ” GFT的突出特殊搜索内容的特别方法,在GFT完全没有预测到2009 年蔓延全 国的非季节性流感A-H1N1(甲型流感病毒H1N1 亚型)后,证明了自己的失败。 “ 研 究人员说道, ” 总的来说, GFT 的最初版本是一部分用作流感探测器,一部分用作冬 季探测器。 “ 大数据沙文主义就是 “ 经常性地隐含假定, 大数据是对于传统数据收集和分

6、析的 替代,而不是补充。 ” ,研究人员提醒,许多大数据工程的错误,都是因为他们的设 计并不科学,无法产生有效可靠并对科学分析负责的数据。而它他们依靠的数据往 往来自于智能手机,搜索结果,社交网络等资源,而不是细心参诊的病人和科学仪 器。 其它的一些研究已经显示了大数据的价值,但研究人员意识到, ” 我们还不能达 到完全替代传统方法和理论的地步。” 他们提醒 ” 将 GFT 及其它的近实时的健康数据结合的话,可以充分发挥其价值。 “ 举例来说,将 GFT和延迟的 CDC数据结合,并动态地重新校正GFT,我们就可以 充分地提升 GFT的表现, 或是单独地提升CDC的表现 . ” 又比如, 在非常地方的层面 上呈现流感的流行趋势这种CDC数据无法表现的很好的领域,大数据可以成为更好 的了解未知事物的有效工具,。 根据研究人员所说,大数据工程也可以通过提升它者复制自身的能力,来获得 更加透明的利益。 像谷歌,推特,Facebook 这样的平台经常会重新设计他们的软件。 而仅依据一次数据收集所做的研究,是否能通过收集其更早期或更晚期的数据来进 行重做,仍是一个待解决的问题。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1