大数据科学与应用慕课.docx

资源描述

《大数据科学与应用慕课.docx》由会员分享，可在线阅读，更多相关《大数据科学与应用慕课.docx（10页珍藏版）》请在三一文库上搜索。

1、大数据科学与应用慕课个人任务学院：经济学院专业：国际商务姓名：丁一玲学号：20151030180不可小觑的力量大数据一、与个人专业知识的结合我是经济学院国际商务专业大二的学生。国际商务学是20世纪50年代开始发展起来的一门年轻的综合性、跨专业的边缘学科。它要求学习者掌握西方经济学、国际经济学的理论和方法；国际商事活动的基本知识和基本技能；国际市场营销的本领；并能运用计量、统计、分析方法进行分析和研究；了解国际经济学、国际贸易理论发展的动态；了解主要国家和地区的经济发展情况及其贸易政策和发展动态；了解中国的经济政策和法规发展动态；并能够熟练地掌握商务英语等。这其中的很多专业知识的运用都与大

2、数据密不可分。从理论知识的学习的知识来看，很多经济学理论及模型都是需要数据作为支撑的。由于经济学上的许多理论模型都是由众多经济现象假设出来的。所以，像菲利普斯曲线、总供给-总需求模型、斯威齐模型等的得出，都离不开对数据的归纳分析。然而，所得到的数据的多少，又决定着，研究所得到的经济模型的适用范围。由于分析数据的规模大小、种类多少的不同，造成一些经济模型只能适用于微观，而一些经济模型又仅适用与宏观。现如今，大数据已逐步渗透到经济学的理论和实际已成为不争的事实。比如西方经济学中宏观部分有一个理性预期学派，其中心思想是指针对某个经济现象（例如市场价格）进行预期的时候，如果人们是理性的，那么他们会最大

3、限度的充分利用所得到的信息来作出行动而不会犯系统性的错误，因此，平均地来说，人们的预期应该是准确的。然而，当这个理论运行到实践中，人们为了达到行动而不会犯系统性的错误这一目标，必须借助对所得到的信息准确分析，而这些信息便是经济数据。当你拥有的数据量足够的大，足够的准确时，由这些数据信息分析出来的预期便会更准确。那么，对于现已有的数据流进行抓取、统计、分析就显得至关重要。从另一个方向来看，现在许多大企业都在运用大数据进行市场估计以及行情预测，可见在21世纪的金融市场上，大数据显得尤为重要。尤其是在股市、证券市场上。一直以来都有“理财有风险，投资需谨慎”，然而大数据时代的到来却新增了一条“数据抓得

4、准，理财走得稳”，大数据，成为金融、证券行业规避风险的最好的利器。随着互联网时代的不断发展，未来国家之间的贸易通过电商平台来实现的可能性越来越大，“互联网+”的思想也符合国家的经济发展的方向，加上国家现行的供给侧改革。把大数据与电子商务结合起来，已成为一大趋势，所以掌握大数据应用这门技术对于我未来的工作而言也是一种助力。电子商务近几年不断发展，学者们对于电商的研究也是在不断的深入。在对外贸易中，跨国公司对于电子商务的重视度也在不断提升。如果未来想在跨国公司有一份属于自己的立足之地，必须要运用好大数据。现在许多电商平台每月甚至每天的交易量都是巨大的。而这些交易所产生的信息便是一个又一个的数据流，

5、通过对于这些数据流的抓取整合分析，便可以对每一个消费者有针对性得提出网推荐精选上营销策略。通过大数据，可以了解到消费者喜好、关注点、生活规律，甚至可以分析估计出消费者的经济状况。这样，对于一个公司的战略决策无疑是有帮助的。大数据可以让市场细分发挥极致。对于一家跨国公司，大数据除了营销方面的助力，对于跨国公司关于海外市场的侵入也是很有帮助的。在国际运营中，有很多进入战略和所有权结构可供选择，最常见的进入方式包括独资子公司、兼并和收购、联盟和合资企业、许可证经营、特许经营和进出口等。其中，最为捷径的道路是进出口，但进出口策略在本质上是过渡性质的，如果公司想继续进行国际业务，必须更积极地进行投资。剩

6、下的常用途径独资子公司、兼并和收购、联盟和合资企业等，有需要精确的市场分析或对于合作及对象公司的发展现状的准确评估。这便会产生大量的数据流。市场上，你的公司所涉及的行业的竞争对手的数据分析；消费者消费水平以及消费意愿的数据分析；生产、运输、销售在本国及海外子公司的成本对比，以及销售情况的准确估值，从而计算出在母公司和子公司的利润，预判市场的优劣等。这些都是大数据的应用空间。二、大数据的常用数据结构随着互联网的兴起，越来越多的内容被放到互联网中，从而导致海量数据处理受到更多人的重视，尤其是在百度、腾讯等这些涉及海量数据的公司。海量数据处理的一些常用数据结构，包括哈希、bitmap、Bloom f

7、ilter、堆、mapreduce、trie树等。（1）哈希哈希，通过哈希函数将关键字与存储位置建立一个对应关系，这样在查找关键字的过程中就没比较进行一个一个比较，而直接定位关键字所在的位置，是一种以空间换取时间的方式。由于所映射的地址空间有限及哈希函数的设置，就是产生冲突，需要建立处理冲突的方法。在一般情况下，冲突只能尽可能的减少，而不能完全避免。那么什么是一个好的哈希呢？通俗点说，好的哈希也许就是能使关键字地址分布均匀，冲突少。在海量数据处理中，哈希可用于快速查找及删除，通常需要总数据量可以放入内存中。哈希实例：海量日志数据，提取出某日访问百度次数最多的那个IP。讲解：IP最多为232个

8、，为4G，一次放入内存中不行，可以采用分而治之的方法，先Hash(IP)/1024，将IP地址分别映射到1024个小文件中，每个文件4M，再将每个小文件中的IP放入内存中，进行hashmap，统计出出现频率最高的那个IP，最后可以得到1024个出现高频的IP，采用冒泡排序，可以迅速找出频率最高的那个IP.推荐精选（2）bitmapbitmap可谓是非常经典的海量数据处理工具，其本质是用bit数组的某一位表示某一数据，从而一个bit数组可以表示海量数据。Bit-map就是用一个bit位来标记某个元素对应的Value，而Key即是该元素。由于采用了Bit为单位来存储数据，因此在存储空间方面，可以

9、大大节省。例：2.5亿个整数中找出不重复的整数的个数，内存空间不足以容纳这2.5亿个整数。将bit-map扩展一下，用2bit表示一个数即可，00表示未出现，01表示出现一次，10表示出现2次及以上，在遍历这些数的时候，如果对应位置的值是00，则将其置为01；如果是01，将其置为10；如果是10，则保持不变.bitmap实例：已知某个文件内包含一些电话号码，每个号码为8位数字，统计不同号码的个数。讲解：8位数字最多为99,999,999，则1亿个bit就可以存储，大约为12.5MB内存。依此查询电话号码，若电话号码对应的比特位为0，则置1，若已经为1，则表明前面已出现该号码。遍历文件完毕后，统

10、计所有比特位为1的位数，即为不同号码的个数。（3）布隆过滤器（Bloom filter）Bloom Filter是1970年由Bloom提出的，最初广泛用于拼写检查和数据库系统中。近年来，随着计算机和互联网技术的发展，数据集的不断扩张使得Bloom Filter获得了新生，各种新的应用和变种不断涌现。Bloom Filter是一个空间效率很高的随机数据结构，它由一个位数组和一组hash映射函数组成。Bloom Filter可以用于检索一个元素是否在一个集合中，它的优点是空间效率和查询时间都远远超过一般的算法，缺点是有一定的误识别率。因此Bloom Filter不适合那些“零错误”的应用场合。而

11、在能容忍低错误率的应用场合下,Bloom Filter通过极少的错误换取了存储空间的极大节省。（1）实例比较假设要你写一个网络蜘蛛（web crawler）。由于网络间的链接错综复杂，蜘蛛在网络间爬行很可能会形成“环”。为了避免形成“环”，就需要知道蜘蛛已经访问过那些URL。给一个URL，怎样知道蜘蛛是否已经访问过呢？稍微想想，就会有如下几种方案：推荐精选1. 将访问过的URL保存到数据库。2. 用HashSet将访问过的URL保存起来。那只需接近O(1)的代价就可以查到一个URL是否被访问过了。3. URL经过MD5或SHA-1等单向哈希后再保存到HashSet或数据库。4. Bit-Map

12、方法。建立一个BitSet，将每个URL经过一个哈希函数映射到某一位。方法13都是将访问过的URL完整保存，方法4则只标记URL的一个映射位。以上方法在数据量较小的情况下都能完美解决问题，但是当数据量变得非常庞大时问题就来了：方法1的缺点：数据量变得非常庞大后关系型数据库查询的效率会变得很低。而且每来一个URL就启动一次数据库查询是不是太小题大做了？方法2的缺点：太消耗内存。随着URL的增多，占用的内存会越来越多。就算只有1亿个URL，每个URL只算50个字符，就需要5GB内存。方法3：由于字符串经过MD5处理后的信息摘要长度只有128Bit，SHA-1处理后也只有160Bit，因此方法3比方

13、法2节省了好几倍的内存。方法4消耗内存是相对较少的，但缺点是单一哈希函数发生冲突的概率太高。还记得数据结构课上学过的Hash表冲突的各种解决方法么？若要降低冲突发生的概率到1%，就要将BitSet的长度设置为URL个数的100倍。实质上上面的算法都忽略了一个重要的隐含条件：允许小概率的出错，不一定要100%准确！也就是说少量url实际上没有没网络蜘蛛访问，而将它们错判为已访问的代价是很小的（4）堆刚接触堆这个概念，是在数据结构中的内部排序算法中，是一种树形选择排序。在海量数据存储中，堆适合解决求取数据中符合条件的某n个数，如出现频率最大的前n个，堆可以放在内存中进行。堆实例：有一个1G大小的一

14、个文件，里面每一行是一个词，词的大小不超过16字节，内存限制大小是1M。返回频数最高的100个词。讲解：由于内存只有1M，不能将整个文件全部放入内存中。我们采取分而治之的方法，首先将1G文件中所有的词哈希到2000个文件中，每个文件大约为500K，哈希过程必须保证相同的词映射到同一文件中。再在每个小文件中采用推荐精选trie树或hash_map统计出现的次数。最后在维护一个容量为100的小顶堆即可。（5）mapreducemapreduce是一种分布式处理，将数据划分到不同的机器上进行处理，最后再对每台机器上的结果进行整合。数据划分，结果规约。mapreduce实例：上千万或亿数据，统计其中出

15、现次数最多的前N个数据。讲解：首先可以根据数据值或者把数据hash后的值，将数据按照范围划分到不同的机子，最好可以让数据划分后可以一次读入内存，这样不同的机子负责处理各种的数值范围，实际上就是map。得到结果后，各个机子只需拿出各自的出现次数最多的前N个数据，然后汇总，选出所有的数据中出现次数最多的前N个数据，这实际上就是reduce过程。（6）trie树trie树是快速查找字符串的一个很有用的工具，是一种树形结构。适用于重复数量比较多的海量数据。trie树实例：1000万个记录（这些查询串的重复度比较高，长度为1-255个字节，但如果除去重复后，不超过3百万个。一个查询串的重复度越高，说明查

16、询它的用户越多，也就是越热门。），请你统计最热门的10个查询串，要求使用的内存不能超过1G。讲解：可以建立一棵trie树（3百万个字符串，大约为765M，小于1G），在关键字域存储其串的出现次数，然后用小顶堆求前10个字符串。或者利用Hash将1000万记录哈希到300万的范围内，统计每个记录的频度(用trie或hash_map)。然后用维护一个大小为10的小顶堆遍历这300万的统计结果。三、大数据处理的常用技术大数据有许多的数据结构，同时人们每天创建的数据量正呈爆炸式增长，但就数据保存来说，技术方面我们的改进不大，而数据丢失的可能性却不断增加。如此庞大的数据量首先在存储上就会是一个非常严重的

17、问题，硬件的更新速度将是大数据发展的基石。推荐精选面对大数据时代的到来，技术人员纷纷研发和采用了一批新技术，主要包括分布式缓存、基于MPP的分布式数据库、分布式文件系统、各种NoSQL分布式存储方案等。充分地利用这些技术，加上企业全面的用以分析的数据，可更好地提高分析结果的真实性。大数据分析意味着企业能够从这些新的数据中获取新的洞察力，并将其与已知业务的各个细节相融合。以下是一些目前应用较为广泛的技术：1）分析技术：数据处理：自然语言处理技术；统计和分析：A/B test; top N排行榜；地域占比；文本情感分析；数据挖掘：关联规则分析；分类；聚类；模型预测：预测模型；机器学习；建模仿真

18、；2）大数据技术：数据采集：ETL工具；数据存取：关系数据库；NoSQL；SQL等；基础架构支持：云存储；分布式文件系统等；计算结果展现：云计算；标签云；关系图等；3）数据存储技术结构化数据：海量数据的查询、统计、更新等操作效率低；非结构化数据：图片、视频、word、pdf、ppt等文件存储；不利于检索、查询和存储半结构化数据：转换为结构化存储；按照非结构化存储；四、设计一个关于电子商务的日志我们知道，电子商务现在发展最为成熟的是各大电商平台，包括京东、淘宝、天猫、国美、苏宁易购等。这些电商平台销售各类商品，有相同种类的商品，比如家用电器；也有不相同种类的商品，比如淘宝、京东有销售服装

19、、食品和图书，推荐精选而国美苏宁则是侧重在家电销售。这样，为了找到各个平台的可比性，我们锁定某一类电商平台都有销售的产品，且这类产品在表面上看不出哪个电商平台销售更占优势，然后通过大数据进行分析。我选定的是手机。这些平台都有销售各式各样的手机，而消费者更倾向于哪些手机或者更倾向于在哪些电商平台购买哪种款式的手机以及选择的原因我们是不得而知的。这样我们可以先考虑把手机细分为品牌，然后再调查各个品牌下的产品，并调查其销售服务以及售后服务。举一部分说明：我们先确定京东商城这一电商平台，然后选定vivo手机的官方旗舰店，搜集vivo手机中的所有产品，并抓取产品的信息（包括价格、型号、颜色、特点、消费者

20、评价、消费者关注度、消费者当天或当月的点击次数、实时销售数据、售后数据、退货数据、消费者评价中的关键词）然后汇总成数据表。同理，抓取京东商城平台里的其他品牌的手机的产品信息。再与京东商城一样，抓取其他电商平台上的各个手机品牌的手机产品信息。制作初步的数据抓取后整理表格形式如图：（注：主要是想突出搜集数据的项目，主要突出产品信息的表头。数据由于没有技术支持，请忽略。）由于获取持续的原始数据，需要编程等复杂的技术操作，这需要有深厚的计算机功底。所以针对这一技术问题，我所能想到的解决方案是：1、通过高薪聘请专业技术人员来帮助获取数据源。2、通过八爪鱼采集器等自动采集工具进行数据抓取。以此来解决自身技术不足的问题。（注：可编辑下载，若有不当之处，请指正，谢谢!）推荐精选

展开阅读全文