John Sullivan给你的5项技能建议,实践是进入数据科学世界的最佳方式.doc

上传人:白大夫 文档编号:3253380 上传时间:2019-08-06 格式:DOC 页数:4 大小:18.50KB
返回 下载 相关 举报
John Sullivan给你的5项技能建议,实践是进入数据科学世界的最佳方式.doc_第1页
第1页 / 共4页
亲,该文档总共4页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《John Sullivan给你的5项技能建议,实践是进入数据科学世界的最佳方式.doc》由会员分享,可在线阅读,更多相关《John Sullivan给你的5项技能建议,实践是进入数据科学世界的最佳方式.doc(4页珍藏版)》请在三一文库上搜索。

1、John Sullivan给你的5项技能建议,实践是进入数据科学世界的最佳方式编者按:上MOOC、读教科书、一遍又一遍地刷题在毕业前,如果你对未来还是这样一幅态度,那你几乎就是在虚度光阴。虽然数据科学家是未来最“性感”的工作,但要成为“性感”的人,枯坐灯前当个书呆子可不成在毕业前,也许你是个勤奋的人,一直很努力地自学教材,也会上在线课程充实自我,但临近毕业,现在的你在做些什么呢?数据科学家是一份令人望而生畏的工作,一方面,毕业生不知道自己水平是否足以胜任;另一方面,面试人员往往也很难从毕业生身上看出他们的全部实力。但每个人都有走出象牙塔的一天,为了让自己在社会上更有实力,你准备好迎接挑战了吗?

2、如果你的梦想是当一名数据科学家,下面是DataOptimal创始人John Sullivan给你的5项技能建议。实践是进入数据科学世界的最佳方式,而掌握热门的必备技能将使你在职场上面面俱到。1.数据清理不要以为其他分析师会帮你处理好一切,作为一名数据科学家,如果你刚接手一个新项目,你可以把项目总用时里的80%用来做数据清理,这是科学的。无论是多高级的数据团队,数据清理始终是从业人员心中的巨大痛点,换个角度看,这也是你的机遇。如果你能证明自己在数据清理上面经验丰富,那你的价值实现指日可待。为了锻炼这方面的能力,记得找一些混乱的数据集,多多练习,多多积累。如果你用的编程语言是Python,Pand

3、as是个好库;如果是R语言,dplyr包也是个不错的选择。换句话说,语言和库只是工具,但你用它们做的事是一样的:导入数据添加多个数据集检测缺失值检测异常值填补缺失值保证数据质量2.探索性数据分析数据科学的另一个重要技能是探索性数据分析(EDA)。当有人扔给你一份数据时,你对这份数据完全陌生,又没有足够的业务背景,会不会感觉无从下手?如果你什么都不管,直接把数据喂给各种模型,却发现效果不好,因为你没有好的特征,那么你可能需要的是数据探索。EDA是对已有数据在尽可能少的假定下进行探索,通过各种可视化方法探明数据结构、规律的一种数据分析方法,它能让你建立起对数据的直觉。从效果上来看,EDA允许分析师

4、从数据中得出结论以推动业务影响,这个影响可以是客户群分析,也可以是季节性销售趋势。让自己和公司获得意料之外的惊喜,这是EDA的魅力。对于EDA,Python用户可以用Pandas和Matplotlib,R语言用户可以用ggplot2包。一个精通EDA的人需要熟练这些技巧:为数据分析制定问题表明趋势表明变量间的协变用可视化结果(散点图、直方图等)有效地传达结果3.交互式数据可视化交互式数据可视化包括仪表板等工具。这些工具对数据科学团队以及更多面向业务的终端用户都很有用。仪表板允许数据科学团队进行协作,并一起商议见解。更重要的是,它们为面向业务的客户提供了一种交互式工具,后者往往专注于战略目标,而

5、非技术细节。一般情况下,数据科学项目的最终呈现应该是以仪表板的形式出现的。对于Python用户,Bokeh和Plotly库非常适合创建仪表板。对于R用户,请务必查看RStudio的Shiny软件包。无论是那种,你的仪表板上都要遵循:包含和客户需求相关的各项指标创建有用的feature布局合理(如F-pattern可以在客户扫视时,让他们记住大部分内容)切换演示文稿频率合理生成报告或其他自动操作4.机器学习机器学习是数据科学的重要组成部分。当然,这不是说你现在就得开始学习构建复杂的深度学习模型,事实上,大多数工作都不需要你有太高的机器学习知识水平。线性回归、逻辑回归,会用这些简单算法就够了,而且

6、这些东西也更容易让你的领导理解,理解是沟通的基础。如果要在这方面积累经验,记得做客户留存预测、贷款预测、欺诈检测这类项目。这不是说预测植物品种这类问题不好,只是前者能帮你积累更多业务常识。如果你是Python用户,用Scikit-learn库。对于R用户,用Caret包。同样的,下面是必须要呈现的内容:为什么要选这个特定模型把数据拆成训练集和测试集(k倍交叉验证),避免过拟合选择正确的评估指标(AUC、adj-R2、混淆矩阵等)调整超参数5.沟通沟通是所有工作的必备技能。优秀数据科学家和普通数据科学家的区别在于前者能有效传达结果,而后者不能。无论展示的模型有多花哨,如果你看到客户后连嘴巴都张不

7、开,他们又怎么会支持你的成果?PPT和笔记本电脑是沟通必备工具,你也可以用Jupyter Notebook或RMarkdown文件和客户交流项目。确保了解你的目标听众是谁,向高管们展示和向机器学习专家展示完全不是一码事。一定要掌握这些技能:了解目标受众提供相关可视化PPT不要过长PPT演示流畅结果和业务影响紧密结合(降低成本?增加收入?)辛辛苦苦做完项目后,不要把文件随便乱丢,要养成收集、记录的好习惯。你可以用Github Pages把文件免费转成静态网页,为你的潜在雇主提供了解你的资料。最后,只要是入了数据的门,无论短时间内岗位是不是称心如意,接受了这份工作就保持积极态度,继续不断尝试项目,快乐工作,快乐找更好的工作!

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1