如何从头开始进行数据科学项目.doc

上传人:白大夫 文档编号:3421329 上传时间:2019-08-23 格式:DOC 页数:3 大小:17KB
返回 下载 相关 举报
如何从头开始进行数据科学项目.doc_第1页
第1页 / 共3页
亲,该文档总共3页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《如何从头开始进行数据科学项目.doc》由会员分享,可在线阅读,更多相关《如何从头开始进行数据科学项目.doc(3页珍藏版)》请在三一文库上搜索。

1、如何从头开始进行数据科学项目编者按:Zalando研究工程师Jekaterina Kokatjuhha通过解决现实生活的实际问题,介绍了如何从头开始进行数据科学项目。网上有许多关于数据科学和机器学习的教程,它们涉及的实操案例往往离不开讲解理论,提供一些代码,然后分析很干净的数据。但是,如果你想开始实践数据科学,最好的方法其实是选取一个真实生活问题,深入数据以寻找深刻的洞见,用额外的数据来源进行特征工程,创建可独立运行的机器学习工作流。这篇博客文章将讲解从头创建数据科学项目的主要步骤。它基于现实生活问题柏林租金高低的主要决定因素是什么?我们将分析这一情况,并列出机器学习初学者常犯的错误。下面是我

2、们将详细讨论的步骤:寻找主题自web提取数据并清洗取得深入的洞见基于外部API进行特征工程从事机器学习时常犯的错误特征重要性:找到主导租金高低的因素创建机器学习模型寻找主题有许多问题都可以通过分析数据解决,不过寻找一个你感兴趣并能给你提供动力的问题总是最好的。搜寻主题时,毫无疑问,你应该重点关注自己的偏好和兴趣。不过,我建议你不仅关注自己的兴趣,也听听周围的人在谈论什么。什么给他们造成了困扰?他们在抱怨什么?这是数据科学项目的又一个灵感来源。如果人们在抱怨,那也许意味着现有方案并没有很好地解决人们的问题。因此,如果你尝试基于数据分析来处理这一问题,你可能提供一个更好的解决方案,影响人们对这一主

3、题的看法。这些听起来也许都比较抽象。所以让我谈谈自己是如何想到分析柏林的租金的。“早知道这里的租金这么高,我报期望薪资的时候会报一个更高的价格。”这是我从最近搬到柏林工作的人那里听到的话。大多数刚搬到柏林的人抱怨他们没想到柏林的生活成本这么高,也没有关于公寓可能价格范围的统计数据。如果他们事先知道这一点,他们在工作申请过程中本可以报一个更高的价,或者考虑其他选项。我在网上搜索了一番,也查看了若干租房网站,也问了一些人,但都没能找到关于当前市场价格的合理统计数据或可视化。所以我萌生了自己进行分析的想法。我想要收集数据,创建一个面板,这个面板会根据你选择的条件(例如,40平方米,米特区,带阳台、炊

4、具齐全的厨房)显示价格范围。这本身就有助于人们理解柏林的房租价格。另外,通过应用机器学习,我将能识别决定房租价格的因素,并练习不同的机器学习算法。自web提取数据并清洗获取数据在对要做数据科学项目有一个概念之后,我们可以开始寻找数据了。网上有特别多很棒的数据仓库,例如Kaggle、UCI ML、数据集搜索引擎、收录学术论文及其数据集的网站。此外,你可以爬取网站数据。不过,小心旧数据到处都是。我在搜索关于柏林房租的信息的时候,找到了许多可视化结果,但它们或者比较陈旧,或者没有指明年份。有些统计甚至注明只统计了不带家具的50平方米的两室公寓的租金。如果我想要一个带装修好了的厨房的较小的公寓呢?由于

5、我只找到了旧数据,所以我决定爬取租房网站的信息。关于爬取网站信息,我专门写了一篇博客,讨论其细节、缺陷、设计模式:https:/hackernoon/web-scraping-tutorial-with-python-tips-and-tricks-db070e70e071要点是:在爬取之前,检查下是否有公共API可用。文明爬取!不要在一秒内发送数百个请求使网站过载。在提取信息的过程中及时保存数据。数据清洗一旦开始获取数据,非常重要的一点是及早查看数据,以便尽早找出可能存在的问题。例如,爬取程序可能漏掉了一些重要的字段,保存程序至文件时,如果使用逗号作为分隔符,而原数据中也包含逗号,如果没有正确处理,最终文件的格式会出现错乱。在爬取租房信息的时候,我的爬取程序内置了一些小小的检查措施,查验所有特征的缺失值数目。站长可能会更改网站的HTML结构,导致爬取程序无法获取任何数据。确保考虑了网站爬取的所有技术方面的问题之后,我本以为数据基本上是理想的。然而,我最终花了大约一周清洗所有数据,因为数据当中包含一些隐蔽的重复条目。理想和现实出现重复条目的原因有:多次展示的同一间公寓中介输入时输错了信息,比如租金或楼层。之后他们有时会更正信息,有时会重新发布一条包含正确信息的新

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1