初学者写Python爬虫的四大工具.doc

上传人:白大夫 文档编号:3394117 上传时间:2019-08-21 格式:DOC 页数:2 大小:14KB
返回 下载 相关 举报
初学者写Python爬虫的四大工具.doc_第1页
第1页 / 共2页
亲,该文档总共2页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《初学者写Python爬虫的四大工具.doc》由会员分享,可在线阅读,更多相关《初学者写Python爬虫的四大工具.doc(2页珍藏版)》请在三一文库上搜索。

1、初学者写Python爬虫的四大工具你正在学习编程,那么爬虫绝对是你不可忽视的。那么,学习python爬虫之前需要哪些准备?一颗热爱学习,不屈不挠的心一台有键盘的电脑(什么系统都行。我用的os x,所以例子会以这个为准)html相关的一些知识。不需要精通,能懂一点就行Python的基础语法知识 。当这些你都具备了,这个时候你需要学习:0.基本的爬虫工作原理1.基本的http抓取工具:scrapy2.Bloom Filter: Bloom Filters by Example3.如果需要大规模网页抓取,你需要学习分布式爬虫的概念。简单来说,你只要学会怎样维护一个所有集群机器能够有效分享的分布式队列

2、就好。最简单的实现是python-rq: https:/github/nvie/rq4.rq和Scrapy的结合:darkrho/scrapy-redis GitHub5.后续处理:网页析取(grangier/python-goose GitHub),存储(Mongodb)python的火,很大原因就是各种好用的模块,这些模块是居家旅行爬网站常备的NO.1 F12 开发者工具看源代码:快速定位元素分析xpath:1、此处建议谷歌系浏览器,可以在源码界面直接右键看NO.2 抓包工具推荐httpfox,火狐浏览器下的插件,比谷歌火狐系自带的F12工具都要好,可以方便查看网站收包发包的信息NO.3 XPATH CHECKER (火狐插件)非常不错的xpath测试工具,不过也有几个小缺点,:xpath checker生成的是绝对路径,遇到一些动态生成的图标(常见的有列表翻页按钮等),飘忽不定的绝对路径很有可能造成错误,所以这里建议在真正分析的时候,只是作为参考记得把如下图xpath框里的x:去掉,貌似这个是早期版本xpath的语法,目前已经和一些模块不兼容(比如scrapy),还是删去避免报错。NO.4 正则表达测试工具在线正则表达式测试 ,拿来多练练手,也辅助分析!里面有很多现成的正则表达式可以用,也可以进行参考!

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1