1、南开大学2021年9月网络爬虫与信息提取作业考核试题及答案参考1. 如果目标网站本身就是提供公众查询服务的网站,那么使用爬虫是合法合规的。( )A.正确B.错误参考答案:A2. 在配置ios使用Charles的操作中,正确的有( )A.对于苹果设备,首先要保证计算机和苹果设备联在同一个Wi-Fi上B.选择“HTTP代理”下面的“手动”选项卡,在“服务器”处输入计算机的IP地址,在“端口”处输入8888C.输入完成代理以后按下苹果设备的Home键,设置就会自动保存D.安装完成证书以后,在设置中打开“关于本机”,找到最下面的“证书信任设置”,并在里面启动对Charles证书的完全信任参考答案:AB
2、CD3. process_spider_input(response,spider)是在爬虫运行yield item或者yield scrapy.Request( )的时候调用。( )A.正确B.错误参考答案:B4. 下面Python代码输出为:( )def default_para_without_trap(para=,value=0):if not para:par下面Python代码输出为:( )def default_para_without_trap(para=,value=0):if not para:para=para.append(value)return para print
3、第一步:.format(default_para_trap(value=100) print(第二步:.format(default_para_trap(value=50)A.第一步:100第二步:100,50B.第一步:100第二步:50C.第一步:100第二步:D.第一步:100第二步:100参考答案:B5. Redis中使用lrange读取数据后数据也会删除。( )A.正确B.错误参考答案:B6. PyMongo中逻辑查询表示不等于的符号是( )PyMongo中逻辑查询表示不等于的符号是( )A.$gtB.$ltC.$eqD.$ne参考答案:C7. 如果使用Python的数据结构来做类
4、比的话,MongoDB中库相当于一个大字典,大字典里面的每一个键值对都对应了一个集合,Key为集合的名字,Value就是一个( )。A.字典B.集合的名字C.集合D.文档参考答案:C8. 爬虫中间件的作用对象是请求request和返回response。( )爬虫中间件的作用对象是请求request和返回response。( )A.正确B.错误参考答案:B9. 下列关于在IOS上配置charles的说法正确的是( )。A.不同ios设备之间会有比较大的差别,所以配置的时候需要找到对应的安装证书的入口B.手机和电脑需要在同一个局域网下C.HTTP代理可以使用“自动”选项D.安装好证书以后,打开iO
5、S设备上的任何一个App,可以看到Charles中有数据包在流动参考答案:BD10. 在Linux中哪个命令是添加权限的( )A.chmodB.sudoC.cpD.mkdir参考答案:A11. 在安装Scarpy的依赖库时,由于Visual C+ Build Tools的安装速度很慢,为了节省时间,可以和安装Twisted同时进行。( )T.对F.错参考答案:F12. 插入数据时,MongoDB会自动添加一列“_id”,也就是自增ID,每次自动加1。( )插入数据时,MongoDB会自动添加一列“_id”,也就是自增ID,每次自动加1。( )A.正确B.错误参考答案:B13. 使用UI Aut
6、omatorr根据坐标来滑动桌面的操作是得到相应控件后使用命令( )。A.swipeB.moveC.scrollD.fly参考答案:A14. 要使用tesseract来进行图像识别,需要安装两个第三方库( )要使用tesseract来进行图像识别,需要安装两个第三方库( )A.requestsB.beautifulsoupC.PillowD.pytesseract参考答案:CD15. 当需要把Python里面的数据发送给网页时,应先将其转换成( )。A.Json字符串B.GETC.POSTD.Request参考答案:A16. 如果目标网站有反爬虫声明,那么对方在被爬虫爬取以后,可以根据( )来
7、起诉使用爬虫的公司。A.服务器日志B.数据库日志记录C.程序日志记录D.服务器监控参考答案:ABCD17. 要使用Python来操作UI Automator从而控制手机,需要安装一个第三方库( )A.uiautomatorB.automatorC.ui_automatorD.pyautomator参考答案:A18. 在MacOS下若要运行Redis可以运行解压以后的文件夹下面的src文件夹中的redis-server文件启动redis服务 src/redis-server。( )在MacOS下若要运行Redis可以运行解压以后的文件夹下面的src文件夹中的redis-server文件启动red
8、is服务 src/redis-server。( )A.正确B.错误参考答案:B19. scrapy与selenium结合可以实现直接处理需要异步加载的页面。( )T.对F.错参考答案:T20. PyMongo中逻辑查询表示大于等于的符号是( )PyMongo中逻辑查询表示大于等于的符号是( )A.$gtB.$ltC.$gteD.$lte参考答案:C21. Redis插入数据都是插入到列表右侧,因此读取数据也是从右侧读取。( )T.对F.错参考答案:F22. 虽然MongoDB相比于MySQL来说,速度快了很多,但是频繁读写MongoDB还是会严重拖慢程序的执行速度。( )A.正确B.错误参考答
9、案:A23. Python中相比于findall方法,search方法对于从超级大的文本里面只找第1个数据特别有用,可以大大提高程序的运行效率。( )T.对F.错参考答案:T24. RoboMongo是MongoDB的管理软件。( )T.对F.错参考答案:T25. 使用UI Automatorr输入文字的操作是得到相应控件后使用命令( )使用UI Automatorr输入文字的操作是得到相应控件后使用命令( )A.settextB.setC.set_textD.text参考答案:C26. 在Scrapy的目录下,哪个文件负责存放爬虫的各种配置信息?( )A.spiders文件夹B.item.p
10、yC.pipeline.pyD.settings.py参考答案:D27. Python中列表生成以后还可以往里面继续添加数据,也可以从里面删除数据。( )A.正确B.错误参考答案:A28. 使用Charles,可以轻松截获手机App和微信小程序的数据包,从而开发出直接抓取App后台和小程序后台的爬虫。( )使用Charles,可以轻松截获手机App和微信小程序的数据包,从而开发出直接抓取App后台和小程序后台的爬虫。( )A.正确B.错误参考答案:A29. 数据抓包就是中间人爬虫的一个简单应用。所以使用Charles也是一种中间人攻击。( )数据抓包就是中间人爬虫的一个简单应用。所以使用Charles也是一种中间人攻击。( )A.正确B.错误参考答案:A30. process_spider_output(response,result,output)是在下载器中间件处理完成后,马上要进入某个回调函数parse_xxx( )前调用。( )A.正确B.错误参考答案:B