基于网络爬虫的招聘信息可视化分析系统.doc

上传人:苏美尔 文档编号:7209507 上传时间:2020-11-06 格式:DOC 页数:9 大小:148.50KB
返回 下载 相关 举报
基于网络爬虫的招聘信息可视化分析系统.doc_第1页
第1页 / 共9页
基于网络爬虫的招聘信息可视化分析系统.doc_第2页
第2页 / 共9页
基于网络爬虫的招聘信息可视化分析系统.doc_第3页
第3页 / 共9页
基于网络爬虫的招聘信息可视化分析系统.doc_第4页
第4页 / 共9页
基于网络爬虫的招聘信息可视化分析系统.doc_第5页
第5页 / 共9页
点击查看更多>>
资源描述

《基于网络爬虫的招聘信息可视化分析系统.doc》由会员分享,可在线阅读,更多相关《基于网络爬虫的招聘信息可视化分析系统.doc(9页珍藏版)》请在三一文库上搜索。

1、基于网络爬虫的招聘信息可视化分析系统摘要:随着信息化时代的降临,当今世界信息化水平也越来越高。越来越多的招聘信息在网络上发布,这就使得应聘者在眼花缭乱的招聘信息中不知如何选择最适合自己的工作。因此需要对这些海量的招聘信息进行更深入的更高层次的分析。系统通过网络爬虫技术对网络上海量的招聘信息进行爬取,并对其进行相关的数据清洗工作,对清洗后的数据进行可视化分析。实现了对爬取到的招聘信息进行分类查看、模糊查询以及多条件联合查询,按关键字对招聘信息进行爬取等功能。随着大数据分析技术日渐成熟,可以在合理的时间内对海量的数据进行管理、整理以及分析,从而发掘出数据之间隐藏的关联规则以及预测未来的发展趋势。关

2、键词:招聘信息;数据可视化分析;网络爬虫随着大数据的相关知识在这个时代越来越普及,我们这个时代即将迎来大数据的黄金时期,大数据已经有着越来越重要的战略意义1。对于招聘信息而言,每天都会有海量的招聘信息发布在网络上,在不同的网站上有着各种不同的招聘信息,然而数据库只能满足对这些数据的增加、修改、删除、查询等简单的功能,这些简单的功能无法深层次的发掘这些数据源的潜在价值,发挥数据源应有的效益2。应聘者往往希望找到最适合自己的工作,诸如介于工作地点,工作报酬,工作经验,以及学历的要求,导致应聘者很难从海量的招聘信息中获取到最适合自己的工作信息3。大数据分析技术可实现高度自动化的对数据进行分析,发掘数

3、据中隐含的、未知的、潜在的趋势和模型,有助于发现业务的趋势,控制风险4。因此。对于招聘信息大数据的可视化分析是有其可行性的,通过对招聘信息的可视化分析有利于应聘者发现最适合自己的工作。因此本项目开发了一款招聘信息可视化分析系统。因此对于招聘信息大数据的可视化分析是有其可行性的,通过对招聘信息的可视化分析有利于应聘者发现最适合自己的工作。因此本项目开发了一款招聘信息可视化分析系统。在实际的运行中规避风险,帮助数据分析这作出合理的决策,从而实现效益的最大5。1 系统简介基于网络爬虫的招聘信息可视化分析系统基于B/S架构,整个系统可以分为数据爬取模块、数据可视化分析模块、用户功能模块三大模块。功能结

4、构图如图1所示。 图1 系统功能结构图本文以对前程无忧以及智联招聘的招聘信息可视化分析业务为例,介绍数据分析模块的需求分析、设计与实现。2 系统需求分析招聘信息的可视化分析包括数据的整理,清洗以及绘制可视化图形。主要业务流程是后台管理员通过指定关键字从智联招聘或者前程无忧上获取相关的招聘信息,将获取到的数据保存在本地数据库中,然后通过对可利用的数据进行清洗工作,筛选出可以进行统计分析的招聘信息,最后通过管理员将可视化的分析结果上传到网站上。(1)能够实现将MySql数据库中的相关工作的数据转存为JSON格式,并保存在本地服务器上,以供后续进行数据可视化分析。(2)能够将JSON格式的数据导入使

5、用Python编写的使用pandas库的数据格式DataFrames中,从而对数据进行数据清理,从而将冗余的重复的无用的信息排查出去,并且对数据进行分类整理,聚类分析。(3)招聘信息经过数据清洗之后,筛选出来的可用的信息再进行可视化分析:工作月薪工作地点分布关系图、工作月薪工作经验分布关系图、工作月薪最低学历工作经验分布关系图、工作数量工作地点分布关系图、最低学历工作数量分布关系图、工作数量工作经验分布关系图。招聘信息可视化分析用例图如图2所示。图2 招聘信息可视化分析用例图查看可视化分析用例描述如表1所示。表1招聘信息可视化分析用例描述标题说明用例名称查看可视化分析分布图用例标识号Repor

6、t 001简要说明用户可以通过可视化分析页面查看可视化分布图,分布图主要包括前程无忧和智联招聘两个数据来源的可视化分析,用户可以点击图片放大查看,可以点击下一张按钮上下移动右侧缩略图。前置条件用户打开可视化分析页面。基本事件流1.用户点击右侧分布图的缩略图。2.用户点击页面中间的主浏览图片放大查看,点击翻页按钮实现图片的分页下滑。 3.用例终止。其他事件流若用户没有点击任何按钮,默认显示数据库中第一张图片。异常事件流1.提示数据库中没有已分析结果,用户确认。2.返回到可视化分析页面。后置条件跳转招聘信息可视化分析主界面,查看成功。3 系统的设计可视化分析模块实现的主要功能是对从智联招聘和前程无

7、忧上爬取到的数据进行可视化分析,即对爬取到的数据进行关联分析,对每一个字段进行统计,并将统计的结果通用Python中Matplotlib库相关方法将数据可视化6。招聘信息可视化分析活动图如下图3所示:图3招聘信息可视化分析活动图通过对系统各个模块的需求分析,设计得到系统类图如图4所示。图4 系统类图4 系统的实现对招聘信息可视化分析业务具体实现是通过将MySql数据库中的相关工作的数据转存为JSON格式,并保存在本地服务器上。之后将JSON格式的数据导入使用Python编写的使用pandas库的数据格式DataFrames中,从而对数据进行数据清理,从而将冗余的重复的无用的信息排查出去,并且对

8、数据进行分类整理,聚类分析。招聘信息经过数据清洗之后,筛选出来的可用的信息再进行可视化分析:的到工作月薪工作地点分布关系图、工作月薪工作经验分布关系图、工作月薪最低学历工作经验分布关系图、工作数量工作地点分布关系图、最低学历工作数量分布关系图、工作数量工作经验分布关系图。招聘信息可视化分析顺序图如图5所示。图5 招聘信息可视化分析顺序图实现对招聘信息的可视化分析的数据清理部分代码如下所示。 for i in range(len(dfZWnum): # 处理职位数量 try: item = dfZWnum.iloci.strip() result = re.findall(pattern, it

9、em) if result: dfnum.iloci = result0 except Exception as e: continue df_city = dfZWadd.copy() pattern2 = pile(.*?)(-) # 处理工作地点 for i in range(len(dfZWadd): item = dfZWadd.iloci.strip() result = re.search(pattern2, item) if result: df_city.iloci = result.group(1).strip() else: df_city.iloci = item.st

10、rip() dfadd = df_city self.log.info(ujson数据清洗完毕)运行结果图如图6所示。图6 最低学历-工作经验-平均月薪分布图5 结束语本文通过对招聘信息的可视化分析业务为例,详细介绍了基于网络爬虫的招聘信息可视化分析软件的需求分析、设计与实现。对于招聘信息而言,每天都会有海量的招聘信息发布在网络上,在不同的网站上有着各种不同的招聘信息。通过对招聘信息的可视化分析有利于应聘者发现最适合自己的工作。参考文献1吴俊锋.基于Django的高性能计算Web系统的设计与实现D. 成都:电子科技大学,2016.2刘文哲.词语关联搜索查询系统的设计与实现D. 武汉:华中科技大

11、学,2015.3熊晟.知识库质量控制平台的设计与实现D. 北京:北京交通大学,2016.4周嫣然.基于大数据时代的数据可视化应用分析J.网络安全技术与应用,2014,(11):47-48.5杨超明.基于.NET框架的高职就业管理系统的设计与实现D. 长沙:湖南大学,2016.6王囝囝,杨树,毕焘.大数据时代数据信息可视化的研究J. 通讯世界,2015,(14):185-186.7Huang Z, Zhang L, Xu R, et al. Application of big data visualization in passenger flow analysis of Shanghai Metro networkC. IEEE International Conference on Intelligent Transportation Engineering. IEEE,2017:184-188.项目基金:江西省高等学校科技落地计划项目,项目编号为KJLD14054。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 科普知识


经营许可证编号:宁ICP备18001539号-1