基于社会网络分析的权威网页挖掘研究.docx

上传人:rrsccc 文档编号:8948895 上传时间:2021-01-26 格式:DOCX 页数:1 大小:11.93KB
返回 下载 相关 举报
基于社会网络分析的权威网页挖掘研究.docx_第1页
第1页 / 共1页
亲,该文档总共1页,全部预览完了,如果喜欢就下载吧!
资源描述

《基于社会网络分析的权威网页挖掘研究.docx》由会员分享,可在线阅读,更多相关《基于社会网络分析的权威网页挖掘研究.docx(1页珍藏版)》请在三一文库上搜索。

1、基于社会网络分析的权威网页挖掘研究2.2 凝聚子群分析中心性分析初步证明了社会网络分析法在权威网页挖掘的可行性,若利用凝聚分析同样可以得到相同的结果,那么就可以认为社会网络分析法在权威网页挖挖掘的正确性。凝聚子群分析也有多种分析方法,如:成分分析,n-派系和n-宗派分析,k-丛分析等。此实验只选取建立在点度基础上的k-丛分析进行验证。在UCINET中选择Network→Subgroups→K-Plex.,导入Sym.#h文件,设置相应的k值、n值即可。k值、n值需要用户自己多次尝试才能最终得到合适的子群。经过多次带入k值、n值,最终k取2,n取5,得到46个子群,部分分析结

2、果如表5所示。观察完整的表5丛分析结果,编号为46、49、150、164、241等URL在绝大多数子群中出现,说明它们在网络中具有重要作用,而这些URL同样出现在中心性分析结果中,即都属于50个种子URL。至此可得出结论,利用社会网络分析得到的网页符合权威网页的特征,该方法正确性得以验证。3 结语实验首先利用较为成熟的Google搜索引擎搜索给定主题的URL,并利用网络爬虫爬取一定数量的URL集,随后利用社会网络分析法对收集到的URL集进行了分析,最后得出:利用中心性分析以及凝聚子群分析得到的网页符合权威网页的特征,从而证实了实验的有效性。但该实验方法也存在一定的不足:1) 实验数据的整理工作

3、需要手动进行,需要耗费大量精力。后续研究需要找到快速处理URL的方法。2) 实验用到的网络爬虫功能较为简单,在使用网络爬虫时会爬取到大量与给定主题无关的网页,这也是造成数据整理困难的主要原因。后续工作将增加网络爬虫的功能,使其能够爬取给定主题的网页。3) URL爬取量也较少,导致URL网络结构稀疏,影响实验的可信度。下一步在改进网络爬虫功能的同时,还需要增加网络爬虫爬取的深度,使实验可信度更高。参考文献:【1】 中国互联网络发展状况统计报告.中国互联网络信息中心,2013.【2】 王芳.基于主题的Deep Web搜索引擎研究与探索. 长安大学,2008.【3】 Kleinberg, J. Authoritative sources in a hyperlinked environment. Journal of the ACM, 1999,46(5):604-632.【4】 Brin S, P. Lawrence. The anatomy of a large-scale hypertextual web search engine. Computer Networks, 1998, 30(1-7):107-117.出处:电脑知识与技术

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 社会民生


经营许可证编号:宁ICP备18001539号-1