基于中文搜索引擎的网络信息用户行为研究.doc

上传人:李主任 文档编号:3623253 上传时间:2019-09-18 格式:DOC 页数:7 大小:157.50KB
返回 下载 相关 举报
基于中文搜索引擎的网络信息用户行为研究.doc_第1页
第1页 / 共7页
基于中文搜索引擎的网络信息用户行为研究.doc_第2页
第2页 / 共7页
基于中文搜索引擎的网络信息用户行为研究.doc_第3页
第3页 / 共7页
基于中文搜索引擎的网络信息用户行为研究.doc_第4页
第4页 / 共7页
基于中文搜索引擎的网络信息用户行为研究.doc_第5页
第5页 / 共7页
亲,该文档总共7页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《基于中文搜索引擎的网络信息用户行为研究.doc》由会员分享,可在线阅读,更多相关《基于中文搜索引擎的网络信息用户行为研究.doc(7页珍藏版)》请在三一文库上搜索。

1、精品论文大集合基于中文搜索引擎的网络信息用户行为研究王 浩 1,郭琳 1,柳杨华 2,杨连超 31 中国地质大学(北京),北京(100083)2 西门子(中国)有限公司,北京(100102)3 用友软件股份有限公司, 北京(100094)E-mail: wanghao_摘 要: 随着中国网民数量达到世界第一位,中文搜索引擎用户行为的研究逐渐成为当今热门主题之一。为了更好的理解中文搜索用户的检索行为,本文首先建立一个搜索引擎选择平 台,主要是用来生成研究所需的日志文件。然后从中英文用户的搜索行为差异的角度出发, 对日志文件进行深入研究,包括各中文搜索引擎使用率比较以及中文用户输入查询行为的一 些

2、规律等。本文研究结论对准确的评测搜索引擎检索的效果以及未来中文搜索引擎设计的改 进都有较好的指导意义。关键词:中文搜索引擎,搜索日志,用户搜索行为 中图分类号:TP3911.引 言随着互联网技术在中国的迅猛发展,以及中文网络信息资源的激增,中文搜索引擎已成 为中文网络用户查找网上信息必不可少检索工具。2008 年 7 月,中国互联网络信息中心 (CNNIC) 公布了第 22 次中国互联网络发展状况统计报告。截至 2008 年 6 月底,中国网民 数量达到 2.53 亿,网民规模跃居世界第一位。中国网民规模继续呈现持续快速发展的趋势。 比去年同期增长了 9100 万人,同比增长 56.2%。在

3、2008 年上半年,搜索引擎用户增长了2304 万人,半年增长率达到 15.5%,搜索引擎用户量持续增长,但总体使用率低于美国(90%)1。由此可见,中文搜索引擎的用户量仍然具有很大的增长空间。Spink 和 Jack (2001) 利用搜索引擎 Excite 的日志来研究了用户的提问词的长度、检索 词的分布、相关反馈的利用等2。Silverstein (2002)对 AltaVista 搜索引擎用户进行了相关研 究3。Jansen(2006)通过对 5 个搜索引擎的记录分析,研究了检索提问式的复杂性对检索 结果的影响,发现提问复杂性的增加对检索结果的改善并不大4。王建勇等人(2001)通过”

4、 对我国“天网”中英文搜索引擎的查寻日志的分析得出用户查寻行为的分布特征5。邓小昭(2003)对用户使用中国期刊网(CNKI)和 G 搜索引擎的查寻行为进行了研究6。王 继民等人(2004)同样也对“天网”搜索引擎的用户日志进行了分析和研究7。余慧佳,刘奕群等(2007)对 sogou 搜索引擎在一个月内的近 5 000 万条查询日志进行了 分析,分别从独立查询词分布、同一 session 内的用户查询习惯及用户是否使用高级检索功 能等方面对用户行为进行了分析8。陈红涛(2008)等人也对 sogou 搜索引擎一个月内的日 志进行了重点分析了用户输入搜索词的一些规律,还提出了用户提交搜索词的模

5、型,给出了 历史搜索词对搜索结果的影响因子算法9。姜志芳(2006)统计分析了近年来国内网络信息用 户需求和信息用户行为研究的发文情况,从而发现,从事信息用户需求及信息用户行为研究 的著者成果稀少,信息用户需求及信息用户行为研究有待加强10。中文与英文两种语言本身具有很大的差异,除此之外,还有群体的文化、语言习惯等差 异,这些都造成了中文搜索引擎用户行为上的特异性。本文首先设计了一个中间搜索平台用 来产生搜索日志,然后根据这些日志进行分析研究,最后得出中文搜索用户的一般行为规律。- 7 -本文研究结论对准确的评测搜索引擎检索的效果以及未来中文搜索引擎设计的改进都有较好的指导意义。2.搜索引擎中

6、间平台的建立从目前国内外基于搜索日志研究中,我们不难发现,大多数学者们都面临着一个主要的 问题是如何能及时地获取搜索引擎日志。因此,在用户与所要使用的搜索引擎之间,建立了 一个中间平台,即搜索选择平台。这个平台主要作用是用来产生用户搜索查询日志,以便我 们利用这些日志对用户检索行为的分析。搜索日志的数据结构如下:struct SearchLogSearchEngineCategory searchEngine; Time timeStart;Time timeStart; string keywords; string clickedURL;intsequentialNumber; Submi

7、tedInfo submitedInfo;searchEngine 为枚举类型变量,记录搜索引擎的种类;timeStart 和 timeStart 是时间类型 变量,分别表示记录用户进行搜索的起始和结束时;keywords 是字符串类型,记录用户查询的搜索串;clickedURL 也是字符串类型变量,用来记录用点击返回页面的 URL 链接;sequentialNumbe 是整型变量,记录被户点击链接的返回排名次序。submitedInfo 是提交信息 类型,来自用户计算本身一些信息,如 IP 地址,用户计算机名等。3.查询日志的统计与分析这部分我们将通过搜索选择平台记录的日志,对搜索用户的行为

8、和意图进行统计分析。3.1 各中文搜索引擎使用率比较如图 2 所示,百度和谷歌均占有较大中文搜索用户,其中百度拥有最多的中文搜索用户。 用户由于日志数据量越大,越能更好的对用户搜索行为规律进行分析。因此,我们主要选择 使用百度和谷歌的日志数据来对搜索用户进行分析。于是我们对搜索日志的进行相关提取, 得到两个新的搜索日志:百度搜索日志和谷歌搜索日志,其中百度搜索日志包含查询次数共有 479933,谷歌搜索日志包含查询次数共 460 224。其他 0.15 有道0.38搜搜1.56 搜狗2.73 雅虎 4.07 谷歌百度40.650.510 5 10 15 20 25 30 35 40 45 50

9、 55图 2 中文搜索引擎使用率3.2 查询语言的分析搜索用户提交的查询串类型一般表现为: 纯中文,纯英文,中英文混合,数字,字符, 符号以及它们之间互相混合等,我们选取主要的类型进行统计分析。表 1 百度搜索日志中查询串类型比例查询串类型数量所占百分比/%中文纯英文 中英文混合其它3505434922875445460773.0410.2815.720.96表 2 谷歌搜索引日志中查询串比例查询串类型数量所占百分比/%纯中文纯英文 中英文混合 其它2611319637197890483256.7420.9421.271.05如表 1,2 所示,结果表明,百度用户以中文查询为主,但是含英文查询

10、词所占比例很少。随着网络用户普遍具有较高的学历,以及英语在中国的普及,百度需要加强对英文搜索 功能的能力,提供一个功能强大中英文搜索引擎。谷歌搜索引擎在发挥英文搜索方面优势的 同时,加强中文搜索的精准率,以期具有更大中文搜索用户。3.3 查询串的长度分析查询词占总查询数百分比/%302010012345678910查询词个数/个图 3 查询串长度分布如图 3 中所示,查询数 26 个所占总查询百分比较大,通过计算每个查询词含有平均4.26 个字,说明搜索用户提交中文查询一般提交查询词为 26 个汉字。Silverstein(1999) 对英文搜索引擎 Alta Vista 的统计结果显示每个提

11、问平均仅包含 2.35 个单词3。Jansen 等(2000)和 Spink 等(2002)对 Excite 的统计结果也显示每个提问只包含 2.5 个单词1112。 陈红涛等(2008)对中文查询串进行分词处理,得到用户的平均查询词数为 2.27,其结果基本 与上述结论基本相符9。表 3 查询串中查询词统计一个查询串的查询词个数所占百分比 /%192.125.831.54 以上0.6根据表 3 显示,具有 1 个查询词的查询串数量占总查询数的 92.7%。对于每个查询串,搜索用户平均使用查询词 1.11 个,这一结果表明,中文搜索用户更倾向于使用一个查询词。3.4 用户翻看查询结果分析用户提

12、交一个查询后,搜索引擎可能会返回很多页结果,因为用户只会对其感兴趣的结 果进行点击浏览,因此,对搜索引擎被点击次数与的返回的结果的次序关系如图 4 所示。500000400000点击次数30000020000010000000 5 10 1520 返回结果中的次序图 4 点击次数与返回结果页面次序的关系曲线数据显示大约 77.3%的查寻用户只查看检索结果的第一页(一般包含 10 个检索记录), 浏览查寻结果的平均页数是 1.96。因此,结果表明,大多数网络用户仅仅关心检索结果的前 两页。因此,搜索引擎提高前两个搜索结果页面的精准率显得尤为重要。TREC 在对网络信息检索评测131415,以及针

13、对中文网络信息检索的评测1617都采用 了关于检索结果最前几个是否满足用户需求作为重要评测指标之一。3.5 用户使用高级检索的比例Silverstein 等人(1998)分析的结果中超过 20%的查询运用高级检索功能进行检索,比 如含有 and、or、+、- 等符号3。Spink 和 Jansen(2000,2002)在 Excite 查寻中指出仅有 5%10%既的用户采用布尔检索方法1112。但是,我们的统计结果中,只有大约 1.05%的查询中含有用于高级检索功能的符号,说 明目前中文检索用户主要的检索方式为是输入几个关键词来提交查询。因此,在对搜索引擎 功能进行设计应从用户使用便捷的角度出

14、发。而且,需要加强对搜索用户的高级搜索知识的 普及。3.6 查询词的修改情况分析用户查询类型分为一次查询和多次查询(一次以上查询)两种。一次查询就是用户对搜 索引擎的第一次访问,得到返回结果后,如果对结果满意,停止继续查询。多次查询一种情况是一次查询后得到满意的结果,然后进行另外需求的查询。另一种情况就是修正查询,如果对搜索引擎返回的结果不满意时,用户有可能会对上次查询内容的修正或者用户很可能彻 底更换查询内容,输入一个新的查询串。修正方法一般有四种:添加、删除、替代部分和全 部替换查询词。对于那些在一次检索中提交了 2 次以上查询的情况,我们统计了搜索用户常 见的查询类型查询用户修正查询每个

15、方法所占的比例,详见表 5。表 4 查询类型以及各类型所占比例查询类型所占总体查询比例/%一次查询68.6多次查询(包括修正)31.4表 5 用户修正方式以各方式所占比例查询修正方式占修改查询总数的比例/%添加查询15.11 减少查询 7.65 部分替换36.88提交新查询串(包括完全替换查询)40.36表 4 说明,大约近 70%搜索用户利用搜索进行一次查询,得到满意的结果。在用户修正搜索的情况下,搜索用户进行多次搜索的大多可能原因是一开始用户本身需求不明确,需 要搜索引擎根据其提交的查询词进行反馈,提供给用户更精确的、更多所需信息来进行下一 步更为精确的搜索。从表 5 可知,一般很少有用户

16、通过减少查询词进一步搜索。其原因是大 多搜索用户当对查询返回结果不满意做适当修改时,很大程度是因为返回结果的搜索范围较 大,因此用户会选择增加查询词来限制搜索范围。由于用户提交的查询词的多义性,使得查询结果往往包含多个主题内容,用户需要仔细 浏览文档列表,排除不相关的内容,查找自己感兴趣的信息,然后修正查询词或重新输入新 的查询词重新提交,直到最终得到满意的结果或放弃。事实上,相关度排序采用的标准并不 能反映用户的,查询意图,几乎一半的查询结果是与用户无关的18。因此,加强搜索引擎 的聚类的浏览技术是十分必要的。4 结论搜索日志的获取始终都是众多学者面临的首要难题。本文在设计实现了一个搜索选择

17、平 台,很好的解决了获取搜索日志的问题。通过对搜索日志分析,基于中文搜索用户具有如下 特点:(1)中文用户普遍习惯使用百度搜索引擎作为日常的中文搜索,如果用户查询需求是 含英文的,谷歌搜索引擎是他们的首选的搜索引擎。(2)通过查询语言的分析,我们发现国内搜索引擎需要加强对英文的检索的能力以及 精确度。(3)通过对查询串长度的分析,得出中文搜索用户提交的搜索词含有约 4.26 个汉字,说明搜索用户提交中文查询一般提交查询词为 26 个汉字。这一点英文搜索用户明显不同,主要就是中英两种语言本身的差异。(4)中文搜索用户对高级的搜索使用里很低,因此,随着网络用户整体知识水平的提 高,加强搜索用户的高

18、级搜索相关知识尤为重要。另外,简洁的搜索风格是中文搜索用户所 需。(5)通过对用户翻看结果和查询词修改情况分析,说明由于用户提交的查询词的多义 性,使得查询结果往往包含多个主题内容,加强搜索引擎的聚类的浏览技术是十分必要的。基于大规模搜索日志根据用户意图进行自动化的查询分类,国外已经有很多学者做了这 方面的研究,已经取得显著的成果。然而,这些成果都是对英文搜索引擎日志的分析。截止 到目前,国内还没有基于中文搜索日志自动化查询分类的研究,因此,这也我们的今后的研 究方向。参考文献1第 22 次中国互联网络发展状况统计报告R.中国互联网络中心(CNNIC), 2008 年 7 月.2Spink,

19、A., & Xu, J. (2000). Selected findings from the Excite Web searching study. Information Research, October http:/222.shef.ac.uk/is/publications/infers3Craig Silverstein, Monika Henzinger, Hannes Marais,et al.(1998). Analysis of a very large Web search engine query log J. In SIGIR Forum, fall 1998, Vo

20、lume 33:Number 1, 6-12.4Jansen, B. J.(2000). The effect of query complexity on Web searching results. Information Research, 6(1) Available at: http:/InformationR.net/ir/6-1/paper87.html5王建勇, 单松巍, 雷鸣, 谢正茂, 李晓明. 海量 Web 搜索引擎系统中用户行为的分布特征及其启示J.中国科学(E), 2001, 31(4):372-384.6邓小昭. 因特网用户信息检索与浏览行为研究.情报学报, 200

21、3.7王继民. 大规模中文搜索引擎的用户日志分析. 华南理工大学学报(自然科学版)J, 2004 (11): 1-5.8余慧佳 , 刘奕群 , 张敏 . 基 于大规 模日 志分析 的搜 索引擎 用户 行为分 析 J. 中文信 息学 报 ,2007,21(1):109-114.9陈红涛 , 杨放 春 , 陈磊 . 基 于大规模中文搜索引擎的搜索日志挖掘 . 计算机 应用研究 , 2008,25(6) :1663-166510 姜志芳. 信息用户需求及信息用户行为研究综述. 图书馆论坛J.2006, 26(4):284-286.11 Jansen, B. J., Spink, A., & Sara

22、cevic, T. (2000). Real life, real users, and real needs: A study and analysis of user queries on the Web. Information Processing & Management, 36(2), 207227.12 Spink, A., Jansen, B. J., Wolfram, D. et al. From e-sex to e-commerce Web search changes. IEEE Computer,2002, 35(3):107-10913 Ellen M. Voorh

23、ees, Donna Harman. Overview of TREC 2001 A. E. M. Voorhees and D. K. Harman, eds. In: Proceedings of the tenth Text Retrieval Conference C. Gaithersburg: National Institute of Standards and Technology, NIST, 2002, volume 10.14 Ellen M. Voorhees. Overview of TREC 2002. E. M A. Voorhees and Lori P. Bu

24、ckland, eds. In: Proceedings of the eleventh Text Retrieval ConferenceC. Gaithersburg: National Institute of Standards and Technology, NIST, 2003, volume 11.15 D. Hawking and N. Craswell. Overview of theTREC-2003 web track A. E. M. Voorhees, eds. In: Proceedings of the twelfth Text Retrieval Confere

25、nce C. Gaithersburg: National Institute of Standards and Technology, NIST, 2004.16 国家 863 计划基础资源 与评测 ,2003 年度信息检 索评测大纲 , http:/www. 863data. 国家 863 计划基础资源与评测,2004 年度信息检索评测大纲, http:/www. 863data. org. cn/src/2004eval/. 18 Pretschner, A., Gauch, S. Ontology Based Personalized SearchA. In: Proceedings

26、 of the Eleventh IEEEInternational Conference on Tools with Artificial IntelligenceC. 1999.391-398.Study on Information Behavior of Web User Based onChinese Search EngineWang Hao1, Guo Lin1, Liu Yanghua2, Yang Lianchao31 China University of Geosciences (Beijing), Beijing (100083)2 Siemens Ltd., Chin

27、a, Beijing (100102)3 UFIDA Software Ltd., Beijing (100094)AbstractWith the number of Chinese Internet users reaching up to the top in the world, the user behavior of Chinese search engine is becoming one of the hottest topics nowadays. In order to better understandthe information retrieval behavior

28、of the Chinese search users, this paper firstly builds a search engine intermediate platform, which is used to generate the web log files for research. And then, from theperspective of the differences of Chinese and English, we research the web log files, including usage rates of Chinese search engi

29、ne and English search engine and some behavior laws of Chinese websearch users. In general, the conclusions of this paper contribute to the evaluation of the accuracy of the search engines search results in the future, and provide a very good guide of making Chinesesearch engines better designed.Keywords: Chinese Search Engine,Search Log,User Search Behavior

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1