企业网站的搜索引擎优化研究.pdf

上传人:李主任 文档编号:3580480 上传时间:2019-09-13 格式:PDF 页数:72 大小:2.29MB
返回 下载 相关 举报
企业网站的搜索引擎优化研究.pdf_第1页
第1页 / 共72页
企业网站的搜索引擎优化研究.pdf_第2页
第2页 / 共72页
企业网站的搜索引擎优化研究.pdf_第3页
第3页 / 共72页
企业网站的搜索引擎优化研究.pdf_第4页
第4页 / 共72页
企业网站的搜索引擎优化研究.pdf_第5页
第5页 / 共72页
点击查看更多>>
资源描述

《企业网站的搜索引擎优化研究.pdf》由会员分享,可在线阅读,更多相关《企业网站的搜索引擎优化研究.pdf(72页珍藏版)》请在三一文库上搜索。

1、上海大学 硕士学位论文 企业网站的搜索引擎优化研究 姓名:李军 申请学位级别:硕士 专业:情报学 指导教师:王金夫 20061101 上海大学硕士学位论文 摘要 随着互联网经济的迅速发展,搜索引擎已经成为各大企业进行网络营销的 一种很重要的媒体。本论文主要是从情报学的方向出发,对企业网站在网络营 销中应用的最主要的方法一一搜索引擎优化进行了深入研究与探讨。搜索引擎 优化( S e a r c hE n g i n eo r ) t i m i z a t i o n ) 就是通过了解各类搜索引擎的工作原理, 即如何抓取互联网w e b 页面、如何进行索引以及如何确定其对某一特定关键词 的搜索结

2、果排名等技术,来对网站整体架构,网页内容及网页内的链接进行相 关的优化工作,提高其在特定搜索引擎上搜索结果中的排名,从而提高网站访 问量,最终提升网站的销售能力或宣传能力的技术。 本文从五部分分别进行了具体地阐述与分析: 第一部分,主要介绍了本文的写作意义及方法。 第二部分,分析了搜索引擎的原理,搜索引擎在本质上是一种信息检索系 统在互联网环境下的一种新的应用形式。其主要包括抓取技术,索引技术与排 序技术三大模块,笔者分别对其进行了分析。 第三部分,本文从企业网站的建设与推广的角度来分析搜索引擎优化技术。 主要包括企业网站的逻辑架构及物理架构的设计,网页代码设计,以及企业网 站在进行搜索引擎优

3、化时出现的作弊现象的分析。 第四部分,笔者试图创新性地建立一套评价企业网站进行搜索引擎优化工 作效果的科学评价体系。 第五部分,分析了企业网站搜索引擎优化的作用与价值,并具体分析了其 在电子商务网站与电子政务网站实践中的具体应用,本文以国内商务网站一阿 里巴巴为案例分析了其在搜索引擎优化上的应用。 随着互联网经济的发展、搜索引擎技术以及信息经济的发展,对企业网站 的搜索引擎优化必将成为一种趋势,尤其在电子商务以及电子政务上的应用必 将更为广泛。 关键词:企业网站搜索引擎搜索引擎优化网页排名电子商务电子政务 I I I 上海大学硕士学位论文 A b s t r a c t W i t ht h

4、ed e v e l o p m e n to f i n t e m e ta p p l i c a t i o na n di n f o r m a t i o nt e c h n o l o g yo nw e b s e a r c he n g i n e ,s e a r c he n g i n eo p t i m i z a t i o n ( S E O ) i sb e i n gw i d e l ya p p l i e dt oe n t e r p r i s e w e b s i t e sa r o u n de l t i m S E Oi sak

5、i n do ft e c h n i q u et h a tC a nb eu s e dt oo p t i m i z e o v e r a l lf r a m e w o r ko fw e b s i t e sa n dh y p e d i n k sa m o n gw e bp a g e so nt h eb a s i so f a n a l y z i n gv a r i o u sw o r kp r i n c i p l e so fs e a r c he n g i n e s ,f o re x a m p l e ,h o wt os n a t

6、 c hw e b p a g e sv i ai n t e m e t ,m a k ei n d e x e sa n dm a k er a n k so ns e a r c hr e s u l t so fs p e c i f i e d k e w o r d s T h ea p p l i c a t i o no fS E OC a nr a i s ep a g er a n ko fe n t e r p r i s ew e b s i t e so n s e a r c hr e s u l t s ,f u r t h e ra t t r a c tm o

7、 r ec u s t o m e r s a n da tl e n g t hb r i n gm o r ep r o f i t sf o r e n t e r p r i s e s T h et h e s i sc o n s i s t so f f i v ec h a p t e r s : P a r t1 :P u r p o s e ,b a c k g r o u n da n dm e t h o d so f t h et h e s i s P a r t2 :M a k ea l la n a l y s i so fw e bs e a r c he n

8、 g i n e Sp r i n c i p l e S e a r c he n g i n ei s e s s e n t i a l l ya ni n f o r m a t i o nr e t r i e v a ls y s t e mo nt h eI n t e m e t I tm a i n l yc o n t a i n st h r e e s e c t i o n s ,s n a t c h , i n d e xa n dr a n kt e c h n o l o g y P a r t3 :M a k ear e s e a r c ho nS E

9、Of r o mt h ev i e wo fb u i l d i n ga n da p p l y i n g e n t e r p r i s ew e b s i t e s I tm a i n l yC O V e Sc h o i c eo fl o g i c a la n dp h y s i c a ls t r u c t u r ef o r e n t e r p r i s ew e b s i t e s ,c o d i n go f w e b p a g e s ,c h e a tb e h a v i o r sa n a l y s i so no

10、 p t i m i z a t i o no f s e a r c he n g i n e P a r t4 :S e tu pa l le v a l u a t i o ns y s t e mo fo p t i m i z a t i o ne f f e c t so fs e a r c he n g i n ef o r e n t e r p r i s ew e b s i t e s P a r t5 :A u a l y z ef u n c t i o n sa n dv a l u e so fo p t i m i z a t i o no fs e a r

11、c he n g i n ef o r e n t e r p r i s ew e b s i t e s ,a n d i t s a p p l i c a t i o n i ne - b u s i n e s sa n d e - g o v e r n m e n t w e b s i t e s T a k eaw e l l - k n o w nB 2 Bw e b s t i en a m e dA l i b a b ai nc h i n af o re x a m p l et o d e m o n s t r a t eo p i t i m i z a t

12、i o na p p l i c a t i o no nw e b s i t e s I nc o n c l u s i o n , a c c o m p a n i e d 、析也t h ed e v e l o p m e n to fi n t e m e te c o n o m ya n d s e a r c he n g i n et e c h n o l o g y , o p t i m i z i n gs e a r c he n g i n e so fe n t e r p r i s ew e b s i t e si s b e c o m i n ga

13、t r a n d e n c y I tw i l lb em o r ea p p l i e dt oe - b u s i n e s sa n de - g o v e r n m e n t w e b s i t e s K e y w o r d s :E n t e r p r i s ew e b s i t e ,s e a r c he n g i n e ,s e a r c he n g i n e o p t i m i z a t i o n ,p a g er a n k , e l e c t r o n i cc o m m e r c e w 原创性声明

14、 本人声明:所呈交的论文是本人在导师指导下进行的研究工作。 除了文中特别加以标注和致谢的地方外,论文中不包含其他人已发 表或撰写过的研究成果。参与同一工作的其他同志对本研究所做的 任何贡献均已在论文中作了明确的说明并表示了谢意。 签名:强日期:啤型 本论文使用授权说明 本人完全了解上海大学有关保留、使用学位论文的规定,即: 学校有权保留论文及送交论文复印件,允许论文被查阅和借阅;学 校可以公布论文的全部或部分内容。 ( 保密的论文在解密后应遵守此规定) 酶琢导忑窆瓷蕊沙 上海大学硕士学位论文 l 绪论 1 1 课题研究背景 搜索引擎优化( S e a r c hE n g i n eO p t

15、 i m i z a t i o n ) 就是通过充分认识各类搜索 引擎的工作原理,即如何抓取互联网页面、如何对抓取的网页内容进行索引以 及如何确定其对某一特定关键词的搜索结果排名等技术,然后对网站整体架构, 网页内容及网页内的链接进行相关的优化工作,提高其在搜索引擎中检索结果 的排名,从而提高网站访问量,最终提升网站的销售能力或宣传能力的技术。 搜索引擎优化已经成为企业进行网络营销最重要的组成部分。本文主要是从企 业网站建设的角度,进行企业网站的搜索引擎优化研究的。 2 0 0 3 年十月第十届全国人民代表大会第四次会议批准的中华人民共和国 国民经济和社会发展第十一个五年规划纲要中指出,“积

16、极推进信息化,坚 持以信息化带动工业化,以工业化促进信息化,提高经济社会信息化水平。深 度开发信息资源,加快国家基础信息库建设,促进基础信息共享。优化信息资 源结构,加强生产、流通、科技、人口、资源、生态环境等领域的信息采集, 加强信息资源深度开发、及时处理、传播共享和有效利用。”因此,信息化建 设已经与信息资源建设与开发密不可分,应加快对信息资源深度开发和广泛利 用的步伐。互联网络信息资源作为信息资源的重要组成部分,应率先承担起信 息整合、传播、共享与利用的使命。据C N N I C2 0 0 5 年统计,全国网站数约为 6 9 4 万个,比上年增长3 8 ;全国网页总数约为2 4 亿个,比

17、上年增长2 6 9 o , 平均每个网站的网页数为3 7 4 8 个;全国网页总字节数约为6 3 9 3 2 G B ,比上年增 长2 2 7 7 ,平均每个网页字节数为2 5 9 K B 。全国在线数据库约为2 9 5 万个; 拥有在线数据库的网站数约为1 7 0 万,占全部网站的2 4 5 。“7 1 这众多的数据 都显示因特网已经成为继电视、广播、报纸之后的第四大媒体,并且其地位显 得日益重要。因此,企业上网、发展电子商务是我国信息化建设的大势所趋, 这也是我国信息资源建设与开发的主要内容。但是,在互联网上如何使企业网 站被人们所广泛了解呢,这就是网络营销与网站推广所研究的命题了。自1

18、9 9 4 年第一个搜索引擎- - y a h o o ! 诞生以来,通过搜索引擎查找信息是当今网民们寻 找网上信息和资源的主要手段,据C N N I C 2 0 0 6 年4 月发布的最新调查报告显示, 上海大学硕士学位论文 在用户经常使用的网络服务功能中,“搜索引擎”的比例占到6 5 7 ,仅仅少 于排名第一的“浏览新闻”的比例6 7 9 ,排第三的是“收发电子邮件”6 4 7 。而C N N I C 2 0 0 5 年7 月调查报告显示,用户得知新网站的主要途径中,搜 索引擎所占的比例始终排第一位,并且逐年上升,据C N N I C 2 0 0 5 年7 月调查报 告显示,人们通过搜索引

19、擎得知新网站的比例占到8 4 5 。因此搜索引擎营销 目前已经成为网络营销的热点,是企业网站推广的首选。搜索引擎营销已经成为 网络营销最重要的组成部分,同时已经成为企业网站向大众推广的一个非常重 要的媒体。如何使自己的网站被主要的搜索引擎收录、然后获得较高的排名, 已经成为网络营销、网站推广及电子商务研究中的重要问题。所以,笔者认为, 通过了解搜索引擎的工作原理,把企业网站从设计到建设实施再到运营管理整 个过程进行优化,能更好地符合各大搜索引擎的工作原理,能被各大主流搜索 引擎能够优先收录,并且使得网站在搜索引擎的检索结果的排名尽量靠前,吸 引信息检索者的眼球,达到网站推广的目的,最终提高企业

20、的效益。 1 2 国内外研究现状分析 国外尤其美国在搜索引擎优化方面发展得相对较早,早在9 7 年左右就有人从 事相关方面的工作,目前,S E O 在美国等发达国家处于高速发展的阶段。他们有 专业的人员、专业的公司( 而且规模很大) 从事网站优化、搜索引擎优化等工作。 国夕b S E O 行业在人才、S E O 理论研究、S E O 工具开发、S E O 资源站点、S E O 论坛等方 面都处于绝对的优势。国内对搜索引擎优化( S E O ) 的研究也是刚剐起步,虽然 这个行业正在逐渐初步形成,但是这方面的理论、技术研究是鲜有创新性的,成 体系的。实际上,世界第一搜索引擎G o o g l e

21、 也推出了网站管理员指南,如果 网站设计者、建设者与管理者在网站的管理上能够遵循这个指南,将能使企业网 站优化,将更好地配合G o o g l e 的工作,并且有助于G o o g l e 查找、索引并对网站进 行排名。 搜索引擎优化由于目前主要还是一种免费的网络营销的方法( 还有部分是付 费排名方式) ,所以得到很多中小企业网站的欢迎。目前搜索引擎优化( S e a r c h E n g i n eo p t i m i z a t i o n ) 作为搜速引擎营销的一个分支,是网络营销常用的一种主 要方法,但其本身处于一个初步发展阶段,其理论、方法、规则等方面还不是太 成熟。所以,目前搜

22、索引擎优化存在很多的误区,发展遇到了一些障碍。表现在: 2 上海大学硕士学位论文 ( 1 ) 很多S E O 公司为了得到短暂的利益,在对一些网站进行优化的时候采 用了很多垃圾信息,对搜索引擎进行作弊,以获得短暂的搜索引擎排名靠前。这 只能是使得到优化的网站在搜索引擎排名结果上排名靠前只能是暂时,从长期来 看,他的排名又会落到后面。甚至,这些经过优化的网站得到搜索引擎的惩罚, 将其从搜索引擎上除名。但是,就是这部分S E O 公司利用目前S E O 市场的不完善, 人们对搜索引擎优化这个概念还不是很了解,进行欺诈盈利。这些欺诈行为不仅 对搜索引擎本身是一种欺诈,对这些优化的网站来说也是不好的,

23、甚至对整个S E O 行业来说,是不公平的。这都造成了一种很恶劣的搜索引擎优化环境,阻碍了搜 索引擎优化行业的进一步的发展。 ( 2 ) 衡量S E O 工作结果的评价标准还没有出现,造成目前搜索引擎优化行业 的混乱。目前,在实际的S E O 操作中,S E O 公司采用了这样一个标准一一经过优化 的网站在目标搜索引擎上的排名比以前提前了多少名。但是,网络营销的最终目 标是提高网站的访问量,甚至提高电子商务网站的交易量。在搜索引擎中排名靠 前了,就能提高网站访问量了吗? 并且这种在搜索引擎中靠前的排名能持续多 久? 实际上,还有其他的很多地影响因素的存在,例如搜索引擎生成的描述网站 的文摘是否

24、正确,网站是否定期进行了各网页信息内容的更新等。 综上所述,搜索引擎优化行业处于一种正在兴起的状态,其理论、方法研究 都只是一些比较零散的,还没有形成一整套有机的整体,并且发展也不是太成熟。 其发展过程中也出现了一些阻碍其发展的因素,必须对其进行整合,并且对其再 实际运行中出现的问题加以尝试性地解决,以促进其在我国加速发展。 1 3 本文的研究意义、内容及方法 进入二十一世纪以来,搜索引擎技术已经日臻成熟,搜索引擎市场经过十 几年的发展,已经日臻完善。国内外涌现出来几大流行的搜索引擎网站,比较 有代表性的有g o o g l e ,百度等。同时在我国以“积极推进信息化,以信息化带 动工业化”的

25、政策指导下,互联网经济也逐渐兴起,尤其电子商务、电子政务 迅速发展。电子商务( E l e c t r o n i cC o m m e r c e ) f 跚通常的讲,电子商务系指交易当事 人或参与人利用现代信息技术和计算机网络( 主要是因特网) 所进行的各类商 业活动,包括货物贸易、服务贸易和知识产权贸易。笔者认为,对电子商务的 理解,应从“现代信息技术”和“商务”两个方面考虑,“商务”是电子商务的 3 上海大学硕士学位论文 主体,而“现代信息技术”是电子商务的工具。一方面,“电子商务”概念应包 括“现代信息技术”涵盖的各种使用信息技术为基础的通信方式;另一方面, 也包括“商务”涵盖的一切

26、商务性质的关系所引起的种种事项。如果将“现代 信息技术”看做一个子集,“商务”看做另一个子集,电子商务所覆盖的范围应 当是这两个子集所形成的交集,即“电子商务”可能广泛涉及的因特网、企业 内部网和电子数据交换在商务方面的各种用途。 所谓电子政务,是借助电子信息技术而进行的政务活动,就是政府机构应用 现代信息和通信技术,将管理和服务通过网络技术进行集成,在互联网上实现 政府组织结构和工作流程的优化重组,超越时间、空间与部门分隔的限制,向 社会提供优质和全方位的、规范而透明的、符合国际水准的管理和服务。电子 政务主要包括三个组成部分:一是政府部门内部的电子化和网络化办公;二是 政府部门之间通过计算

27、机网络而进行的信息共享和实时通信;三是政府部门通 过网络与民众之间进行的双向的信息交流。具体地说,目前各级政府部门所广 泛使用的办公自动化系统,属于第一类电子政务的范畴;国家最近建设完成的 “三金”工程和电子口岸执法系统,是第二类电子政务的典型例子。政府部门 通过自己的互联网站发布政务信息,以及进行网上招标、网上招聘,接受网上 投诉等,则属于第三类电子政务的范畴。一个完整的电子政务系统,应当是上 述这三类系统的有机的结合。 搜索引擎主要研究的是收录更多的互联网上的网站,定时对它们进行更新, 并且以各种匹配算法把符合检索要求的检索结果反馈给用户,用户进行查询时 可以检索出符合用户需求的网址。而网

28、站的搜索引擎优化是从网站建设和推广 的角度来作的,从网站的架构建设和内容的发布等进行优化,更方便搜索引擎 的工作,两者工作的最终结果都是为了用户满足用户的信息需求,使他得到相 关的信息。随着我国互联网经济,特别是电子商务、电子政务的进一步发展, 网络营销将发挥越来越重要的作用。而企业网站的搜索引擎优化作为网络营销 中的一个主要的方法,随着搜索引擎市场的进一步完善,也将在网站推广、增 加电子商务的交易量等方面有十分重要的意义,体现在: ( 1 ) 目前我国新的企业网站建设很快,但是这些新网站放到互联网上,只 是企业宣传自己的第一步,接下来更重要的任务是要作网站推广,让更多的互 4 上海大学硕士学

29、位论文 联网用户得知这个网站,增加这个网站的访问量,达到增强企业的知名度和增 加企业的产品与服务交易量的目的。目前,搜索引擎已经是互联网用户经常使 用的网络工具,所以企业应该利用网站的搜索引擎优化技术来进行网站建设与 更新,让目前主流的搜索引擎收录自己的网站、并使按照某个关键词的检索排 名尽量靠前。同时,企业建设网站主要是进行企业形象,产品的宣传及销售, 怎么样才能增大网站的访问量,提高电子商务的交易量,搜索引擎优化技术将 在其中发挥关键的作用。 ( 2 ) 用户的信息检索行为遵循穆尔斯定律,即:一个信息检索系统,如果 使用户在获取信息时比不获取信息时更麻烦,这个系统就不会得到运用。用户 在使

30、用搜索引擎时,方便性也是影响用户浏览其检索结果的最重要的一个因素。 根据i p r o s p e e t ( 美国最早的搜索引擎营销专业服务商) 在2 0 0 4 年4 月间发布的搜 索引擎用户使用习惯调查报告,8 1 7 的用户不会浏览搜索引擎中三页之后的检 索结果,而5 2 2 的用户只会关注搜索引擎返回的第一页搜索结果。 3 6 1 也就是 说,企业网站能够被搜索引擎收录,互联网用户能通过搜索引擎检索到此企业 网站,但是如果其排名在第三页之后,那其效果几乎为零。这充分证明了对企 业网站进行的搜索引擎优化,使其在搜索引擎排名尽量靠前的必要性。 ( 3 ) 尤其在电子商务和电子政务发展中,

31、搜索引擎优化技术更能充分发挥 其网站推广的功能。简单地说,电子商务就是利用互联网进行的商务活动。而 电子政务,就是政府部门利用互联网进行的政务活动。互联网是一个浩如烟海 的世界上最大的信息源,电子商务如果想要获得成功,最关键的一步就应该是 进行网站的推广,供应者与需求者如果彼此根本不知道网站的存在,就不用谈 什么进行交易额了。而用户在互联网上都是利用搜索引擎进行查找所需要的信 息的,因此搜索引擎优化技术使目标电子商务网站和电子政务网站的建设更加 符合搜索引擎的工作要求,积极地对配合搜索引擎的工作,让用户在利用该搜 索引擎进行检索时,让目标搜索引擎出现在显眼的位置,引起用户的注意,让 用户能够有

32、更多的途径进入此电子商务网站,在此基础上达到提高电子商务交 易额的目的。 研究网站的搜索引擎优化具有重要的意义,但落实到具体实际工作中很多 的事情需要去作,本论文的研究内容主要包括一下几个方面方面的: 5 上海大学硕士学位论文 ( 1 ) 首先,本文从情报学角度出发,以信息检索系统来解释搜索引擎的原 理。对网站进行搜索引擎优化,提高其在搜索引擎检索结果上的排名,其必要 的先决条件是要充分了解搜索引擎的原理,结构,以及搜索引擎对检索结果进 行排序的方法。因此,从情报学的角度来看,运用情报学中信息检索,信息检 索系统等方面的知识,来分析搜索引擎的工作原理,特别是其相关性排序的方 式。为后续章节中对

33、企业网站进行搜索引擎优化奠定理论基础。 ( 2 ) 然后,本文进行网站搜索引擎优化方面的理论分析。主要从其理论, 方法,目前流行的应用软件等各方面进行分析。当前,搜索引擎优化业发展过 程中遇到一个瓶颈,很多搜索引擎服务商对主要搜索引擎进行欺诈行为,这本 身对搜索引擎本身的工作造成反面影响,从而使有人认为搜索引擎优化与搜索 引擎是对立的,是不能并存的,搜索引擎优化是搜索引擎所反对的。但是笔者 认为,虽然在搜索引擎优化发展初期,由于操作规范等方面都不是很成熟,导 致了一些问题的出现,但是实际上,搜索引擎优化技术从本质上来说,是一种 积极配合搜索引擎进行工作的技术,两者之间应该是互补的关系,从而为用

34、户 更准确的信息。本文从搜索引擎优化技术的起源到应用、理论等全方面进行分 析,取其精华,弃其糟粕,结合我国的实际情况,应该形成搜索引擎优化行业 的规范,方便其进行运作。 ( 3 ) 面对搜索引擎行业陷入的困境,本文试图进行解决。并重点讨论其在 电子商务上的作用及价值。当前,搜索引擎优化虽然已经较多地被网络营销服 务商所应用。但其理论、方法都是一些零散的东西,甚至有些地方还存在争议, 例如:企业网站在搜索引擎中的作弊,其究竟怎样构成作弊,没有一个合适的 界定。而其也没有一整套比较合理的网站评价体系,容易导致这个行业的混乱。 本文力图解决这些问题,形成一整套关于搜索引擎优化的有机的理论体系。为 我

35、国对搜索引擎优化行业进行规范化运作,提供一些建议。搜索引擎优化作为 一种网络营销方法,在网站推广上的广泛作用,充分证明了其在电子商务、电 子政务方面所具有的独特的价值。本文以全球著名电子商务网站阿里巴巴的搜 索引擎优化工作为例,突出分析了其在电在商务网站的推广上的实际应用。 6 上海大学硕士学位论文 2 搜索引擎理论研究 互联网( I n t e r n e t ) 是利用各种通信设备和线路将全世界上不同地理位置的 功能相对独立的的计算机系统与各种计算机网络互连起来,以功能完善的网络 软件( 网络通信协议、网络操作系统等) 实现网络资源共享和信息交换的世界 上最大的数据通信网。I n t e

36、r n e t 最早起源于1 9 6 9 年投入使用的美国国防部高 级研究计划署的前身A R P h n e t 。直N - 十世纪八十年代,N S F n e t 使I n t e r n e t 实 现了第一次飞跃,向全社会开放,而不象以前的那样仅供计算机研究人员和政 府机构使用。I n t e r n e t 的第二次飞跃归功于I n t e r n e t 的商业化,商业机构一 踏入I n t e r n e t 这一陌生世界,很快发现了它在通信、资料检索、客户服务等方 面的巨大潜力。于是世界各地的无数企业纷纷涌入I n t e r n e t ,带来了I n t e r n e t

37、发展史上的一个新的飞跃。据统计,目前I n t e r n e t 已经连通了世界上几乎所有 国家,已经成为全球范围内一个集娱乐、教育、科研和商业于一体的最大的信 息源。 I n t e r n e t 主要有五大服务:远程登录T e l n e t ,文件传输F t p ,电子邮件E m a i l , 电子公告牌服务B B S 和W w w ( W o r l dW i d eW e b ) 服务。W w W 服务,也称为万维网, 它采用客户机服务器结构,在因特网环境下利用超文本链接来组建w e b 网页的 体系。目前,w w w 服务是互联网上运用最广泛,最被人熟知的服务形式。我们 通常

38、所讲的搜索引擎也就是w W w 搜索引擎,他是建立在互联网的w w w 的信息检 索系统,检索W e b 站点、W e b 网页、新闻、图片、音乐等W e b 文件。实际上, 它是一个专用的w W w 服务器,用来提供互联网上信息检索的网站。与其他W e b 网站不同的是,搜索引擎( S e a r c hE n g i n e ) 是一个对互联网上信息资源主动进 行搜索整理、组织、索引,并储存在网络数据库中提供给用户查询的系统软件, 通常包括信息搜集、信息组织、用户查询三大部分。 W e b 搜索引擎的出现是必然的。在I n t e r n e t 上,w e b 网页信息数量是以几 何级数

39、地增长的,信息的更新速度以分秒来计,面对杂乱无序的浩如烟海的世 界上最大的信息源,人们查找自己所需信息越来越难。为了满足人们在互联网 上检索到符合自己需求的信息的这种迫切的需求,1 9 9 4 年,y a h o o 推出了世界 上第一个W e b 搜索引擎。在近十几年的时间里,搜索引擎理论日渐成熟,搜索 引擎产业迅速发展。尤其出现了g o o g l e ,b a i d u 等成为主流的搜索引擎,更是人 7 上海大学硕士学位论文 们在I n t e r n e t 上检索自己所需要信息、知识的主要手段。本章主要研究搜索引 擎的基本原理、主要技术及其发展趋势。 2 1 搜索引擎模型研究 我们

40、将w e b 信息的搜索看作一个信息检索问题,即在由w e b 网页组成的文 档库中检索出与用户查询相关的文档的地址。搜索引擎是在互联网上的提供给 用户进行网页信息检索服务的工具,是传统信息检索系统在互联网上的应用。 信息检索( I n f o r m a t i o nR e t r i e v a l ) 就是将信息按照一定的方式组织和存储 起来,并根据用户的需要找出相关信息的过程。也可以说,信息检索过程主要 就是将用户需求与信息集合进行匹配的过程。从这一点上来说,究其本质搜索 引擎是一种信息检索系统,是把信息检索系统的基本原理与w e b 结合起来的结 果。它把原来普通的文本信息检索系统

41、的理论应用到互联网上,检索的目标转 变为网页信息而已。它的根本任务还是提供用户信息检索的服务,通过提供满 足用户检索需求的文档地址来满足用户的信息需求。下面我们首先来分析一下 信息检索系统的组成结构。一个信息系统它首先要建立自己的信息集合( 图书 馆的图书集合或计算机系统中的数据库) ,然后对其进行索引工作,用一种特殊 的表达式把信息集合中的每条信息都表达出来,然后提供一个信息检索的用户 接口,接受用户输入的查询表达式,并对这个表达式进行格式处理,将其和自 己系统中存储的信息表达式进行匹配运算,最后,将匹配运算后命中的信息按 照其相关度输出到用户接口界面上。用户可以逐条查看这些检索出的信息结果

42、, 看是否能满足自己的信息需求,如用户的信息需求得不到满足,他可以针对输 出的结果对自己的查询表达式进行修改,然后再用修改后的检索表达式对这个 信息检索系统进行检索。这个信息检索过程循环往复,直到用户此次的信息需 求得到满足。这样就构成了一次完整的信息检索过程。我们可以用下面的图来 表示用户的这次信息检索过程: 8 上海大学硕士学位论文 信息检索系统一般模式 2 1 1 搜索引擎主要理论研究 2 1 1 1 搜索引擎系统的组成 搜索引擎是一个w e b 上的信息检索系统,从技术角度来讲,一个搜索引擎 系统由用户接口、检索子系统、索引子系统和网页搜索子系统四部分组成。 ( 1 ) 用户接口子系统

43、 用户在w e b 上使用搜索引擎进行检索时,用户所看到的搜索引擎系统的那 部分就是搜索引擎系统的用户接口子系统。用户接口子系统负责和用户进行交 流,沟通。具体包括用户可以在这里输入查询表达式,用户接口子系统自动对 用户查询表达式进行预处理,并且显示查询结果,提供用户相关性反馈机制。 ( 2 ) 检索子系统 检索子系统是连接用户接口子系统和索引库之间的桥梁,其功能就是利用 用户在用户接口子系统中输入的查询表达式,在系统自己的索引库中检索文档。 也就是对用户检索表达式和索引库中的文档表达式进行相关性匹配的过程。对 检索出的相关性文档按照各种算法进行相关性排序,输出到用户接口子系统, 显示给用户并

44、且接受与处理由用户接口子系统中输入的用户相关性反馈机制。 ( 3 ) 索引子系统: 索引子系统处于搜索子系统与索引库之间,它的具体功能是负责对网页搜 9 上海大学硕士学位论文 索子系统所搜索的网页信息进行索引( 中文系统还包括词语的切分) ,用于表示 文档以及生成文档库的索引表。索引子系统对搜集到的网页信息进行索引,其 索引项一般包括:U R L 、更新时间、编码以及反映文档内容的关键词及其权重等。 索引子系统的质量能直接影响搜索引擎的质量。 ( 4 ) 网页搜索子系统 网页搜索子系统是搜索引擎在互联网上采集网页信息的子系统。它是搜索 引擎系统与整个互联网信息进行交互的部分,在幕后工作,对用户

45、来说是透明 的。它可以是人工实现的或者是计算机程序实现的,目前的搜索引擎大都采用 计算机程序( r o b o t ) 进行运作。它的任务是从一个起始的U R L 集合开始,顺着 网页的超链接遍历式地在互联网上尽可能多地搜集w e b 上的新网页信息,同时 对已经搜集到的网页信息进行定期更新。 2 1 1 2 搜索引擎分类 目前流行的搜索引擎主要有三大类:分类目录式搜索引擎( D i r e c t o r y S e a r c hE n g i n e ) 、关键词全文搜索引擎( F u l lT e x tS e a r c hE n g i n e ) 以及元搜 索引擎( M e t

46、aS e a r c hE n g i n e ) 。 分类目录式搜索引擎由分类专家根据互联网信息的特点进行研究并制定出 符合w e b 网页信息的等级分类表,这个分类表由若干大类,每个大类下面再分 若个小类,依次细分,形成一个等级主题分类式目录,然后按照这个分类表的 分类标准对网页信息进行分类,并编入相应目录,以层级和逐次分项的方式管 理目录。查找信息时可以按照分类目录一层层进入,最终找到所需要的信息。 分类目录式搜索引擎以Y a h o o ! 和搜狐为代表。其功能结构图如下: 1 0 上海大学硕士学位论文 一、 用 人人 户检 目 工 工 接 L _ 索 4 - - 录 描 搜 口述索

47、子 _ 子 数 一 网 一 网 系 系据 站站 统子子 统 库 系系 统统 ffT 督子系统 搜索引擎结构图 全文搜索引擎利用其内部的计算机程序S p i d e r ( 蜘蛛) 进行网页信 息,并定期对己存在的网页信息进行检查更新,以防止坏链接的存在。它 自着网页间超链接搜索互联网上网页信息内容,然后对其进行索引,建立 索,储存在其网络服务器的数据库中,用户检索时,只要输入检索表达式 就在其数据库中找到符合该用户需求特征的所有被索引的网页的地址,并 以链接的方式对搜索结果列表,且还提供网页信息的简单摘要,这样搜索 到果通常以百万计,但是相关性越高的信息,一般都处于搜索结果相对前 面置,用户只

48、要点击相应的链接就可以进入相应的网址查看网页信息,看 其满足自己的信息需求,如不满足再进行反馈式检索,直到检索到符合自 己需求的网页信息为止。关键词全文搜索引擎中以Google与百度为代表。 其功能结构图如下: 上海大学硕士学位论文 、 用 分 户 检 资 析 网 接 一索一 源索 页 索引 搜 - _ 子 一 系 索 口 子 库 统 子 子 系 系 统 统 系 统 ff丁f7 管理监督子系统 关键词式搜索引擎结构图 元搜索引擎( M e t aS e a r c hE n g i n e ) 不是一种独立的搜索引擎,它最显著的 特点是没有自己的资源索引数据库,是架构在许多其他搜索引擎之上的搜

49、索引 擎。元搜索引擎在接受用户查询请求时,可以同时在其他多个搜索引擎中进行 搜索,并将其他搜索引擎的检索结果经过处理后返回给用户。元搜索引擎为用 户提供一个统一的查询页面,通过自己的用户提问预处理子系统将用户提问转 换成各个成员搜索引擎能识别的形式,提交给这些成员搜索引擎中,然后把各 个成员搜索引擎的搜索结果按照自己的结果处理子系统进行比较分析,去除重 复并且按照自定义的排序规则进行排序返回给用户。所以,一般的元搜索引擎 都包括三大功能结构:提问预处理子系统、检索接口代理子系统和检索结果处 理子系统。 除了以上的三种主要的搜索引擎的类型以外,I n t e r n e t 上还有一些其他类 型的搜索引擎。例如,集成搜索引擎( A L L I N O N ES E A R C HP A G E ) ,其实质是一 个提供多种搜索引擎网址连接的网页,并非真正意义上的搜索引擎。用户在这 个网页上可以指定所需要的多种搜索引擎,可以实现一次检索输入,多引擎同 1 2 上海大学硕士学位论文 时搜索。垂直搜索引擎是针对某一个行业的专业搜索引擎,是搜索引擎的细分 和延伸,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高中教育


经营许可证编号:宁ICP备18001539号-1