JAVA面向主题的搜索引擎.doc

上传人:小小飞 文档编号:5090073 上传时间:2020-02-01 格式:DOC 页数:56 大小:1.15MB
返回 下载 相关 举报
JAVA面向主题的搜索引擎.doc_第1页
第1页 / 共56页
JAVA面向主题的搜索引擎.doc_第2页
第2页 / 共56页
JAVA面向主题的搜索引擎.doc_第3页
第3页 / 共56页
JAVA面向主题的搜索引擎.doc_第4页
第4页 / 共56页
JAVA面向主题的搜索引擎.doc_第5页
第5页 / 共56页
点击查看更多>>
资源描述

《JAVA面向主题的搜索引擎.doc》由会员分享,可在线阅读,更多相关《JAVA面向主题的搜索引擎.doc(56页珍藏版)》请在三一文库上搜索。

1、中文摘要由于Web海量的信息处于不断的变化中,搜索引擎己经很难再为用户提供一个高质量的、全面并且更新及时的信息搜索服务,其局限性在于它试图索引全部Web信息并服务于所有主题的查询请求。相比之下,面向主题的搜索引擎只覆盖与特定主题相关的Web区域,这样它搜索的内容可以更深,搜索的周期可以更短,因此能满足用户对快速、准确的获取信息资源的要求。本文首先介绍了面向主题搜索引擎系统开发的背景及意义,分析了系统开发的可行性,并对系统开发过程中所涉及到的相关理论知识进行简要的介绍,然后进行需求分析、总体设计和详细设计,得到系统所要实现的主要功能,绘制出系统的功能模块图并用程序流程图描述系统的各个模块的处理过

2、程,而后进行系统的实现。本系统实现了管理员登录系统,添加关键词,发现主题资源信息,下载主题资源,用户检索等功能。由于本系统在下载网页时资源较少,因此用户检索出的结果较少。关键词:搜索引擎;Nutch;Tomcat;Cygwin50Subject-Oriented Search EnginesAuthor: ZhaoBei Tutor: XunYalingAbstractAs a result of massive information of web is in change constantly, the search engines has been difficult to provid

3、e users with a high-quality, comprehensive and timely information to update the search service, its limitations in that it attempts to index all the web information and services to all the theme query request. In contrast, subject-oriented search engines only cover a specific theme and web-related a

4、reas, so that it can be a deeper search, search the cycle can be shorter, so they can meet the fast and accurate access to information resources of the users requirements. This paper first introduces developments background and significance of subject-oriented search engines system, feasibility of t

5、he analysis ,development of systems and the brief introduction to the theoretical knowledge relevant of systems involved in the process of developing, followed by needs analysis, design and detailed design, in order to achieve the main function the system , drawn the map of function of the system mo

6、dules and system process flow chart to describe the process of each module, and then the realization of the system.This system realized the manager to register the system, the increase key word, the discovery of subject resources information, the downloading subject resources, and user retrieval fun

7、ctions so on. Because this system when downloads the homepage the resources are few,so the user retrieves the result are few.Keywords: search engines; Nutch; Tomcat; Cygwin目 录第一章 系统概述11.1 系统开发背景11.2 系统开发意义11.3 可行性研究11.3.1 技术可行性21.3.2 经济可行性21.3.3 操作可行性21.3.4 可行性研究结论2第二章 系统技术简介32.1 Nutch简介32.2 Tomcat简

8、介32.3 Cygwin简介42.4 JSP简介42.5 Java简介52.6 Dreamweaver简介6第三章 需求分析73.1 信息需求73.2 处理需求73.3 系统数据流图83.4 数据字典93.4.1 数据流字典93.4.2 加工处理数据字典103.4.3 数据项数据字典113.4.4 数据存储字典11第四章 总体设计124.1 系统功能模块图124.2 系统E-R图124.3 数据库设计14第五章 详细设计155.1 管理员处理的程序流程图155.2 获取主题资源的程序流程图155.3 提取网页文本内容程序流程图165.4 对文本进行分词和过滤程序流程图165.5 网页索引程序流

9、程图175.6 用户检索程序流程图17第六章 编码实现186.1 管理员登录186.2 关键词管理196.3 面向主题资源的发现206.4 待下载URL列表管理226.5 面向主题资源的下载236.6 用户检索功能286.7 数据库的创建29第七章 测试317.1 确定测试方法的原则317.1.1 黑盒测试317.1.2 白盒测试317.1.3 本系统选择的测试方法317.2 测试的目标317.3 测试项目317.3.1 系统管理员登录的测试317.3.2 关键词管理的测试327.3.3 待下载URL列表管理的测试33结束语35致谢36参考文献37附录38第一章 系统概述1.1系统开发背景搜索

10、引擎在我们的日常生活中起到越来越重要的作用,“百度一下,你就知道”这句话被广大网民所熟知。随着因特网的迅猛发展、Web信息的增加,用户要在信息海洋里查找信息,就像大海捞针一样,搜索引擎技术恰好解决了这一难题(它可以为用户提供信息检索服务)。目前,搜索引擎技术正成为计算机工业界和学术界争相研究、开发的对象。 目前搜索引擎领域的商业开发非常活跃,各大搜索引擎公司都在投巨资研制搜索引擎系统,同时也不断地涌现出新的具有鲜明特色的搜索引擎产品,搜索引擎已经成为信息领域的产业之一。随着互联网的发展,通用搜索引擎的结构越来越复杂。通用搜索引擎拥有庞大的索引数据和宽泛的主题,但搜索结果越来越无法满足用户对信息

11、精确查找的需求。用户往往需要在检索结果中进一步查找,才能获得感兴趣的信息。互联网需要能够快速、准确查找信息的面向主题的搜索引擎。1.2系统开发意义面向主题的搜索引擎是为了提高互联网特定领域信息搜索的效率而产生的,又叫专题搜索引擎。面向主题的搜索引擎搜集和索引的信息是某一个领域或者面向某一个方面的应用。在我们所熟知的百度、google、雅虎等搜索引擎,都是通用搜索引擎,其求大求全决定了不能满足特定领域、特殊人群的精准化信息需求服务。多元化的人群决定了多元化的信息搜索需求,在引入结构化的网页分析技术后所形成的垂直搜索引擎在互联网中已经并且将继续占有部分市场,是互联网内容细分的必然趋势。本系统能够实

12、现面向主题的Web信息收集与检索功能,专题搜索可以为特定领域用户提供面向主题的搜索功能,能提供快速、准确的主题信息查询,较好的解决了专有信息检索困难的问题。1.3可行性研究可行性研究就是对系统进行全面、概要的分析,确定本系统是否值得进行开发,并在此基础上提出开发系统的初步方案与计划。1.3.1技术可行性本系统采用Windows平台,基本的服务形式为Tomcat环境下的Web服务。整个系统采用Java语言进行开发,搜索引擎内核部分,在Nutch搜索引擎的基础上进行二次开发,由于Nutch开放源代码,修改非常方便。基本的开发和运行环境要求如下:1. 硬件环境:CPU类型P4,内存1GB以上。2.

13、操作系统:Windows XP SP2系统。3. 数据库系统:MS SQL Server 2000。4. 开发工具:JDK5.0,Eclipse,Tomcat 5.0。1.3.2经济可行性本系统是在Nutch的基础上进行开发的,其源代码是开放的,我们可以通过修改代码来实现面向主题的搜索引擎的设计。由于对源代码修改比自己开发一个搜索引擎要容易,而且人力消耗和资源消耗也比较少,因此从经济方面来说,可以省去大量的人力和物力。1.3.3操作可行性本系统操作简单,易于理解,对于管理员来说进行关键词的添加和进行网页的下载通过培训是可以比较熟练掌握的,对于用户来说,用户查找信息只用在查找界面中输入要查找的相

14、关信息就可以找到想要查找的内容。1.3.4 可行性研究结论经过上述的可行性研究,可知本系统的开发能够补充现有的通用搜索引擎的不足,因此本系统是值得开发的。第二章 系统技术简介2.1 Nutch简介Nutch 是一个刚诞生开放源代码(open-source)的Web搜索引擎。尽管Web搜索是漫游Internet的基本要求,但是现有Web搜索引擎的数目却在下降,并且这很有可能进一步演变成为一个公司,其垄断了几乎所有的Web搜索为其谋取商业利益,这显然不利于广大Internet用户。Nutch为我们提供了这样一个不同的选择,相对于那些商用的搜索引擎,Nutch作为开放源代码搜索引擎将会更加透明,从而

15、更值得大家信赖。现在所有主要的搜索引擎都采用私有的排序算法,而不会解释为什么一个网页会排在一个特定的位置。除此之外,有的搜索引擎依照网站所付的费用,而不是根据它们本身的价值进行排序。与它们不同,Nucth没有什么需要隐瞒,也没有动机去扭曲搜索的结果,Nutch将尽自己最大的努力为用户提供最好的搜索结果。Nutch 致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎。为了完成这一宏伟的目标,Nutch必须能够每个月取几十亿网页,为这些网页建立一个索引,对索引文件进行每秒上千次的搜索,提供高质量的搜索结果并且以最小的成本运作。Nutch主要分为两个部分:爬虫crawler和查询

16、searcher。Crawler主要用于从网络上抓取网页并为这些网页建立索引。Searcher主要利用这些索引检索用户的查找关键词来产生查找结果。两者之间的接口是索引,所以除去索引部分,两者之间的耦合度很低。2.2 Tomcat简介Tomcat 服务器是一个免费开放源代码的Web 应用服务器。Tomcat是Apache软件基金会(Apache Software Foundation)的Jakarta 项目中的一个核心项目,由Apache、Sun 和其他一些公司及个人共同开发而成。由于有了Sun 的参与和支持,最新的Servlet 和JSP 规范总是能在Tomcat 中得到体现,Tomcat 5

17、 支持最新的Servlet 2.4 和JSP 2.0 规范。因为Tomcat 技术先进、性能稳定,而且免费,因而深受Java 爱好者的喜爱并得到了部分软件开发商的认可,成为目前比较流行的Web 应用服务器。Tomcat 是一个小型的轻量级应用服务器,在中小型系统和并发访问用户不是很多的场合下被普遍使用,是开发和调试JSP 程序的首选。对于一个初学者来说,可以这样认为,当在一台机器上配置好Apache 服务器,可利用它响应对HTML 页面的访问请求。实际上Tomcat 部分是Apache 服务器的扩展,但它是独立运行的,所以当你运行Tomcat 时,它实际上作为一个与Apache 独立的进程单独

18、运行的。 这里的诀窍是,当配置正确时,Apache 为HTML页面服务,而Tomcat 实际上运行JSP 页面和Servlet。另外,Tomcat和IIS、Apache等Web服务器一样,具有处理HTML页面的功能,另外它还是一个Servlet和JSP容器,独立的Servlet容器是Tomcat的默认模式。2.3 Cygwin简介Cygwin是一个运行在 Windows 下的仿 Linux/Unix 环境,它由两部分组成:一个用来充当 Linux API 仿真层的 dll 文件 - cygwin1.dll,它用来提供基础的 Linux API 功能,另外是一些以 Linux 习惯工作的程序/工

19、具包。Cygwin是许多自由软件的集合,最初由Cygnus Solutions开发,用于各种版本的Microsoft Windows上,运行UNIX类系统。Cygwin的主要目的是通过重新编译,将POSIX系统(例如Linux、BSD以及其他Unix系统)上的软件移植到Windows上。Cygwin包括了一套库,该库在Win32系统下实现了POSIX系统调用的API;还有一套GNU开发工具集(比如GCC、GDB),这样可以进行简单的软件开发;还有一些UNIX系统下的常见程序。2001年,新增了X Window System。另外还有一个名为MinGW的库,可以跟Windows本地的MSVCRT

20、库(Windows API)一起工作。2.4 JSP简介JSP(Java Server Pages)是目前十分流行的一种技术,主要是用于开发服务端的脚本程序和动态生成网站。用JSP开发的Web应用是跨平台的,它可以在任何操作系统中运行。JSP(Java Server Pages)是由Sun Microsystems公司倡导、许多公司参与一起建立的一种动态网页技术标准。JSP技术有点类似ASP技术,它是在传统的网页HTML文件(*.htm,*.html)中插入Java程序段(Scriptlet)和JSP标记(tag),从而形成JSP文件(*.jsp)。 Web服务器在遇到访问JSP网页的请求时,

21、首先执行其中的程序段,然后将执行结果连同JSP文件中的HTML代码一起返回给客户。插入的Java程序段可以操作数据库、重新定向网页等,以实现建立动态网页所需要的功能。 JSP与Java Servlet一样,是在服务器端执行的,通常返回该客户端的就是一个HTML文本,因此客户端只要有浏览器就能浏览。 JSP页面由HTML代码和嵌入其中的Java代码所组成。服务器在页面被客户端请求以后对这些Java代码进行处理,然后将生成的HTML页面返回给客户端的浏览器。Java Servlet 是JSP的技术基础,而且大型的Web应用程序的开发需要Java Servlet和JSP配合才能完成。JSP具备了Ja

22、va技术的简单易用,完全的面向对象,具有平台无关性且安全可靠,主要面向因特网的所有特点。2.5 Java简介Java是一种简单的,面向对象的,分布式的,解释型的,健壮安全的,结构中立的,可移植的,性能优异、多线程的动态语言。Java语言是当今流行的网络编程语言,它的面向对象、跨平台、分布应用等特点给编程人员带来了一种崭新的计算机概念,使WWW从最初的单纯提供静态信息发展到现在的提供各种各样的动态服务。Java不仅能够编写小应用程序实现嵌入网页的声音和动画功能,而且还能够应用于独立的大中型应用程序,其强大的网络功能能够把Internet作为一个统一的运行平台,极大地拓展了传统单机或Client/

23、Server模式应用程序的外延和内涵。自从1995年正式问世以来,Java已经逐步从一种单纯的计算机高级编程语言发展为一种重要的Internet平台,并进而引发、带动了Java产业的发展和壮大,成为计算机业界不可忽视的力量和重要的发展潮流与方向。根据结构组成和运行环境的不同,Java程序可以分为两类:Java Application和Java Applet 。简单地说,Java Application是完整的程序,需要独立的解释器来解释运行;而Java Applet则是嵌在HTML编写的Web页面的非独立程序,由Web浏览器内部包含的Java解释器来运行。2.6 Dreamweaver简介Dr

24、eamweaver是美国MACROMEDIA公司开发的集网页制作和管理网站于一体的所见即所得网页编辑器,它是第一套针对专业网页设计师特别发展的视觉化网页开发工具,利用它可以轻而易举地制作出跨越平台限制和跨越浏览器限制的充满动感的网页。Dreamweaver最主要的长处在于它的可扩展性。由于最终的页面千变万化,因此Web创作工作越灵活,越利于设计者进行更大范围的开发。随着可扩展性概念的引入,Dreamweaver中易于自定义的对象和行为得到了更为广泛的应用。在Dreamweaver中,对象是一段HTML代码,用来表示一个特定的图像或者HTML标识,Dreamweaver的对象是完全开放的,用户可

25、以自定义或者重建对象。第三章 需求分析需求分析的基本任务是为了满足用户的需要,系统必须完成哪些任务,具备哪些功能和性能,并进行系统数据要求的分析,以此导出系统的逻辑模型。在需求分析中主要采用数据流图和数据字典工具来进行描述。3.1信息需求面向主题的搜索引擎是针对某个特定领域进行的搜索,其信息主要包含系统管理员信息、关键词信息、待下载URL(Uniform Resource Locator)列表信息、网页信息、网页纯文字信息、网页索引信息等。系统管理员信息是存储管理员的相关登录信息,系统管理员信息包括管理员编号、管理员名称、登录密码。关键词信息是存储有关主题的信息,关键词信息包括关键词内容和关键

26、词权值。待下载的URL列表信息是根据关键词所得到的初始的URL列表,待下载URL列表信息包含待下载的URL列表。网页信息包括网页名称、网页内容简介、网页地址、关键词、关键词位置、生成时间、与其他网页的链接信息。网页纯文字信息是经过对网页信息的分析处理提取出的纯文字信息,它包含文本名称和文字信息。网页索引信息包括索引编号、索引名称、网页名称、网页内容简介、网页地址、关键词、关键词位置。3.2处理需求面向主题的搜索引擎是针对特定领域和问题,通过网络蜘蛛自动获取相关信息并建立索引,为用户提供有效信息和相关服务。面向主题的搜索引擎是对通用搜索引擎的行业细分,专业性的服务对通用搜索引擎是必要和有益的。系

27、统管理员要实现相关操作首先要登录网站,系统管理员进入系统能够添加相关的关键词到数据库中,将关键词从数据库中导入到文本中,下载相关主题资源,对收集到的网页信息进行分析处理操作并建立网页索引数据库,为用户提供检索服务。对关键词的管理,管理员可以添加关键词,这样能够扩大主题资源的信息量,并且也使数据库中的关键词能够有效的代表主题信息,在发现主题信息时能够使网站具有代表性。面向主题资源的发现是为面向主题的搜索引擎提供数据来源的保障,寻找符合主题的资源网站和网页地址能有效提高面向主题搜索引擎的数据收录情况。面向主题资源发现采用元搜索的策略,即通过程序从大型通用搜索引擎中下载相关结果,得到的页面中包含了大

28、量的链接地址,这些地址可以直接作为下载的目标地址,提交给下载模块。另外,通过对地址的分析,可以得到这些地址的上级目录或者网站,对网站经常出现的与主题相关的网站进行专门的抓取。本系统实现面向主题资源的发现是通过进入百度进行关键字的查询,找到与主题资源相关的初始网站及网页信息。发现了资源的网页地址或者网站的目录和网址之后,可以利用Nutch进行批量的下载,下载的网页内容用于后续的索引和检索。由于下载的网页各异,其包含了大量的显示元素和广告信息,因此调用Nutch的网页分析模块对收集到的网页要进行提取网页信息、去除格式化字符、文本正文分词等相关处理得到纯文字内容。对分析处理好的网页内容的纯文字信息进

29、一步处理,为其建立网页的内容的倒排索引。用户进行检索时,当用户输入搜索内容,系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。3.3系统数据流图数据流图(DFD,Data Flow Diagram)是一种图形化技术,它描绘信息流和数据从输入移动到输出的过程中所经受的变换。在数据流图中没有任何的物理部件,它只是描绘数据在软件流动和被处理的逻辑过程。数据流图是系统逻辑功能的图形表示。顶层数据流图主要介绍了本系统的处理过程及其相关的数据存储,管理员首先添加关键词到数据库中,然后发现主题主题资源,得到初始的URL列表,而后开始下载主题资源网页,并对这些网页进行分析和建立索引,顶层数据流图

30、如下图所示。图3.1 顶层数据流图一层数据流图是对分析处理网页的细化,首先提取出网页信息,然后进行去除HTML标签、抽取链接、对文本分词等一系列的操作。图3.2 一层数据流图3.4数据字典数据字典是关于数据的信息集合,也就是对数据流图中包含的所有元素的定义的集合,数据字典的作用是在软件分析和设计的过程中给人提供关于数据的描述信息。数据字典应该包括对数据流、数据元素、数据存储和加工处理的定义。3.4.1数据流字典数据流名: 关键词信息流向:D1关键词信息、1.2查找主题资源组成: 关键词编号+关键词名称+关键词权值说明: 输入与主题资源相关的关键词数据流名: URL信息流向:D2待下载URL信息

31、、1.3下载主题资源信息组成:待下载URL信息说明:经过对网页的分析处提取网页中包含的URL信息数据流名: 网页信息流向:D3网页信息、1.4分析处理网页组成:网页名称+网页内容简介+网页地址+关键词+关键词位置+生成时间+与其他网页的链接信息说明:网页信息由网络蜘蛛在互联网上获取数据流名: 纯文字信息流向:1.5建立网页索引数据库、D4网页纯文字信息 组成:文本名称、文字信息说明:通过对搜集的网页行分析处理,得到网页的纯文字信息,以为网页信息建立倒排索引数据流名: 网页索引信息流向:D5网页索引信息、1.6为用户提供检索组成:索引编号+索引名称+网页名称+网页内容简介+网页地址+关键词+关键

32、词位置说明:对分析处理好的网页建立索引信息3.4.2加工处理数据字典加工处理:管理关键词编号:1.1输入:关键词输出:关键词信息加工处理:面向主题资源的查找编号:1.2输入:关键词信息输出:URL信息加工处理:下载主题资源编号:1.3输入:URL信息输出:网页信息加工处理:分析处理网页编号:1.4输入:网页信息输出:纯文字信息加工处理:建立网页索引数据库编号:1.5输入:纯文字信息输出:网页索引信息加工处理:为用户提供检索功能编号:1.6输入:网页索引信息输出:网页3.4.3数据项数据字典数据项:管理员编号类型:字符型长度:10描述:管理员的惟一标识位置:管理员信息表数据项:管理员名称类型:字

33、符型长度:18描述:管理员的称谓位置:管理员信息表数据项:关键词类型:字符型长度:20描述:网页内容包含的关键词信息位置:网页信息表3.4.4数据存储字典名字:关键词信息描述:输入关键字来查找相关的主题信息定义:关键词信息+关键词权值位置:关键词信息名字:管理员信息描述:存储管理员的信息以便进行登录验证,管理员进行下一步操作定义:管理员编号+管理员名称+管理员登录密码位置:管理员信息第四章 总体设计总体设计的目的是概要的实现系统,并且设计软件的结构,确定系统是由哪些模块组成的,以及这些模块相互间的关系。模块化就是把程序划分成独立命名且可独立访问的模块,每个模块完成一个子功能,把这些模块集成起来

34、构成一个整体,可以完成指定的功能满足用户的需求。4.1 系统功能模块图面向主题的搜索引擎系统包含管理员登录模块、面向主题资源发现模块、分析处理网页模块、建立索引数据库模块和用户检索模块。图4.1系统模块图4.2 系统E-R图E-R图也即实体-联系图(Entity Relationship Diagram),提供了表示实体型、属性和联系的方法,用来描述现实世界的概念模型。本系统的实体有系统管理员、关键词信息、URL信息、网页信息、网页索引信息。图4.2系统管理员E-R图图4.3关键词信息E-R图图4.4网页索引信息E-R图图4.5网页信息E-R图图4.6总体E-R图4.3 数据库设计数据库设计是

35、指根据用户的需求,在某一具体的数据库管理系统上,设计数据库的结构和建立数据库的过程。系统管理员信息表(管理员编号,管理员名称,管理员登录密码)表4-1 系统管理员信息表字段名类型长度是否为空描述ManNoVarchar10主键管理员编号ManNameVarchar18Not null管理员名称ManLogVarchar18Not null管理员登录密码关键词信息表(关键词名称,关键词权值) 表4-2 关键词信息表字段名类型长度是否为空描述KeywordVarchar20主键关键词名称PowerInt4Not null关键字权值待下载URL列表信息(待下载URL列表) 表4-3 待下载URL列表

36、信息字段名类型长度是否为空描述WaitforurlVarchar200主键待下载URL列表第五章 详细设计详细设计的根本目标是确定面向主题的搜索引擎系统的具体设计方案,得出对系统的精确描述,从逻辑上实现系统每个模块的功能,设计出简明易懂的处理过程,为编码实现奠定基础。5.1管理员处理的程序流程图管理员首先登录系统,然后对关键词进行管理并根据关键词发现主题资源,进行主题资源网页的下载。图5.1 管理员处理程序流程图5.2获取主题资源的程序流程图获取主题资源的核心思想是获取等待下载的URL列表、创建下载的客户端、获取并存储得到的网页结果。图5.2 获取主题资源的程序流程图5.3提取网页文本内容程序

37、流程图提取网页文本内容的核心思想是从前至后逐步比较标签匹配情况,当发现左尖括号,表明标记开始,删除直到右尖括号截止。处理了流程中往往需要考虑网页内容不规范或者单个尖括号的情况。图5.3 提取网页文本内容程序流程图5.4对文本进行分词和过滤程序流程图对文本进行分词和过滤的基本思想是将汉字按照单个字符切分,英文和数字保留为一个整体,标点符号也作为切分标志。经过对文本分词,获得了可以用于建立索引的语素单元序列。图5.4 对文本进行分词和过滤程序流程图5.5网页索引程序流程图网页索引程序的基本思想是采用文档关键字作为索引,生成按照关键字组合的链表,每个链表都是包含了特定关键字的文档集合。整个程序以两个

38、循环为主线对每个文档中的语素进行处理。每个语素作为关键字生成一个Hash值,并把附加的相关文档信息作为索引项保存。图5.5 网页索引程序流程图5.6用户检索程序流程图用户检索的基本思想是用户输入关键字,在索引项中查找与该关键字相关的文档内容,并通过界面显示出结果。图5.6 用户检索程序流程图第六章 编码实现面向主题的搜索引擎的实现是在Nutch系统的基础上实现的,Nutch系统基于Lucene内核实现的。由于它采用Java开发而成具有很好的可移植性和平台无关性。6.1管理员登录管理员登录系统需验证其身份的有效性,管理员首先在登录界面中输入管理员名称和密码,点击确定进入login.jsp界面进行

39、验证。login.jsp的界面如下图所示。图6.1 管理员登录界面语句是JSP文件的标志。Class.forName(com.microsoft.jdbc.sqlserver.SQLServerDriver).newInstance();Stringurl=jdbc:microsoft:sqlserver:/localhost:1433;DatabaseName=SEARCH;Connectionconn=DriverManager.getConnection(url,sa,111)三个语句是实现与数据库的连接。6.2关键词管理面向主题资源的发现是通过添加与该主题相关联的关键词来增加主题资源的数量,以使用户查找到的信息更全面。进行关键词的添加是通过三个基本界面来实现的,管理员在关键词管理界面输入需添加的关键词点击保存关键词,然后执行addkeywords1.jsp文件,并将添加的结果返回到addkeywords2.jsp文件进行查看,关键词管理的界面如下图所示。图6.2 关键词管理界面 String sql = INSERT INTO keywordstable VALUES(?,?);PreparedStatement pstmt = conn.prepareStatem

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 绩效管理


经营许可证编号:宁ICP备18001539号-1