chapter1绪论搜索引擎.ppt

上传人:本田雅阁 文档编号:2976408 上传时间:2019-06-16 格式:PPT 页数:105 大小:3.89MB
返回 下载 相关 举报
chapter1绪论搜索引擎.ppt_第1页
第1页 / 共105页
chapter1绪论搜索引擎.ppt_第2页
第2页 / 共105页
chapter1绪论搜索引擎.ppt_第3页
第3页 / 共105页
chapter1绪论搜索引擎.ppt_第4页
第4页 / 共105页
chapter1绪论搜索引擎.ppt_第5页
第5页 / 共105页
点击查看更多>>
资源描述

《chapter1绪论搜索引擎.ppt》由会员分享,可在线阅读,更多相关《chapter1绪论搜索引擎.ppt(105页珍藏版)》请在三一文库上搜索。

1、信息检索,陈珂锐 计算机与信息工程学院,教学目录,绪论 lucene框架基础 经典搜索算法 lucene应用实例 发展前沿,从课程中能得到什么?,了解搜索引擎运行原理 了解lucene框架的核心类 快速的在信息系统中创建搜索模块,Chapter1 绪论-目录,搜索引擎的产生 搜索引擎的概念 搜索引擎工作原理 搜索技术的分类 开源的搜索引擎介绍,搜索引擎的产生,搜索引擎的概念,搜索引擎(search engines)是www环境下一种信息检索的工具。它利用某种软件(如网络“蜘蛛”spiders)对互联网上的信息进行自动跟踪和发掘,把收集到的所有网页进行分类存储和标引,并向用户提供查询入口。用户

2、通过这个查询入口在浩如烟海的信息海洋中找到自己所需的信息。,搜索引擎工作原理,我的世界你不懂!,搜索引擎的分类(1),根据信息覆盖范围及适用用户群分类 综合性搜索引擎 如:Baidu、Google、Yahoo、AltaViasta、Infoseek 专用性搜索引擎 如:Scirus科学搜索引擎、Softseek提供软件查找,MapBlast查找地图信息。,搜索引擎的分类(2),按组织信息方式分类 目录式搜索引擎 如:Yahoo、搜狐、 About 、 Looksmart 全文搜索引擎 如:AltaVista、百度、InfoSeek、 Lycos 智能搜索引擎 如:FSA 、Eloise 和 F

3、AQFinder。,搜索引擎的分类(3),按搜索范围分类 独立搜索引擎 如:百度、Google、Yahoo、Altavista 元搜索引擎 如:DogPile、 MetaCrawler、 Mamma,开源的搜索引擎介绍(1),开源的搜索引擎介绍(2),中文常用搜索引擎_综合搜索引擎中文 百度中文搜索引擎:http:/ Google中文搜索引擎:http:/ 搜狐搜狗搜索:http:/ 雅虎:http:/ 新浪:http:/ 网易 :http:/ TOM搜索: http:/ 北大天网搜索引擎:http:/ 奇虎 http:/ Google 以搜索精度高、速度快成为最受欢迎的搜索引擎,是目前搜索界

4、的领军人物。 Fast/AllTheWeb 总部位于挪威的搜索引擎后起之秀,风头直逼google。 AltaVista 曾经的搜索引擎巨人,目前仍被认为是最好的搜索引擎之一。 Overture 最著名的搜索引擎广告商,竞价排名的始作俑者,也是全文搜索引擎。 Lycos 发源于西班牙的搜索引擎,网络遍布世界各地。 HotBot 隶属于Lycos Networks,搜索结果来自其他搜索引擎及目录索引。,找工作的搜索引擎:http:/ google学术搜索:http:/ google图书搜索:http:/ 比价购物搜索引擎:http:/ http:/ 博客与RSS搜索引擎:http:/ 中客 htt

5、p:/ 博客中国 http:/ http:/ 八方 人脉搜索引擎: http:/ 交友,找工作, 商机 https:/ http:/ 人物、软件 论坛搜索引擎:http:/ Music Finder http:/www.music- Singingfish(只能搜寻声音和录像) http:/ 旅行TripAdvisor http:/ 图像搜索引擎:http:/ 图像词典 商业搜索引擎 Business http:/ 生意定向搜索引擎。 DailyStocks http:/ 可以了解被查询公司存货的信息已经相关的新闻报导,研究, 引述和其他数据。 FMLX http:/ 英国定向的关于公司,存货

6、数据,分析和研究的搜索引擎。 eBizSearch http:/www.ebizsearch.org 关于电子商务的文章和报告。,开源的搜索引擎介绍(5),RSS源RSS feed搜索引擎 单个站点: 新华网: http:/ 天极网: http:/ 计世网: http:/ 网典: http:/ 搜索引擎: 中文RSS搜索引擎:http:/ 八方搜索引擎http:/ 博客中国 http:/ feed,订阅数据源和单篇 看天下 http:/ feed,订阅数据源 看天下搜索引擎: http:/ 单篇 RSS Search Engine http:/ 周博通RSS导航,开源的搜索引擎介绍(6),新闻

7、类检索工具 Google资讯中国版 http:/ 百度新闻搜索http:/ 中搜新闻搜索http:/ 雅虎资讯http:/ 搜狗新闻搜索http:/ 爱问新闻搜索http:/ 网易新闻搜索http:/ 新华网搜索http:/ 搜网综合新闻搜索http:/ 百度图片搜索http:/ Google图片搜索http:/ 雅虎图片搜索http:/ 中搜图片搜索http:/ 搜狗图片搜索http:/ 图像词典http:/ 网图http:/ Virage(http:/,开源的搜索引擎介绍(8),地图搜索引擎 搜狗地图http:/ 百度地图http:/ 爱问本地搜索http:/ 中搜地图http:/ 我要地

8、图网http:/ Google地图http:/ 图行天下http:/ 网上电子地图http:/ MapBlast(http:/ Topozone(http:/,开源的搜索引擎介绍(9),音乐搜索引擎 百度MP3搜索http:/ 雅虎MP3搜索http:/ 中搜Mp3搜索http:/ 搜狗音乐搜索http:/ SoGua http:/ 搜网MP3强力音乐大搜索 http:/ 其他:各种音乐网站,开源的搜索引擎介绍(10),论坛搜索引擎 Google网上论坛http:/ 奇虎论坛社区搜索 http:/ Teein 中文论坛搜索引擎http:/ 中搜论坛-全球中文论坛门户 http:/ Chinab

9、bs.Com 帖子搜索(非全文) http:/ SOSO论坛搜索http:/ 天网http:/ 星空搜索http:/ FTPSearch http:/,开源的搜索引擎介绍(12),邮件列表搜索引擎 万维网联盟邮件列表检索服务http:/www.w3.org/search/mail/public Catalist http:/ Title http:/,开源的搜索引擎介绍(13),BT搜索引擎 BT特工 http:/ BT China 联盟 http:/ 飞客BT搜索引擎 http:/ 贪婪大陆-动漫搜索频道http:/ BT下载工具:http:/ BT资源: BT China 联盟搜索引擎:h

10、ttp:/射手网(字幕下载)http:/ 电骡emule,开源的搜索引擎介绍(14),BLOG搜索引擎 FeedSearch http:/ Grassland http:/ Souyo http:/ 利用其他搜索引擎,例如Google,Baidu等等, keyword inurl:blog ,开源的搜索引擎介绍(15),元搜索引擎 MetaCrawler (http:/) Profusion(http:/) Mamma(http:/) Dogpile(http:/) Vivisimo(http:/) Search(http:/,开源的搜索引擎介绍(16),PK,开源的搜索引擎介绍-百度(1),

11、百度(http:/) 百度,全球最大的中文搜索引擎、最大的中文网站。2000年1月创立于北京中关村。百度搜索引擎具有高准确性、高查全率、更新快以及服务稳定的特点。,开源的搜索引擎介绍-百度(2),Baidu 的简单搜索技巧 以空格表示逻辑“与” 在百度查询时不需要使用符号“AND”或“+”,百度会在多个以空格隔开的词语之间自动添加“+”。如:“云南 旱灾 图片” 以“-”表示逻辑“非” 百度支持“-”功能,用于有目的地删除某些无关网页,但减号之前必须留一空格。 例如:图书馆 公共图书馆,开源的搜索引擎介绍-百度(3),以“|”表示逻辑“或” 使用“A|B”来搜索“或者包含词语A,或者包含词语B

12、”的网页。 如:毛泽东|毛主席,开源的搜索引擎介绍-百度(4),In intitle:在网页标题中搜索 在一个或几个关键词前加“intitle:”,可以限制只搜索网页标题中含有这些关键词的网页 关键词B intitle:关键词A,开源的搜索引擎介绍-百度(5),利用利用intitle查找论文直接找特定论文 除了找论文网站,我们也可以直接搜索某个专题的论文。看过论文的都知道,一般的论文,都有一定的格式,除了标题、正文、附录,还需要有论文关键词,论文摘要等。其中, “关键词”和“摘要”是论文的特征词汇。而论文主题,通常会出现在网页标题中。 例:关键词 摘要 intitle:物流,开源的搜索引擎介绍

13、-百度(6),利用intitle语法查询别人的收藏夹 IE浏览器的收藏夹导出后,网页的标题(title)是bookmarks。百度的intitle语法可以把搜索范围限定在网页标题内。所以,用intitle语法可以查询别人的收藏夹,结果应该都是精品,没有哪个人会把垃圾放到自己收藏夹的。 实例:小说 intitle:bookmarks 查找小说的精彩站点,开源的搜索引擎介绍-百度(7),url是Uniform Resource Locator(统一资源定位符)的缩写,简单地说,就是地址栏里的东西 格式:关键词A inurl:关键词B(关键词A与inurl之间要用空格隔开) 意思是在url中含有关键

14、词B的网页中,寻找关于关键词A的信息 这句话说的好,“网页url中的某些信息,常常有某种有价值的含义”。只要善于观察,多多使用,你就会发现inurl语法非常有用。,开源的搜索引擎介绍-百度(7),例1:找关于photoshop的使用技巧,可以这样查询:photoshop inurl:jiqiao 上面这个查询串中的“photoshop”,是可以出现在网页的任何位置,而“jiqiao”则必须出现在网页url中。 注意,inurl:语法和后面所跟的关键词,不要有空格。,开源的搜索引擎介绍-百度(7),问情 inurl:mp3 搜索戏说乾隆的主题曲 inurl:liyuchun 查找李宇春的信息 第

15、一章 inurl:lianchengjue 查询小说连城诀,开源的搜索引擎介绍-百度(8),site的用法 有时候,您如果知道某个站点中有自己需要找的东西,就可以把搜索范围限定在这个站点中,提高查询效率。 注意,“site:”后面跟的站点域名,不要带“http:/”;另外,site:和站点名之间,不要带空格。,开源的搜索引擎介绍-百度(8),在著名的软件下载站找软件 由于网站质量参差不齐,下载速度也快慢不一。如果我们积累了一些好用的下载站(如天空网,华军网,电脑之家等),就可以用site语法把搜索范围局限在这些网站内,以提高搜索效率。 例: 网际快车 site:,开源的搜索引擎介绍-百度(8)

16、,cnkikw site: 在教育网内搜索cnkikw 摄影 site: 在hao123中找摄影的网站,开源的搜索引擎介绍-百度(9),“开始连接”、“正在连接”搜索免费电影 网络上有很多热心人提供免费电影的下载地址。为了表明真实可靠,把下载过程也同时附上。现在最流行的下载工具是flashget和迅雷。 Flashget下载开始就是“正在连接”,迅雷则是“开始连接”。所以,可以用想找的电影名字,加上“开始连接”或者“正在连接”,来寻找免费电影。 检索式形式如:“电影名 开始连接”、电影名 正在连接”、“电影名 (开始连接 | 正在连接)” 举几个例子: 哈利波特4 开始连接 阿育王 (正在连接

17、 | 开始连接),开源的搜索引擎介绍-百度(10),Baidu的特色搜索 百度快照 百度搜索引擎已先预览各网站,拍下网页的快照,为用户贮存大量的应急网页。点击每条搜索结果后的“百度快照”,可查看该网页的快照内容。以搜索“甲型h1n1流感”为例。,开源的搜索引擎介绍-百度(11),专业文档搜索(http:/) 百度支持对Office文档(包括Word、Excel、Powerpoint)、Adobe PDF文档、RTF文档进行了全文搜索。 要搜索这类文档,在普通的查询词后面,加一个“filetype:” 。“Filetype:”后可以跟以下文件格式:DOC、XLS、PPT、PDF、RTF、ALL。

18、其中,ALL表示搜索所有这些文件类型,开源的搜索引擎介绍-百度(11),例: 查找关于网络技术的课件 格式: 网络技术 filetype:ppt,开源的搜索引擎介绍-百度(12),精确匹配双引号和书名号 如果输入的查询词很长,百度在经过分析后,给出的搜索结果中的查询词,可能是拆分的,给查询词加上双引号,就可以达到这种效果。 例如,搜索京师范大学研究生院,加上双引号后,输入“北京师范大学研究生院”,获得的结果就全是符合要求的了。,开源的搜索引擎介绍-百度(12),书名号是百度独有的一个特殊查询语法。加上书名号的查询词,有两层特殊功能: 一是书名号会出现在搜索结果中; 二是被书名号扩起来的内容,不

19、会被拆分。 例如;查电影“手机”,如果不加书名号,很多情况下出来的是通讯工具手机,而加上书名号后,手机结果就都是关于电影方面的了。,开源的搜索引擎介绍-百度(13),百度国学(http:/) 是百度与国学公司合作推出的针对中国传统文化方面的专业搜索,提供了大量的丰富的古典名著、历史资料、人名书名等,所有在线资源都是免费的。 提供上起先秦,下至清末历代文化典籍的检索和阅读;包括经、史、子、 集、蒙学及其他。,开源的搜索引擎介绍-百度(14),Baidu的高级检索,开源的搜索引擎介绍-百度(15),百度其他常用搜索功能 新闻搜索 贴吧搜索 MP3搜索 百度知道 百度百科 视频搜索 图片搜索,开源的

20、搜索引擎介绍-谷歌(1),二、Google(http:/.hk/) 特点:世界上第一大的网络搜索引擎;有庞大的数据库;用户界面相当好;并且具有一定的大写、名词识别能力的快速搜索引擎。 口号:确解用户之意,切返用户之需,开源的搜索引擎介绍-谷歌(2),基本检索 Google用空格来表示逻辑“与”的操 Google自动使用“and”进行查询。如果您想缩小搜索范围,只需输入更多的关键词,只要在关键词中间留空格就行。,奥运会 中国 金牌,开源的搜索引擎介绍-谷歌(3),Google用大写的“OR” 来表示逻辑“或”操作 例如:想搜集“二氧化钛” 文献方面的资料,可以在检索框里输入“二氧化钛 OR Ti

21、O2”。,开源的搜索引擎介绍-谷歌(4),Google用“-”表示“非”操作 用于有目的地删除某些无关网页,但减号之前必须留一空格。 例如:搜索郑州的相关信息(除河南财经政法大学以外) 检索式:郑州 河南财经政法大学OR河南财大,开源的搜索引擎介绍-谷歌(5),“”数字范围搜索 想要查找数字?通过数字范围可以搜索包含指定范围内的数字的结果。只需在搜索框内向搜索字词后面添加两个数字,并将其用两个英文句号分开(无空格)即可。您可以使用“数字范围”设置从日期 (Willie Mays 19501960) 到重量( 500010000 kg 卡车)的各种范围。不过,请务必指定度量单位或其他一些说明数字

22、范围含义的指示符。 例如,要搜索关于2008-2009的政府信息公开的信息,开源的搜索引擎介绍-谷歌(6),不区分英文字母大小写 Google 搜索不区分英文字母大小写。所有的字母均当做小写处理。 例如:搜索“google”、“GOOGLE”或“GoOgLe”,得到的结果都一样。,开源的搜索引擎介绍-谷歌(7),短语搜索 在 Google 中,可以通过添加英文双引号来搜索短语。双引号中的词语在查询到的文档中将作为一个整体出现。 这一方法在查找名言警句或专有名词、搜索文章时显得格外有用。一些字符可以作为短语连接符。Google 将“-”、“”、“.”、“=”等标点符号识别为短语连接符。 这里的“

23、”是半角符号,也就是英文的引号 例:“冬天来了,春天还会远吗”,检索结果页面,开源的搜索引擎介绍-谷歌(8),定义:查看字词或词组的定义 举例:输入:定义 纳米 输入: Define:www,开源的搜索引擎介绍-谷歌(9),查找某类型的文件 Google已经可以支持13种非HTML文件的搜索。除了PDF文档,Google现在还可以搜索Microsoft Office (doc, ppt, xls, rtf) 、 Shockwave Flash (swf)、PostScript (ps)和其它类型文档。 例如:如果您只想查找 关于元数据规范的PDF文件,而不要一般网页,只需搜索“元数据规范 fi

24、letype:pdf”。,元数据规范 filetype:pdf,其 他 搜 索 符 号,开源的搜索引擎介绍-谷歌(10),可以看出, 利用Google的“高级搜索”,可以做到:将搜索范围限制在某个特定的;网站中排除某个定网站的网页;将搜索限制于某种指定的语言; 查找链接到某个指定网页的所有网页;查找与指定网页相关的网页等。,开源的搜索引擎介绍-谷歌(10),信息需求类型:直接查找具体数值;查找相关专业的重要网站 例如:查找与化学科学信息门户相类似的网页(http:/ 单击“类似网页”时,Google 侦察兵便开始寻找与这一网页相关的网页。 Google 侦察兵可以“一兵多用”。 如果您对某一网

25、站的内容很感兴趣,但又嫌资料不够,Google 侦察兵会帮您找到其他有类似资料的网站,开源的搜索引擎介绍-谷歌(12),翻译功能 你懂英文,但是你不见得就懂德文、法文、拉丁文。Google提供了网页翻译功能。 如果你安装了“google工具条” ,翻译功能的使用更好。可以屏幕取词翻译。,GOOGLE工具条,翻译网页,开源的搜索引擎介绍-谷歌(13),学术搜索 定位:专门面向学术资源的免费搜索工具 搜索结果:论文、图书、预印本、摘要、技术报告等。 信息来源:合作伙伴(ACM、IEEE、Nature、 OCLC等);互联网,开源的搜索引擎介绍-谷歌(13),2006年1月11日,Google公司宣

26、布将(Google Scholar)扩展至中文学术文献领域,推出面向中文的Google学术搜索服务 搜索结果:论文、图书、预印本、摘要、技术报告等。 信息来源:合作伙伴(万方、维普等); 互联网,开源的搜索引擎介绍-谷歌(13),利用学术搜索查询免费学术论文 格式:关键词filetype: pdf 例如:查找关于机械制造方面的论文 机械制造 filetype: pdf,检索结果太多,调整检索策略,开源的搜索引擎介绍-谷歌(14),利用google搜密码 password=welcome+(X) password+journal x 可以为任何一个文献数据库的名称,password=welcome+ProQuest,密码=welcome+CNKI 2010,开源的搜索引擎介绍-谷歌(15),其他搜索功能 图片搜索 新闻搜索 论坛搜索 网页目录搜索 地图搜索 购物搜索 视频搜索 ,搜索引擎的未来,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1