个性化综合倒排索引在Lucene中的应用.docx

上传人:罗晋 文档编号:8950917 上传时间:2021-01-26 格式:DOCX 页数:4 大小:1.47MB
返回 下载 相关 举报
个性化综合倒排索引在Lucene中的应用.docx_第1页
第1页 / 共4页
个性化综合倒排索引在Lucene中的应用.docx_第2页
第2页 / 共4页
个性化综合倒排索引在Lucene中的应用.docx_第3页
第3页 / 共4页
个性化综合倒排索引在Lucene中的应用.docx_第4页
第4页 / 共4页
亲,该文档总共4页,全部预览完了,如果喜欢就下载吧!
资源描述

《个性化综合倒排索引在Lucene中的应用.docx》由会员分享,可在线阅读,更多相关《个性化综合倒排索引在Lucene中的应用.docx(4页珍藏版)》请在三一文库上搜索。

1、ISSN 1009-3044Email:edufCCCCnetcnComputer Knowledge and Technology电譬知识与技术http:wwwdnzsnetCIIV016,No4,February 201 0,PP932934Tel:+8655 15690963 5690964个性化综合倒排索引在Lucene中的应用林洁(杭州师范大学钱江学院,浙江杭州310012)摘要: 文 目前通用搜索引擎存在的不足,提出在建立普通倒排索引的基 上,再建立一个 用 手 注信息的 合倒排索引并 合渠道 励 算法和文档关注度算法 更新 合倒排索引,最后在Lucene 境下 了一个体 用 个性

2、的搜索引擎。关 : 合倒排索引; ;渠道;文档关注度;Lucene中图分类号:T嗍文献标识码:A文章编号:10093044(2010)04093203Application of Personalized Synthetically Inversed Index Based 011 LuceneLINJie(Hangzhou Normal University Qianjiang CoUege,Hangzhou 310012,China)Abstract:Alongatth e actual flaw of current search engine,the syntheticaly inve

3、rted index was built by the information which wasmarked by users based on buffing a traditional inverSed indexMeanwhile,algorithms of statistical word frequency and channels and docu merit attention algorithm were used tO update the personalized synthetically inverted indexFinally,the paper designed

4、 a search engine according tousers7personalization based onLuceneKey words:synthetically inversed index;word frequency;channel;document attention algorithm;hicene随着 算机的存 容量不断增大。散落在本地 算机或者局域网内 算机系 各个角落中的 件、 件和 片等 构化和非 构化文档也在快速增 ,由于操作系 自 的搜索工具的功能非常有限,当用 在本地或者局域网中 找各种各 的信息 ,搜索有如大海 ,速度也非常的 慢,如何 足用广1个性化的

5、需求、 助用 从海量信息中找到自己所需的信息成 r个性化搜索引擎的 展方向。1个性化综合倒排索引关键技术11 合倒排索引 合倒排索引就是以用 手 注的关 、主 和 共同作 索引 文档建 的倒排索引。当用 在 算机上 或处理不同的文档时,借助专利基于关键词的个性化文档处理系统t11,用户有意识的对文档的内容进行关键词、主题词和评语等信息的 注:系 利用鼠 迹的一些特定移 迹来抓取并存 些信息。 合倒排索引 构如表1所示:表1综合倒排索引结构其中:1)Mark_Word表示用 注的索引 ,可以是关 ,也可以是主 或是用 注的 ;2)HFc代表用 采用多种渠道 注某索引 后 索引 最 的 励 ,体

6、索引 用 的重要程度;3)“hl,hl_num,hn,hn-num】j 用 注索引 所使用的渠道集合以及使用不同渠道的次数;4)I儿小me表示添加索引 的 ;5)d1,dm表示用 手 注索引 相 的文档 号集合。12普通倒排索引和 合倒排索引的有效 合考 到用 的操作行 和操作 开始肯定会有很多用 不太愿意 件 行 多的信息 ,另一方面 依靠用 注所建立的 合倒排索引是不 的,因 用 的文档 只是信息 源中的很小部分,当用 想要 找其它相关 源肘,仍然 需要借助 所有文档通 自 分 所建立普通倒排索引 行 索。本文 通 用 注的关 、主 和 等信息并且将其作 索引 保存生成一个 模 小的个性化

7、 合倒排索引, 索引的大小控制其能保存在内存中,如果有相当的 在 个性化 合倒排索引文件中 得 足用 定的K条返回 果 , 柬;当 索得到的 果不足 ,再去 磁 上的整个普通倒排索引文件。通 种方式,系 可以 省大量磁 的 开 , 索效率将得到大大提高,同 索的 果也更能 足用 的个性化需求。13文档关注度文档关注度是用 文档的重要性、参考价 以及喜 程度的 合 价。文档关注度表 构如表2所示:收稿日期:2009-1128基金 目:杭州 范大学 江学院科研基金 目(2009QJzK05)。作者筒介:林 (1978一),女, 士, ,主要研究方向 数据 技 ,信息 索,文本分 。万方数据本栏目责

8、任编辑:唐一东第6卷第4期(2010年2月1Computer Knowledge and Technology电脯知识与技术表2文档关注度表结构臣叵工互习其中:1)Did表示用p曾 使用 并且 注 信息的文档代号;2)Gz表示用 某文档的关注程度( 称文档关注度);3)Fw表。月i文档被使用次数:当某个关 通 某个渠道被 注 ,或者 注主 和 ,必然会与某个文档相关 。 了使各种文档之 的比 能相 公平,所有的文梢取与它关 的最重要的前k个索引 行 Fc平均, 于 索引 少于k个的情形, 剩余的索引 0。 算文档的关注度Gz的公式可以表示 :。1IOz=Rw砌恤善妈(1)其中,Rw表示文档使用

9、 率的 霞。Rc表示 要索引 均 的 重。14词频渠道奖励 渠道 励就是模仿人 程巾的感 渠道的 合作用和新 感 的影响,将用 的操作 行量化,便于挖掘用 潜在的 趣。用 在 算机E 文档 行操作 ,不同的用 有不同的操作 ,本文提到的渠道是指用 手 文档 行 注所采用的途径和方法,比如屏幕精确取 、 入 程取J!】j等等, 于用 注的索引 ,我 根据不同的渠道 予不同的 励 。借此反映用 注 的感受 度。141单渠道词频奖励本文 当用 使用一个新的渠道来 注索引 的促 最大, 励 HF0;第二次使用 励HFoxZd,其中Zd(o Zd1)表示渠道新 指数因子;第一次使用 励HF。xZd2;第

10、t次之后就将 渠道看成老渠道,用 露次使用相同渠道 注索引 , 都增加1。 渠道 励算法如公式2所示。arc(1)。嬲;HFc(2);肫O)+HFoxZd:HFc(3)=胁(2)+爿焉xZd2;HFc(n)=HFc(n一1)+1(开4)f,、142多渠道词频奖励当用 像在印刷材料卜用笔去做 注一 子文档 行手 注 更 普遍的情况是用 在使用文档 ,会采用多种渠道来 注索引 ,在 种情况下,就需要判断两个渠道的相似程度,本文通 渠道相似度Q(oQ1)来表示。如果相似度Q=O 表示 渠道 新渠道;如果相似度Q=l, 表示 渠道完全相似。 于渠道Hi用 m次的情况下,渠道Hi用第11次 的相 新 度

11、Xd(HiHi)可以表示为:Xd(Hi,Hj)=Zd“(1一Q(Hi,Hi)(1-Zd)(3)于是使用Hi渠道第n次的 励 HFt(Hi,n)可以表示 :HFt(Hin)=HFoxXd(Hi,Hj)(4) 合以上,当一个索引 在渠道Hi用 in次的情况下,渠道Hi用第n次 , 索引 的渠道 励 121:HFc(n)=HFc(n-1)+I+HFt(Hi,n)(5)2个性化综合倒排索引在Lucene中的实现21Lucene技术简介I,ucene是一个基于Java的全文 索引擎的架构它提供了完整的 引肇和索引引擎,可以方便的嵌入到各种 用中 用的全文索引 索功能。使用Lucene工具包 行搜索 用程

12、序的开 ,主要是利用Lucene的索引与搜索方面的 良性能, ,高效地 用程序的搜索功能。Lucene与搜索 用的关系如 1所示。22个性化 合倒排索引的建立建立个性化 合倒排索引之前先根据自 分 的方法,生成一个普通倒排索引,先 文件是否已 存在,如果不存在, 开始 建。同 建一个 文档使用 率和关注度等信息的 序索引,本文将个性化 合倒排索引称 “UMARKINDEX”,将文档关注度的 序索引称 “DOCINDEX”;如果已 存在, 不再重新建立。213添加索引词标注信息根据 利基于关 的个性化文档 理系 , 取用 注的信息和渠 图1 Lucene与搜索 用之 的关系同道需要一系列的子部件

13、相互配合才能完成,是一 非常复 的工程, 了便于 。本文通 用 手 入相关信息来代替 索引 的 注,用 注文件名、 注信息和渠道以后,系 将其保存在个性化 合倒排索引中,整体流程如 2所示。在信息的保存 程中,系 首先 杏用 注的索引 是否已 在个性化 合倒排索引中存在,如果不存在, 将 索引 添加到 合倒排索引中,f司 按照 渠道 励算法 予新添加的索引 一定的渠道 励 ,同 渠道的使用次数;如果用 注的索引 已 存在 用 注的渠道 号是否已 添加到 索引 的渠道集合中,同 取相关渠道的使用次数,如果多次郊只使用同一个渠道来 行 注, 使用 渠道 励算法,反之 按照多渠道 励算法 行 励,最

14、后更新不同渠道使用的次数和 索引 的 励 。本系 中没定用 注的渠道只有Hl、H2和H3,它 的初始渠道 励 如表3所示。当用 每次都使用同一个渠道 注来 注某个索引 采用 渠道 励算法 行 励。按照系 事先 定的渠道相似度(如表4所示),关于多渠道的判断,本系 是 界定的:假没用 第一次使用Hl渠道 注索引 后,第二次使用H2渠道来 注相同索引 ,就采用多渠道 本栏目责任编辑:唐一东万方数据Computer Knowledge and Technology电脑知识与技术频奖励算法,当用户第三次冉用采用Hl渠道标注同一个索引词时,也按照多渠道词频奖励算法来计算24文档关注度更新用户在手动标注信

15、息的过程中,系统除了统计和更新索引词和渠道信息外,还动态更新文档关注度值。用户对文档标注的信息越多说明这篇文档对用户就越重要,相对应的文档关注度值就越高。系统对文档关注度专门建立了一个记录文档编号和文档关注度的文档关注度表,同时假设用_l_i标注过一次文档,则代表该义档被使用过一次,也就是说文档被标注过一次,文档使用次数(Fw)的值就加1。当用户指定标注文档后,系统先去个性化综合倒排索引中查找该文档中用户曾经标注过的索引词,同时取出每个被标注的索引词的渠道词频奖励值。当用户标注相关信息后,系统将其保存到综合倒排索引中后,根据文档关注度算法对文档关注度表进行更新。图3显示了文档关注度表中关于文档

16、被使用的次数已经该文档的文档关注度(Gz)等信息。rITLEI僖哇虚两薯xtrF-2Gz-68TITL-暑3印cxtr-lGz一04TITL-铸cxcrv-lGz04图3文档关注度更新后的信息图225个性化搜索的实现为了实现搜索结果的个性化,搜索流程如图4所示,当用户输入要搜索的信息后系统对用户辁人的信息进行解析后开始去个性化综合倒排索引中检索。首先判断用户输入的信息是否属于被标注的索引词,如果是,则直接在个性化综合倒排索引中返同对应的文档信息,然后系统再去普通倒排索引中查找若返回的文档信息与个性化综合倒排索引中的结果相同,则不重复显示。这样一来,返回的搜索结果分为两令部分,系统把从个性化综合

17、倒排索引中查找出来的结果显示在前面,并且按照文档关注度值从高到底显示,另外,从普通倒排索引中返回的结果则按照索引词在文档中Score51从高到低进行显示。第6卷第4期(2010年2,E1)在综合倒排索引中添加标注信息表3苎塑堕塑塑塑塑苎勋值渠道代号词频奖励值z编HllOH215H38表4多渠道之间的渠道相似度表3搜素结果分析本系统允许用户根据自身要求,设定搜索结果的返回条数,为了验证实验的正确性和有效性,本文在前面的实验中,采用的文档数比较少。当本文把实验的样本设定1601个与经济有关的文档时,生成普通倒排索引耗时39781毫秒,接着对郝分文档进行标注,本文设定只返回10条搜索记录,当本人在搜

18、索界面输入“经济学”时,系统在毫秒级的时间内就返回的搜索结果,如图5所示。需要说明的是,当输入检索词“经济学”后,系统在综合倒排索引中直接进行匹配查找,而在普通倒排索引建立索引时是根据最简单二元分词法来建立的,所以是根据“经济济学”来检索的。由于分词不是本文研宅的重点,对搜索结果可能会产生一些影响。=_小结本文结合用户的主观能动性,认为用户手动标注过的信息就是相对比较重要的,并使用这样方法来描述用户的兴趣模型,采用这种综合倒排索引和普通倒排索引相结合的机制,能够将用户标注过的信息显示在最前面。如果有多个用户,对不同的用户建立不同的综合倒排索引,则在输入相同的检索词时,就能检索出不同的结果,从而

19、在某种程度上体现了搜索结果的个性化。参考文献:f11李丹宁,李丹基于关键词的个性化文档处理系统吲中国,2007102001028图4个性化搜索流程【2】林洁,李丹宁,吴晓基于用户的个性化综合倒排索引叨杭州师范大学学报:自然科学版,2008,7(3):21 1-215【3】郑依华部署搜索应用开发环境【N】计算机世界报,(20061204),(47):B3 1一B32【4j周登朋深入Lucene索引机制EBOL(2006-0713)http:wwwibmcomdeveloperworkscniavawalucene5】Hatcher E,Gospodnetic OLucene in ActionM

20、Manning,2005:78-79图5搜索结果934-人工及 舄技 。s本栏目责任编辑:屠一东万方数据个性化综合倒排索引在Lucene中的应用作者:林洁作者单位:杭州师范大学钱江学院,浙江,杭州,310012刊名:电脑知识与技术英文刊名:COMPUTER KNOWLEDGE AND TECHNOLOGY年,卷(期):2010,6(4)参考文献(5条)1.Hatcher E;Gospodnetic O Lucene in Action 20052.周登朋 深入Lucene索引机制 20063.郑依华 部署搜索应用开发环境 20064.林洁;李丹宁;吴晓 基于用户的个性化综合倒排索引期刊论文-杭州师范大学学报(自然科学版) 2008(03)5.李丹宁;李丹 基于关键词的个性化文档处理系统本文链接:http:/

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 科普知识


经营许可证编号:宁ICP备18001539号-1