信息过滤-文档资料.ppt_三一文库31doc.com

资源描述

《信息过滤-文档资料.ppt》由会员分享，可在线阅读，更多相关《信息过滤-文档资料.ppt（68页珍藏版）》请在三一文库上搜索。

1、.,1,信息过滤,哈工大信息检索研究室 2007,.,2,这一部分讲述,了解信息过滤的需求和概念信息过滤的基本结构信息过滤的方法,.,3,信息过滤需求、发展现状和趋势,.,4,背景,随着互联网内容的极大丰富，信息海量化正在导致信息垃圾化个性化服务改变获取方式，提高人们获取信息的效率,.,5,背景,.,.,6,信息过滤的需求,信息过滤是改善Internet信息查询技术的需要信息过滤是信息个性化服务的基础发展信息过滤技术是国家信息安全的迫切需求信息过滤也是信息中介(信息服务供应商) 开展网络增值服务的手段,.,7,定义,什么是信息过滤？是指计算机根据用户提供的一个过滤需求(user

2、Profile)，从动态变化的信息流(比如Web)中自动检索出满足用户个性化需求的信息 Profile：一组对用户过滤需求的描述，这种“profile”描述了用户长期的、稳定的兴趣爱好近义术语信息的选择分发(Selective Dissemination of Information, SDI)，来自图书馆领域路由(Routing)，来自Message Understanding 最新资料公告（Current Awareness），来自数据挖掘,.,8,信息过滤的主要特点,无结构的或半结构化的数据电子邮件是典型的半结构化数据结构化的邮件头无结构的邮件正文文本数据大数据量典型的

3、信息过滤系统一般要处理十亿字节的文本数据对用户过滤需求的描述既可以用来屏蔽有害信息，也可以用来收集有益信息,.,9,信息检索和信息过滤,.,10,和其它概念的区别,和文本分类(Categorization)的区别分类系统中的类不会经常改变相对而言，User Profile会动态变化和信息抽取(Information Extraction)区别 IF关心相关性 IE只关心抽取的那些部分，不管相关性,.,11,信息过滤的三个子任务(TREC),分流（routing）用户需求固定、训练文本充足、从用户需求中构造查询查询测试文本，无需设定相关度阈值批过滤（batch filtering）

4、用户需求固定、训练文本充足、从用户需求中构造，构造查询系统，设定相关度阈值自适应过滤（adaptive filtering）用户需求变化、从主题描述出发，训练文本没有或很少、不断调整相关度阈值,.,12,例子：,基于向量空间模型的文本过滤系统复旦大学 2000年TREC-9 自适应过滤平均准确率：26.5%；排名：3 批过滤平均准确率：31.7%；排名：1,.,13,主要技术特点,向量空间模型训练、过滤两个主要过程形成初始用户模板主题向量、正例特征向量、伪正例特征向量自适应的阈值调整自适应的模板修改主题向量、正例特征向量、反例特征向量,.,14,引入NLP技术,自然语言描述

5、的“user profile” 词义消歧指代消解转述（paraphrasing）,.,15,当前状态,信息过滤是不可缺少的，个性化服务但是过滤系统不可靠商业的过滤系统的相关性在50%左右 TREC实验的结果很差用户可以忍受阅读不相关的信息，但是担心丢失相关的重要信息要开发出有效的过滤系统，还有很多事情需要做,.,16,评价过滤系统的方法,准确率和召回率统计评价相关性 (用户评价vs系统评价): 等级向量基于集合的评价 Utility=(A*R+)+(B*N+)+(C*R-)+(D*N-) 这里的R+/R-/N+/N-指的是每个主题四种文本的数量。参数A,B,C,D决定了每种情

6、况的代价。显然A,D=0, B,C=0。Utility值越大，系统的过滤性能就越好。,.,17,需要解决的问题,以什么样的形式描述用户需求？如何判断待过滤信息是否符合用户的过滤需求？如何在过滤的过程中实现用户需求文档的学习和更新？,.,18,用户需求的描述,用户需求的描述实际上是建立一个反应用户客观需要的模型，简称用户模型（Profile）从内容上划分：基于兴趣的，加权矢量模型等基于行为的，用户浏览和访问模式从组织形式上：用关键词表达用户过滤需求：歧义性，关系的表达用文档集表达用户过滤需求：覆盖性不够,.,19,过滤资源的描述,资源描述与用户描述密切相关，采用同一机制基于内容

7、的方法基于分类的方法,.,20,用户模型的学习和更新,用户兴趣的变化渐进式突发式常见的模型更新方法显示：用户提供相关反馈隐式：根据用户的行为用户文档高级交互,.,21,Google推出新闻过滤： ,.,22,.,23,.,24,.,25,其他隐式反馈信息:,历史查询,GRE考试,Click through,浏览记录、浏览时间、,.,26,信息过滤的应用,克服重复查询网络信息是动态变化的, 用户时常关心这种变化而在搜索引擎中, 用户只能不断地在网络上查询同样的内容, 以获得变化的信息, 这花费了用户大量的时间提供个性化信息服务对不同的用户采取不同的服务策略, 提供不同的服务

8、内容。实现“主动服务”，“信息找人” 实现有害信息的过滤反动言论，保护国家安全谣言，保护社会稳定色情内容，保护青少年身心健康,.,27,信息过滤的应用（续）,垃圾信息过滤垃圾邮件垃圾短信信息中介开展网络增值服务建立最初的客户资料库建立标准丰富档案内容利用客户档案获取价值推荐(Recommendation) 根据不同用户之间需求的相关性推荐信息,.,28,信息过滤分类体系,.,29,信息过滤系统分类示意图,.,30,信息过滤系统分类,系统的主动性主动过滤主动向用户推送相关信息被动过滤比如垃圾邮件过滤过滤操作的位置信息源过滤，将过滤模板提交给信息发布者服务器过滤

9、，用户需求模板放在服务器上客户端过滤，用户的需求模板放在客户端如：Outlook邮件过滤,.,31,信息过滤系统分类（续）,过滤的策略基于内容的信息过滤用户需求文档的形成及相关度的计算仅依靠信息的内容，发现新信息的能力差协作信息过滤合作式信息过滤被定义为“通过掌握一个用户群体的诸个体间的相互联系及组织关系来实现的信息过滤方法。” 许多人将合作式信息过滤的方法解释为“相似用户之间相互合作的过程。”,.,32,信息过滤系统分类（续）,用户知识获取显式获取用户信息用户直接填表用关键词表达用户过滤需求用文档集表达用户过滤需求隐式获取用户信息无需用户直接参与，通过观察用户的动作行

10、为判断用户需求用户阅读文档的时间可以作为衡量该文档相关度的一个指标。其他的一些用户行为诸如用户是否保存、删除或是打印某篇文档也可以作为度量文档相关度的一个指标。显式和隐式并用的方法文档空间（基于案例的方法）推理 (预先定义默认的profile，在扫描过程中再改变),.,33,信息过滤系统的组成,.,34,一般组成,.,35,信息分析模块,接近信息提供者从信息提供者处获得和整理数据分析和表示文档例如：布尔模型, VSM等把表示结果传递给过滤单元,.,36,过滤模块,过滤模块是信息过滤系统的核心部分，它采用的算法直接决定了过滤结果的好坏主要作用是匹配用户模型(Profile)和

11、信息的特征向量通常只作二值判断，即判定的信息或者与用户模型相关，或者不相关对于被判定相关的信息还将由用户最终决定其相关性，用户判定的结果将作为反馈信息被系统应用于对用户模型Profile的更新,.,37,过滤模型,布尔模型向量空间模型概率推理模型隐性语义标引关联论方法,.,38,学习模块,目的改进过滤的性能发现用户兴趣的转移更新用户模型学习方法通过观察来学习通过相关反馈学习用户训练学习学习的频度临时学习周期式的学习,.,39,用户建模,收集关于用户的信息 (显式的and/or隐式的) 创建用户profile，用户模型用来保存每个用户的Profile(规则, VS

12、M,文档中心) 把用户模型传递给过滤单元，当动态信息流输入过滤模块时，系统提取用户的Profile并与文档的特征向量进行匹配用户模型必须与文档的表示相适应当用户兴趣发生变化时，系统根据相关反馈使用学习模块将初始Profile和反馈信息的特征向量进行融合，并将新生成的Profile覆盖原来的Profile,.,40,用户建模,为建模获取数据隐式方法：观察用户的行为显示方法: 请用户填表，与用户交互模型中的数据浅层语义:关键词增强的用户模型，关于用户的高层知识用语义网络/传统的推理/统计推理获得文档中词汇之间的关系架构用Agent/神经网络进行自动推理用VSM/LSI进行显

13、式推理智能系统的概念模型统计过滤的关键词系统,.,41,信息过滤的方法,.,42,方法,基于内容的过滤基于规则的过滤基于统计的过滤协作过滤基于用户的协作过滤基于模型的协作过滤基于项目的协作过滤,.,43,基于内容的信息过滤（规则）,规则可以用户制定，也可以通过关联规则挖掘,.,44,基于内容的过滤系统（统计）,用户和资源之间关键是相似度计算如果用户描述文件不好，得到的资源很可能不相关优点：简单缺点：只能找到与用户已有兴趣相似的资源,.,45,协作过滤,用户和用户之间关键问题是聚类优点：提供用户资源的新颖性两个问题：稀疏性可扩展性,.,46,基于内容的过滤（统计

14、）,特征表示提取关键词的形式文本分类的形式训练模型与分类方法相似相关反馈,.,47,协作过滤,.,48,相关概念,协作信息过滤中，当前获得推荐结果的用户通常称为活动用户（Active user）参与过滤的信息资源统称为项目（Item）假设所有参与协作过滤的用户集为项目集为用户对项目的评价集为用户ui对tk的评价为rik，如果rik0，说明用户感兴趣， rik0说明用户不感兴趣， rik=0没有明确判断可以互相推荐大于零的项目,.,49,用户-项目矩阵,.,50,协作过滤样例,.,51,主要实现方法,基于用户的协作过滤基于模型的协作过滤基于项目的协作过滤,.,52,基于

15、用户的协作过滤,通常基于用户的协作过滤采用最近邻方法。即对活动用户ua ，获取按照相关度大小排列的相似“近邻”集U=u1,u2un 用户之间的近邻关系具备两种特征，即非对称性和非传递性非对称性和非传递性产生的原因在于用户之间共同评价过的项目过少，从而造成对称关系和传递关系的置信度很低,.,53,近邻集的规模,近邻选择步骤中，过滤系统需要预先设置近邻集的规模通常近邻用户数量的设置采用阈值设置或定值设置两种方法阈值设置：系统选择相关性大于阈值的用户作为活动用户的近邻定值设置：预先确定近邻集的规模,.,54,活动用户与项目的关系,活动用户ua 对项目ti 的评价定义为近邻集U 中所有用户

16、对项目 ti评价指标的加权和基于用户的协作过滤方法中最主要的问题是如何获取最近邻用户，因此活动用户与其他用户之间的相似度计算成为决定协作过滤系统性能的一个主要方面,.,55,用户之间的相似度,基于用户的协作过滤方法中最主要的问题是如何获取最近邻用户常用的用户间相似度评价方法余弦相似度计算法相关相似性计算法,.,56,相似度计算,相似性计算法主要从用户兴趣是否相似的角度选择活动用户的近邻优点提高了协作过滤系统推荐项目的准确性缺点过分相似的用户共有的项目集规模相对很大，削弱了用户间可以互相推荐的未知项目空间,.,57,反流行度,通常协作过滤系统可以采用项目的反流行度为候选用户赋予权

17、值，反流行度公式如下：一个项目的流行程度越大，则其反流行度越小，从而包含该项目的候选用户获得的权值越低；反之，候选用户的权值则得到加强活动用户可以简化地选择经过反流行度加权后权值相对较高的用户作为邻居优点在于最近邻居可以向活动用户推荐更多新颖的项目,参与评价的用户总数,.,58,基于用户的协作过滤优缺点,基于用户的协作过滤系统在实验环境下可以获得较高的性能，但在实际应用中的效果却普遍偏低主要原因在于评分机制的稀疏性实际应用中的用户很少主动提供项目的评价，从而造成“用户”与“评分”对应的二元关系相对稀疏，导致协作过滤系统无法有效识别相似用户,.,59,基于模型的协作过滤,基于模型的

18、协作过滤方法，通过挖掘数据之间的相互关系建立需求模型，并利用该模型过滤后续的信息资源基于模型的方法需要预先分析大量数据，使模型的建立需要花费大量的时间模型生成后，后续协作过滤的效率和准确率都可以得到显著的提高,.,60,隐含语义索引,基于模型的协作过滤研究中最重要的方法是隐含语义索引 Sarwar等学者将LSI引入协作过滤领域关系矩阵由活动用户和项目组成；语义关系由用户与用户之间、项目与项目之间、用户与项目之间的相关性组成,.,61,LSI协作过滤的流程,建立用户-项目关系矩阵R ；采用奇异值分解技术将矩阵R 分解为U ,S 和V 将V 降维成维数为k的矩阵VK k r），并采用相同方

19、法简化矩阵U和S 为Uk 和Sk ；计算矩阵Vk 的平方根，并相应计算和预测用户a 对项目i 的评分，公式如下：,.,62,优缺点,重要的用户-项目关系结构被映射到低维空间中，消除了关系上的细微差别而保留了重要的潜在关联性 K值太大会导致结果趋近于原始矩阵而失去挖掘潜在关联的能力 K值太小则会使得关联信息丢失太多，以至于对于用户和项目的分辨能力不足,.,63,基于项目的协作过滤,基于用户的协作过滤系统通过遍历整个用户群建立用户之间的相似关系，并推荐项目，对用户规模庞大的过滤系统而言，这种方法极大影响推荐效率基于项目的协作过滤系统只针对目标项目和活动用户已有项目之间进行协作性检测，从而

20、在保证过滤效果的同时，大大提高了系统效率基于项目的协作过滤系统的核心问题是检测两个项目之间的协作相似性区别于基于内容的过滤，描述项目的特征空间不是由项目本身包含的词、短语或句子构成，而是用户群对其进行的综合评分,.,64,项目打分,用户群对项目综合评分基于这种定义，项目之间的相关性仍然可以采纳余弦相似度和相关相似度等算法进行度量用户是否对项目ti 感兴趣，需要计算已知的相关项目与项目ti 的综合相似度项目之间的相似度不仅来源于共有相关用户的数量，也来源于这些用户对其喜好程度评分的相似性,.,65,用户对项目的评价,用户u 对目标项目ti评分的估计方法有两种权相加方法 Pu,i代表用

21、户u对目标项目ti的评分估计 Si,k代表用户偏爱的已知项目tk与项目ti的协作相似性 Ru,k代表用户u对项目tk的偏爱程度评分回归方法,.,66,改进方法,由于在大多数协作过滤系统中项目的更新比较慢，因此可以预先计算项目之间的相似性，从而提高推荐系统的效率一种方法是计算所有项目之间的相似性并进行索引，这种方法的缺陷在于系统需要的存储空间一种方法是对每个项目，只保存最相似的 j个项目及其协作相关性， j 称为模型尺寸模型尺寸的选择对于过滤系统的性能有较大影响过大，则系统的预测能力很强，但空间复杂度增大过小，则一些于目标项目相似的项目可能没有被考虑其中，从而降低过滤系统的预测性能,.,67,小结,基于内容的信息过滤策略重点在于分析信息内在的本质规律，通过自然语言处理技术对知识的表示进行深层理解，从而提高信息服务的精确性；基于协作的信息过滤策略重点在于挖掘用户的社会关系网络，探寻知识背景和信息需求相似的用户，并在此基础上实施信息多元化的交互，从而实现信息服务的拓展性和新颖性目前信息过滤领域的另一研究热点是内容与协作策略的融合，使信息过滤系统既能延续用户指定的信息查询路线精准地获取知识，又能挖掘相关于用户的其它兴趣偏好拓展知识获取的领域。,.,68,本章小结,介绍了信息过滤的概念和需求介绍了信息过滤的体系结构介绍了信息过滤的方法,

展开阅读全文