孙斌北京大学计算机系计算语言所iclpkueducn.ppt

资源描述

《孙斌北京大学计算机系计算语言所iclpkueducn.ppt》由会员分享，可在线阅读，更多相关《孙斌北京大学计算机系计算语言所iclpkueducn.ppt（76页珍藏版）》请在三一文库上搜索。

1、孙斌北京大学计算机系计算语言所 (),文本信息提取技术(概述),内容,（1）信息提取的含义、目标（2）信息提取技术中若干相关基础问题（3）(中文)信息提取系统的流程与设计（4）Web信息提取,1、“信息提取”的含义,举例说明：什么是信息提取,设想有一个用户，他关心人民日报中出现的一类特定的信息，即会议信息。属于“单纯信息”：无相互关联、时序条件、因果等。通常他是一篇一篇地看报，把其中报道会议的所有段落标记出来，然后对每一个会议信息填写如下一个表格（或者称其为“会议信息模板”）：,会议信息 (填写预定义语义的表格),会议信息一例,会议报道（例1）：人民日报1998-03-09,新

2、华社北京月日电（记者李术峰）: 中国农工民主党第十二届中央常务委员会第一次会议今天在北京召开。会议研究通过了贯彻落实“两会”精神的有关决定，审议通过了中国农工民主党中央年工作要点（草案），并任命了中央副秘书长。农工民主党中央主席蒋正华主持了会议，他说，农工民主党有多名党员作为代表和委员参加了今年的“两会”，各位党员要认真履行代表和委员的职责，开好会，在年的工作中认真贯彻“两会”精神，加强农工民主党的自身建设，推动事业进一步发展，为建设有中国特色社会主义事业作出新的贡献。会前，农工民主党中央邀请参加“两会”的来自全国各省、自治区、直辖市的农工民主党党员进行了联谊活动。,ICL.CS.PKU

3、系统输出结果：会议报道（例1）事件模板实例, 今天(19980309) 北京蒋正华中国农工民主党第十二届中央常委员会第一次会议 ,会议报道（例2）：人民日报1998-01-07,19980107-06-016-001意大利总理普罗迪日说，欧洲国家将采取行动，共同对付库尔德难民涌入问题。普罗迪日晚召开了由意外长、内政和国防部长参加的紧急会议，商讨应付库尔德难民问题的对策。会前，普罗迪说，“在经过最初的混乱后，欧洲国家的行动已经大大加强”，今后几天内将在此问题上进行系统合作。,会议报道（例2）：汉语分词、标注、短语分析,19980107-06-016-001/m 意大利/ns 总理/n 普

4、罗迪/nr 日/t 说/v ，/w 欧洲/ns 国家/n 将/d 采取/v 行动/vn ，/w 共同/d 对付/v 库尔德/nr 难民/n 涌入/v 问题/n 。/nx MP0,0 PersonNP1,3 TimeNP4,4 VP5,5 XP6,6 LocationNP7,7 NP8,8 XP9,9 VP10,10 NP11,11 XP12,12 XP13,13 VP14,14 VP17,17 NP18,18 XP19,19 普罗迪/nr 日/t 晚/Tg 召开/v 了/u 由/p 意/j 外长/n 、/w 内政/n 和/c 国防部长/n 参加/v 的/u 紧急/a 会议/n ，/w 商讨/v

5、应付/v 库尔德/nr 难民/n 问题/n 的/u 对策/n 。/nx PersonNP0,0 TimeNP1,2 VP3,3 XP4,4 PP5,5 NP6,6 PostNP7,7 XP8,8 NP9,9 XP10,10 PostNP11,11 VP12,12 XP13,13 AP14,14 NP15,15 XP16,16 VP17,17 VP18,18 XP22,22 NP23,23 XP24,24 会前/t ，/w 普罗迪/nr 说/v ，“/w 在/p 经过/p 最初/b 的/u 混乱/an 后/f ，/w 欧洲/ns 国家/n 的/u 行动/vn 已经/d 大大/d 加强/v ”，

6、/w 今后/t 几/m 天/q 内/f 将/d 在/p 此/r 问题/n 上/f 进行/v 系统/n 合作/v 。/nx TimeNP0,0 XP1,1 PersonNP2,2 VP3,3 XP4,4 PP5,5 PP6,6 AP7,7 XP8,8 NP9,9 XP10,10 XP11,11 LocationNP12,12 NP13,13 XP14,14 NP15,15 XP16,16 XP17,17 VP18,18 XP19,19 TimeNP20,20 MP21,22 XP23,23 XP24,24 PP25,25 RP26,26 NP27,27 XP28,28 VP29,29 NP30,

7、30 VP31,31 XP32,32,会议报道（例2）：命名实体与关系, 库尔德 (occurrence: 1/1/15; 1/2/19;) 普罗迪 (occurrence: 1/1/3; 1/2/0; 1/3/2;) post_of(意大利总理,普罗迪) ,会议报道（例2）事件模板实例, 日晚 (1998-01) 意大利普罗迪由意外长、内政和国防部长参加的紧急会议 ,例2 会议信息结果,会议信息自动提取?,任务: 收集历年人民日报中所有的相关信息以便于自己或他人的某些重要应用需求定义：自然地，有了使用一种能够自动完成这种工作的工具的需求希望将历年人民日报的光盘数据交给这个(计算机软件

8、)工具处理，然后得到一个包括了大量会议信息记录的数据库文件，以非常方便地使用标准的数据库系统来浏览和查询这些信息（必要时再调出原文作更细致的考察）。,“XXX系统”,这个软件工具就是一个典型的信息提取系统，或者更准确地说，“人民日报会议信息自动提取系统”。更多的信息提取任务：访问信息外交事件恐怖活动自然灾害 ,一种报刊信息加工“高级应用” 系统结构,香港日报: 1998 1999 2000 ,湖南日报: 1998 1999 2000 ,人民日报: 1998 1999 2000 ,语料库,信息提取,会议信息访问信息外交事件恐怖活动自然灾害 ,内容索引库,用户界面,DB I

9、nterface,错误匹配,19980410-06-006-004 目前智利全国各地正开展形式多样的宣传活动，迎接第二届美洲首脑会议月日在智利召开。图为首都圣地亚哥市中心商业区过街通道旁竖起展览橱窗，向市民介绍参加首脑会议的美洲国家的历史文化。（新华社记者韩晓华摄）,错误匹配, UNKNOWN 智利 UNKNOWN 目前智利全国各地正开展形式多样的宣传活动，迎接第二届美洲首脑会议 ,(文本)信息提取的定义,按比较正式的说法，信息提取(Information Extraction)是指从一段文本中抽取指定的一类信息（例如事件、事实）、并将其（形成结构化的数据）填入一个数据库中供用户查询使用的过程

10、。例如上面提到的会议信息；或者从一篇关于自然灾害的新闻报道中摘录出灾害的类型、时间、地点、人员伤亡、经济损失、救援情况等；或从产品发布的新闻语料中提取某产品的各种感兴趣的指标，例如计算机网络交换器的协议类型、交换速率、端口数、软件管理方式等。,信息提取涉及到两个方面的因素,(1)用户指定感兴趣的信息特性，以及待分析的文本集（数据源）； (2)系统过滤文本集并以一定的格式输出匹配的信息(关系记录)。,与相关信息处理技术存在实质差异：,信息检索(Information Retrieval) ：只是找出满足一定检索条件(query)的整篇文档或段落，而人们仍然必须阅读所找到的每一个文档或段落

11、才能获得所需要的信息。自动文摘、文本理解：自动文摘和文本理解则没有预先规定目标的特性，需要对多种多样的内容进行分析和处理。,MUC (Message Understanding Conferences),美国政府支持的一个专门致力于真实新闻文本理解的例会，至今已举行7届。除像一般的学术会议一样交流论文外，它还负责组织对来自世界各地不同单位的消息理解系统进行系列化的评测活动。其主要的评测项目是从新闻报道中提取特定的信息，填入某种数据库中。评测语料大都出自各大通讯社发布的新闻。对每一条消息，由专业人员人工给出标准答案，然后将参测系统的输出结果与标准答案比较，按一定的评价指标给出所有系统的

12、评测结果，其中最主要的指标是准确率、查全率等。当前，由MUC定义的概念、模型和技术规范在国际上对整个信息提取领域起着主导的作用。,MUC的IE任务定义,5个典型的提取阶段：(MUC-7 IE Task Definition Version 5.1) - NE (Named Entities) - ER (Entity Relations) - Template Scenario (Event Structures) - Coreference (Identity descriptions) - Template Merger 具体提取哪些 NE, ER, Events 以及做哪些Coref,

13、 Merger 是任务相关的(每次MUC独立定义)。,各个阶段的IE任务,5个典型的提取阶段： - NE (Named Entities):提取文本中相关的命名实体，包括人名、机构/公司名称的识别国家财政部/Org 部长项怀诚/Person - ER (Entity Relations):提取命名实体之间的各种关系（事实） Post_of(部长,项怀诚), employee_of(国家财政部,项怀诚) - Template Scenario (Event Structures)：事件召开会议(Time, Spot, Convener, Topic) - Coreference (Iden

14、tity descriptions) : 代词、名词共指 - Template Merger : 相同事件的合并,实体(Entities)识别：90% 属性(Attributes)识别：80% (TE任务) 事实(Facts)识别：70% (TR任务) 事件(Events)识别：60% (ST任务),2、理解IE：目标、问题和对策,如何界定一门新的技术：它想做什么能做什么、它不做什么 (e.g., OOP hype in the earlier 90s = limited to structured types; GP is much better, but limited to sourc

15、e code reuse; ),范式转移(paradigm shift),大背景(二十世纪80年代后期 )：从以Chomsky等为代表的“纯理性范式”转变为日益强调以对真实文本数据的统计分析和经验知识归纳为主要方法的范式。这种趋势还同计算机处理能力不断提高和文本数据积累不断增大密切相关。尊重真实文本语言事实已成为当前各种自然语言信息处理技术（包括信息提取）的一个基本立场和出发点。,IE的背景与动机,作为一门应用性的语言处理技术，信息提取近年来正受到越来越多的重视。 “提取指定的信息” ：提取而不是查找！良好的动机：在所欲与所能之间找平衡突破信息检索的局限性(由人来阅读、理解、提取)

16、自动查找、理解和提取“有限技术的无穷运用”,Typical Process,Specified Information Understanding,Document Base,Filled Templates,Info: event_frame . .,(As a DBMS Interface),A Conceived Process,Specified Information Understanding,Document Base,Filled Templates,Info: event_frame . .,(As a DBMS Interface),“有了数据库之后，就什么都好办了。”,并

17、非那么简单的问题/答案,什么是“信息”？尤其是“可提取的文本信息”？到底有多少类别/不同层次的信息？如何定义/形式化表示你想要的“信息”？机器需要预备什么“信息”才能自动进行“提取”?,什么是信息(最小数据量),Information Theory: “信息是对未知的度量”. 无知者的话：“我愚昧，故我(need)信息”. 设概率空间(, , P)，则事件A 的信息(数据bit)量为 (条件)后验事件A|B与A的信息量之差称为事件A, B的“互信息”：,（自信息）,信息的至少三个层次,“语法信息”(符号信息/形式信息/）概率空间(, , P)只涉及到形式符号本身(e.g., CFGs,

18、词频、共现); “语义信息” 概率空间(, , P)涉及到符号的含义(e.g., Attrib-Gs , 属性的频率); “语用信息” 概率空间(, , P)涉及到符号的用法/使用环境因素;,我们要提取什么信息？,“语用信息” ：太复杂； “符号信息”： (too trivial); 自然地，IE是基于“语义信息”：通过“语义关系”组装命名实体,信息提取的“8字方针”,识别(命名)实体，确定(语义)关系把文本看作是(2/3/元)实体关系的集合（IR:把文本看作是词/符号串的集合/概率空间） Well-defined IE demands a well-defined (computab

19、le/decidable/recognizable) info-representation.,物质结构规律小常识,物质结构规律小常识,物质结构规律小常识,物质结构规律小常识,Superstrings,信息组成方式,信息组成方式,IE是“化学变化”：原子一级的重新组合。,“原子构成分子”的简单例子,Named Entities: 国家财政部 : Org 项怀诚 : Person Relations: 国家财政部/nt 部长/n 项怀诚/nr,Post_of,Employee_of,信息提取由简到繁,提取单个实体 (the NE Task) 把所有的电话号码、电子邮件/网址、时间(表示)

20、、价格、都提出来(列出来即可)；把所有的人名、地名都提出来；把所有的机构/团体名都提出来；把所有的产品/商标名都提出来； ,信息提取由简到繁,提取实体(二元)关系把 XXX (人、公司、院校、)的电话号码、电子邮件/网址、都提出来(不要弄错关系)；把所有位于 ZZZ 地区的公司名都提出来；把 YYY 公司发布/推销/的产品都提出来； ,信息提取由简到繁,提取事件模板(多元语义关系/“结构”) 把所有开会、出访、产品发布、公司合并、股价变动、职务变化、的事件都提出来(把我给你的表格填上)；把所有报道恐怖活动的报道都找出来(IR)，并按照事件的地点/时间/参与者/分类、排序；找出/

21、推断两个事件的时间、因果、人员、等关联(e.g., “911事件”与美国经济停滞)；找出“红楼梦”中 JBY 参与的“不正常活动” ,需要建立一个“IE元素周期表”,一套语义分类体系(Ontology) - 实体分类/属性描述表：最基本的Ontology; Person, Org, Post, Time, Location, - 二元关系分类： Is_a(), Has_a()/Part_of(), Employee_of(), Product_of(), - 事件分类：实体名词的语义分类是一个关键二元关系在此分类集合上构造；精神活动类名词基本与IE无关。,信息提取作为信道模型,信息提取作为

22、信道模型,信息提取作为信道模型,这个信道模型可以看作是一个对观察（输出）序列进行标注(Tagging)的过程：标注集是信息提取任务规定的各个实体、关系和事件模板槽（加上一个“无关标记N/A“），而被标注的“输出串“则是适当界定好的短语串（例如通过浅层句法分析后得到的结果）。,3、中文信息提取系统设计,基本目标,尝试中文IE所需的各项基本/关键技术的实现把MUC定义的技术都在中文上面试制一遍；尽量发挥出我们自己的特色考虑通用的/可移植的IE系统该怎么去做；结合汉语的特殊性，利用一些基础的汉语研究成果；以实际应用(潜在)需求为导向还是希望能够导致有用的系统，并不纯是为了学术,系统流程,

23、大致性能,对于人民日报的语料而言：各种命名实体的平均准确率(precision)和召回率(recall)约在80；二元实体关系的平均准确率和召回率约在6070；事件模板的召回率约在50，准确率约在85%。,基础设施,词典、词切分和词性标注制作一个规模适当、分级合理并可灵活配置的词典是建造中文信息提取系统的第一步；适用于中文信息提取的短语句法及语义分析包括句法成分的识别与标引，关键词提取，检索特征集的提取、索引等。适用于信息提取的句群分析与篇章表示这些技术包括表达句间成分的传递，指代、引用信息表的建立和使用，“this指针“（当前语义焦点focus）的维护，以及概念关系的推理等。

24、,The Outline of A Chinese Word Knowledge-base,现代汉语语法信息词典,语言分析技术,信息提取系统的目的在于获取指定的信息，因而往往不需要进行完整的语言分析和理解。其分析过程通常可称作是“浅层的”或“部分的”语言分析（只分析所需要的部分），即找出代表指定信息的词汇、短语等块状语言结构，而不是去弄清楚每一语句的句法结构树。在语法分析阶段的一个主要问题是代表信息所包含的事件、消息或事实的有关名词性短语和动词性短语的识别问题。对文本的语义理解在于发现指定信息所涉及的各项内容，解决句间成分传递、指代与引用情况等问题。,几点特色,Gene

25、ric Programming设计思想切分NE识别标柱一体化的统计模型广谱模式与分级的 .Y文件,Generic Programming “泛型程序设计”,OOP之后的又一个Paradigm (更好?); 它们做同样的事，GP做得更好：Applicable to build-in types; No artificial base classes 核心思想：根据系统中各个基本处理过程对数据结构和类型的一组类型需求(a set of types satisfying a group of requirements)，抽象出相应的一个基本概念(concept)作为抽象/隔离界面；根据概念的数

26、据要求设计通用、高效、类型安全的算法。以类型需求条件（概念）作为“抽象隔离层”，将运算与其数据隔离开，从而实现通用的算法和数据结构两个集合之间可以任意组合(if it makes sense).,Generic Programming “泛型程序设计”,实例：C+ STL,Layered Container/Iterator Model（分层的Container/Iterator模型）,设计思想采用Generic Programming (GP)的设计思想，以概念(concept)作为抽象/隔离界面；根据概念的数据要求设计通用、高效、类型安全的算法。每一个语法/语义分析层次都有相应的结点

27、容器；用iterators抽象各个容器的操作界面，实现算法与容器的互操作；要求：各个容器都至少是sequence containers (Reversible, BackInsertible); 各个遍历器都至少是bidirectional_iterator; 各级算法都是Mutating algorithms (transform) class ie_unit idx = paragraph idx = sentence idx = phrase/word(idx=) token,汉语命名实体的识别,（1）人名（包括中国人名和外国人译名）（2）地名（包括中国地名和外国地名）（3）组

28、织机构名（包括政府机构、社会团体、企业等名称）（4）数字表达式和时间表达式（包括数值、数码、时点和时段）,汉语命名实体的识别,分两步走：第一步是词语一级的，与分词同步进行；第二部是短语一级的，可作为句子(浅层)分析的一部分。 - 词语级命名实体的主要任务是：（1）中国人名识别；（2）外国译名识别；（3）中国地名识别；可将此过程融入到基于词/词类共现的概率语言模型中(HMM seg&tag)，从候选词的标记路径上选择一条概率最大的路径。,信息提取中的模式匹配,IE系统中的NE, ER, Event都有一大批Patterns； Event Patterns通常都是一些“广谱”模式：不

29、限于终结符表达式；可以是句法、语义范畴。信息提取系统通常有数十数百个模式:性能瓶颈常规的匹配方法(KMP, B-M)：为每个模式n构造一个DFA，逐个地匹配原文m；最好为线性复杂度O(m+n);,分级/Cascaded 模式匹配,应对方法：模式分级 LR分析模式分级 (1) 浅层短语与二元关系分析 (e_relation.y) Regular expressions 都是LR文法，可以使用LR Parsing 来做！即“Shallow Phrases”; (2) 事件模式识别 (pattern_x.y) 在Shallow Phrase-Sequence上再做一次 LR Parsing

30、. 可以使用“优先的LALR(1)”分析器 (e.g., YACC/Bison parsers),模式分级的优点,本方法取得的几个显著结果： - 无论多少模式，都是线性复杂度O(m) （只要无冲突的YACC Parser能够构造出来） - 会议标题可以有效地进行识别 e.g., 今天交通部召开全国交通系统治理公路和水上”三乱“电话会议,特别技巧,the “Pre-Lookahead“ trick (as with some C+ compilers) to deal with the conflicts effectively！ pattern: IN_Pattern Conf KeyVerb

31、 %prec KeyVerb ,信息提取中的模式匹配,IE系统中的NE, ER, Event都有一大批Patterns；公司发布产品人 + “被” + 机构 + APPOINT + 职务 Event Patterns通常都是一些“广谱”模式：节点不限于终结符表达式；可以是句法、语义范畴。信息提取系统通常有数十数百个模式性能瓶颈：常规的匹配方法(KMP, B-M)：为每个模式n构造一个DFA，逐个地匹配原文m；最好为线性复杂度O(m+n);,4、Web页面的文本信息提取,“Web IE”,IE技术运用于Web页面：难点依然是难点 ;-) 局部的优势(“很明显”)： HTML半结构化

32、信息; XML “语义标签”、Semantic Web; Link Text; 超链“上下文”提示信息; “Page Count”评分/加权(民主投票); ,WebIE的一些初步应用,Web页面中各类命名实体的提取实体数据库(人公司地址、电话、Email信息）命名实体的行业特性类别判定行业公司数据库、产品目录、在指定行业中某类命名实体流行度的估计 (popularity estimation)等 “XXX排行榜”, “人气指数分析”，,网上相关信息自动收集,其特征在于：根据用户预先提供的实体特性在信息网络上为用户自动收集和加工/归类/排序用户的信息需求是通过指定一批有具体特性的实体来确定通过实体特性描述同收集到的网上信息的对比和评价，判断网页与实体的定量相关程度可以指定“实体”为“个人”、“公司”、“机构” （例子：名人信息收集）也可以指定“实体”为特定专题、网络协议、技术术语（例子：TCP/IP相关文章收集）,结语,文本信息提取是一个富有挑战性和探索性的课题 Google Search: Information Extraction 许多相关问题的认识及求解需要长期研究、不断积累应明确信息提取作为一门应用技术的目标和核心策略与相关数据库技术结合(Data/Text Mining, )，Web信息提取大有前景,谢谢 !,Q & A,

展开阅读全文