知网HowNet介绍.ppt

上传人:本田雅阁 文档编号:2721765 上传时间:2019-05-08 格式:PPT 页数:44 大小:168.51KB
返回 下载 相关 举报
知网HowNet介绍.ppt_第1页
第1页 / 共44页
知网HowNet介绍.ppt_第2页
第2页 / 共44页
知网HowNet介绍.ppt_第3页
第3页 / 共44页
知网HowNet介绍.ppt_第4页
第4页 / 共44页
知网HowNet介绍.ppt_第5页
第5页 / 共44页
点击查看更多>>
资源描述

《知网HowNet介绍.ppt》由会员分享,可在线阅读,更多相关《知网HowNet介绍.ppt(44页珍藏版)》请在三一文库上搜索。

1、知网 HowNet 介绍, 2003-11-18,导论,需求 - 研究的题目 知识 - 资源的建设,需求 - 研究的题目 (1),可应用于某一个搜索引擎的“询问扩展”功能; 商品化的垃圾邮件的清除器;功能要求:在用户自己清除两个月之后,它开始工作,自动识别垃圾并清除,并可以在与用户的交互中,变得愈加聪明; 商品化的命名实体抽取器,它为用户提供选择命名实体类型的功能,即用户可指定要抽取哪类的命名实体,如机构名字,日期,地名等; 用户可以自己定义所需内容的信息过滤器,例如要求从报纸的电子版本中抽取到某个国家或某个地区的新武器研究与制造的信息;,需求 - 研究的题目 (2),可以将信息过滤器抽取到的

2、外语的信息,以“信息表”的形式提供相对应的中文,例如:事件、时间发生的时间、地点、关系者、结果等等。 可以从电子版的文学作品中提取用户可以自己定义的信息,如红楼梦中有关食物的信息如菜肴及其烹饪;或者某个或某些作品中关于疾病的信息,或有关女子容貌描述的内容等等; 可以自动分辨出中文的错别字,并随机加以替换而不会影响到以后的加工的工具; 可以自动向用户报告在某一个特定领域中又有新的术语在流通,例如通讯领域中的“CDMA”或“码分多址”,足球领域中的“乌龙球”、“后腰”等等; 可以对任何一个词语进行歧义排除的工具,并使之成为可以嫁接到其他实用系统上面的;,知识 -资源的建设,知识是一个系统,是一个包

3、含着各种概念与概念之间 的关系,以及概念的属性与属性之间的关系的系统 世界上一切事物(物质的和精神的)都在特定的时间 和空间内不停地运动和变化。 它们通常是从一种状态变化到另一种状态, 并通常由 其属性值的改变来体现 知识的基本单位: 万物(包括物质的和精神的)、部件、 属性、时间、空间、属性值、事件,知网的规模 2003-10,Chinese words 74046 English words 71919 Chinese entries 88433 English entries 90939 DEF count 22140 Record count 147979,知网的架构,Basic Da

4、ta (Concept Definitions / Taxonomies),S-relation Trigger (Browser),D-relation Trigger (Application Tools),知网浏览器详解,义原,什么是义原 义原采用的例子 汉语的字和词语的启发 知网的义原的确定 知网的义原的类别,义原分类 2234,Entity 154 thing (physical, mental, fact) component (part, fitting) time space (direction, location) Event (relation, state、action

5、) 819 Attribute 248 Value 892 Secondary feature 121,分类体系详解,Entity Event Attribute Attribute value,Entity - 上位,属性继承,- entity|实体 thing|万物 entity|实体:ExistAppear|存现:existent= physical|物质 thing|万物:HostOf=Appearance|外观,perception|感知:content= animate|生物 physical|物质:HostOf=Age|年龄,alive|活着:experiencer=,die|死

6、:experiencer=,metabolize|代谢:experiencer=,reproduce|生殖:PatientProduct=,agent= AnimalHuman|动物 animate|生物:HostOf=Sex|性别,AlterLocation|变空间位置:agent=,StateMental|精神状态:experiencer= human|人 AnimalHuman|动物:HostOf=Ability|能力Name|姓名Wisdom|智慧,speak|说:agent=,think|思考:agent= humanized|拟人 human|人:modifier=fake|伪,f

7、orge|伪造:PatientProduct=,Event (1) 关系/状态与行动的对应,- event|事件 static|静态 event|事件 relation|关系 static|静态 possession|领属关系 relation|关系 own|有 possession|领属关系:possession=*,possessor=* obtain|得到 own|有:possession=*,possessor=*,source=* receive|收受 own|有:possession=*,possessor=*,source=* BelongTo|属于 possession|领属关

8、系:possession=*,possessor=* OwnNot|无 possession|领属关系:possession=*,possessor=* lose|失去 OwnNot|无:possession=*,possessor=* InDebt|亏损 lose|失去:domain=finance|金融,possession=*,possessor=* owe|欠 possession|领属关系:possession=*,possessor=*,target=*,Event (2), act|行动 event|事件:agent=* ActGeneral|泛动 act|行动:agent=*

9、start|开始 ActGeneral|泛动:agent=*,content=* do|做 ActGeneral|泛动:agent=*,content=*,manner=* DoNot|不做 ActGeneral|泛动:agent=*,content=* refuse|拒做 DoNot|不做:agent=*,content=* evade|回避 refuse|拒做:agent=*,content=* slack|偷懒 DoNot|不做:agent=*,content=* cease|停做 ActGeneral|泛动:agent=*,content=* GiveUp|戒除 cease|停做:ag

10、ent=*,content=* pause|暂停 cease|停做:agent=*,content=* rest|休息 cease|停做:agent=* sleep|睡 rest|休息:agent=* wait|等待 ActGeneral|泛动:TimeFin=*,TimeIni=*,agent=*,content=*,duration=* ActSpecific|实动 act|行动:agent=*,Event (3) 角色框架的语义突出, ActSpecific|实动 act|行动:agent=* AlterGeneral|泛变 ActSpecific|实动:agent=*,patient=

11、*,result=* AlterSpecific|实变 ActSpecific|实动:agent=* AlterRelation|变关系 AlterSpecific|实变:agent=* AlterPossession|变领属 AlterRelation|变关 系:agent=*,possession=* take|取 AlterPossession|变领属:agent=*,possession=*,source=* steal|偷 take|取:agent=*,manner=covert|隐秘,possession=*,source=* buy|买 take|取:agent=*,benefi

12、ciary=*,cost=*,domain=commerce|商业,possession=*,source=*,事件关系和角色转换 (1),buy|买 obtain|得到 consequence; agent OF buy|买=possessor OF obtain|得到; possession OF buy|买=possession OF obtain|得到. buy|买 (X) sell|卖 (Y) mutual implication; agent OF buy|买=target OF sell|卖; source OF buy|买=agent OF sell|卖; possession

13、 OF buy|买=possession OF sell|卖; cost OF buy|买=cost OF sell|卖.,事件关系和角色转换 (2),buy|买 entailment choose|选择entailment; agent OF buy|买=agent OF choose|选择; possession OF buy|买=content OF choose|选择; source OF buy|买=location OF choose|选择. buy|买 entailment pay|付 entailment; agent OF buy|买=agent OF pay|付; cost

14、 OF buy|买=possession OF pay|付; source OF buy|买=target OF pay|付.,事件关系和角色转换 (3),lose|失去 obtain|得到 mutual precondition; possessor OF lose|失去=source OF obtain|得到; possession OF lose|失去=possession OF obtain|得到.,事件典型演员, GetMarried|结婚 associate|交往:agent=human|人:modifier=male|男,partner=human|人:modifier=fema

15、le|女;associate|交往:agent=human|人:modifier=female|女,partner=human|人:modifier=male|男 walk|走 SelfMoveInManner|方式性自移:agent=AnimalHuman|动物-,direction=*,LocationIni=location|位置,LocationThru=location|位置,LocationFin=location|位置,instrument=leg|腿foot|脚,知网描述的关系,(a)上下位 (b)同义 (c)反义 (d)对义 (e)部件-整体 (f)属性-宿主 (g)材料-成

16、品 (h)工具-事件 (i)场所-事件 (j)时间-事件 (k)值-属性 (l)实体-值 (m)事件-角色 (n)相关关系 (o)施事/经验者/关系主体-事件 (p)受事/内容/领属物等-事件,事件关系与角色转换,SufferFrom|罹患(X)causecure|医治(Y); experiencer OF SufferFrom|罹患=patient OF cure|医治; content OF SufferFrom|罹患=content OF cure|医治.,周日下午我们常去打保龄球。 System A:We often bowl on Sunday afternoon. System B

17、:Sunday in the afternoon, we play bowling frequently. 周日下午我们常去附近的娱乐中心打球。 System A:We often go to the nearby recreation center to play ball on Sunday afternoon. System B:Sunday in the afternoon, we go to nearby amusement central dozen ball frequently.,KDML 知网知识系统描述语言 Knowledge Database Mark-up Langua

18、ge,总规定,(1) 任一概念的描述都以DEF= 为开始。任一概念中出现的所有义原或符号必须是在知网的Taxonomy 中定义的义原或符号或者由知网知识系统描述语言所规定的特定标识符。 (2) 概念描述中的第一个义原必须指出该概念的最基本的意义,并用事件、实体、属性和属性值这四类义原中的一个标注出来。 (3) 对于简单概念直接标注该概念的意义。 (4) 利用动态角色与特征来标注复杂概念。 (5) 属性类概念必须标明它的宿主。 (6) 整体部分类型的概念必须标明该部分的整体。 (7) 概念描述中定义的特性至少是一个,但也可以是多个,数量没有限制,只要内容是合理的且形式是合乎规范的就可以了。,KD

19、ML 中的特定标识符,符号 名称 功能简述 左括号 表示对一个概念描述的开始。 右括号 表示对一个概念描述的结束。 : 冒号 冒号后面的内容是对冒号前面义元的具体描述。 , 逗号 表示一个关系描述的结束。 = 等号 表示一个动态角色或特征所具有的具体的值。 ; 分号 分号表示某一概念是由若干个概念组合而成的组合型复杂概念。每个分号分割的部分必须是一个独立的完整的概念描述。 “ 引号 引号中的内容都是一些具有特殊意义的义元。,例子,W_C=打 G_C=V E_C=给他电话,怎么也不通,对不起错了,给他了好几通电话,过去了吗, 通了但没人接,我给你了一个晚上 W_E=call G_E=V E_E=

20、I tried to call you all night DEF=communicate|交流:instrument= tool|用具:communicate|交流:instrument= 说明:这个概念则更为复杂一些,其中嵌套了另外一个完整的复杂概念,即 tool|用具:communicate|交流:instrument= ,这个概念表示的是通讯类的工具如电话,手机等概念。,几种特殊的指示符号,指示符号 指示符号 ? 指示符号 $,指示符号 ,利用 进行描述的模式是: 义元1:义元2:动态角色或特征= 这种描述方式表示的是,义元1 与义元2 有关,义元1 为义元2 的一个具体动态角色的值。

21、 其中的 用来代替前面的义元1。通常情况下,义元1 为实体类义元,义元2 为事件类义元。,指示符号 ,W_C=禁地 G_C=N E_C= W_E=forbidden area G_E=N E_E= DEF=place|地方:GoInto|进入:LocationFin=, prohibit|禁止:ResultEvent= 说明:我们把它写成下面这种样子: DEF=义元1:义元2:LocationFin=,义元3:ResultEvent=,指示符号 ?,利用 ? 进行描述的模式是: DEF=义元1:动态角色=? 这种描述方式表示在某一语义环境中,? 所充当的动态角色的演员是一定会出现的,但是 在这

22、个孤立的概念中它并没有被体现出来。其中义元1 一定是事件类义元。,指示符号 ?,W_C=属于 G_C=V E_C= W_E=belong to G_E=V E_E= DEF=BelongTo|属于:possessor=? 说明:自然语言对于“属于”这个概念的描述是:为某一方面所有。从它的自然语言描述中可以发现,其中的“某一方面”在“属于”这个事件所出现的语义环境中是一定会出现的,即“属于”这个概念的possessor 是一定会出现的。但是在“属于”这个孤立的概念中,它的possessor 没有被体现出来,也就是说我们无法单纯的从“属于”这个概念中知道它的所有者是谁。于是,我们用 ? 来代替实际

23、语义环境中一定会出现的possessor的内容,即动态角色possessor 的演员。,指示符号 $,利用义元 $ 进行描述的模式是: DEF=义元1:动态角色=$ $ 用来充当某一个动态角色的演员。其中动态角色=$表示这个概念所描述的对象是什么。 义元1 一定是事件类义元。,指示符号 $,W_C=难以置信 G_C=ADJ E_C= W_E=beyond belief G_E=ADJ 11 E_E= DEF=difficult|难:scope=believe|相信:content=$ 说明:其中 $ 的意义是:$ 是content这个动态角色的演员,代表被相信(believe|相信)的内容。在

24、“难以置信”所出现的语义环境中,事件的内容(content)是难以置信的。,事件类概念的描述方法,简单概念的描述方法 复杂概念的描述方法,简单概念的描述方法,直接标注该概念的意义。通常情况下的简单概念是指一个明确的事件,实体,属性或属性值,在概念中不包含任何的其它成分。 例如: 遗失 lose lose|失去 假装 pretend pretend|假装 料理 manage handle|处理 资助 subsidize grant|赐 滑翔 glide fly|飞 教导 teach teach|教,复杂概念的描述方法,利用动态角色与特征来标注复杂概念。所谓的复杂概念是以事件为中心,除了事件中心本

25、身以外还有一个或一个以上的动态角色,例如: 严禁 包含动态角色方式 (manner) 贷款 包含动态角色所有物 (possession) 盗墓 包含动态角色来源 (source) 复原 包含动态角色原状态 (StateIni) 呼救 包含动态角色目的 (purpose),属性类概念的描述方法,属性类的概念必须通过动态角色host 标注该属性的宿主,它的标注方式是:host=宿主义元。当一个属性类的概念的宿主不止一个时,将宿主并列标注即:host=宿主义元1宿主义元2。 例: W_C=浓淡 G_C=N E_C= W_E=deep or light G_E=N E_E= DEF=Hue|浓淡:ho

26、st=Color|颜色 说明:这里通过host 指出宿主是 Color|颜色。,属性值类概念的描述方法,总的来说,属性值类概念的描述比较简单,只要标注该属性值的具体值就可以了。有些属性类的概念还需要对该具体值进行进一步的描述。 例: W_C=美味 G_C=ADJ E_C= W_E=tasty G_E=ADJ E_E= DEF=GoodTaste|好吃,各种动态角色的使用,知网中共设计了89 种动态角色,它们被收录在知网的Taxonomy 的Event Role & Feature 文件中。 EventRole AccordingTo CoEvent ContentCompare Content

27、Product DurationAfterEvent DurationBeforeEvent EventProcess HostOf,各种动态角色的使用, LocationFin LocationIni LocationThru MaterialOf OfPart PartOfTouch PatientAttribute PatientPart PatientProduct PatientValue QuantityCompare RelateTo ResultContent ResultEvent ,HowNet 的主要应用,Ontology 研究 标注 词典 分类聚类 词义排歧 文本过滤 相似度计算 信息挖掘 语义查找,参加本次讲座的单位,北京大学 2 清华大学 7 北京语言大学 2 北京理工大学 1 中国科学院计算所 1 中国科学院自动化所 1 中国科学院文献情报中心 1 中国社科院 1 中国农业科学院 2,参加本次讲座的单位,微软亚洲研究院 1 赛迪翻译公司 1 清华同方光盘股份有限公司 2 华建集团 1 首都信息发展股份有限公司北京网络多媒体实验室 1 东芝(中国)有限公司 研究开发中心 2,The End!,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1