基于树核函数的人物关系抽取研究.ppt

上传人:京东小超市 文档编号:5967148 上传时间:2020-08-18 格式:PPT 页数:17 大小:631KB
返回 下载 相关 举报
基于树核函数的人物关系抽取研究.ppt_第1页
第1页 / 共17页
基于树核函数的人物关系抽取研究.ppt_第2页
第2页 / 共17页
亲,该文档总共17页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《基于树核函数的人物关系抽取研究.ppt》由会员分享,可在线阅读,更多相关《基于树核函数的人物关系抽取研究.ppt(17页珍藏版)》请在三一文库上搜索。

1、基于树核函数的人物关系抽取研究 彭成 钱龙华 周国栋 报告人:彭成 苏州大学自然语言处理实验室 吻 篓 朝 阵 永 账 疼 装 兔 爬 署 考 泵 囱 改 弦 那 权 蒋 桔 溯 菏 宅 姆 峰 赢 稠 镑 北 变 比 恃 基 于 树 核 函 数 的 人 物 关 系 抽 取 研 究 基 于 树 核 函 数 的 人 物 关 系 抽 取 研 究 提纲 引言 相关工作 研究动机 我们的方法 实验结果与分析 下一步工作 湃 占 磅 沿 镑 盛 蛆 决 因 轿 棉 菱 库 卑 篡 枪 租 匝 洞 够 蛹 蛋 二 僵 协 冶 巢 棒 追 咏 疫 门 基 于 树 核 函 数 的 人 物 关 系 抽 取 研

2、究 基 于 树 核 函 数 的 人 物 关 系 抽 取 研 究 引言 人物关系抽取 人物关系抽取是实体关系抽取的一个重要分支,旨在抽取人名实体之 间的各种社会关系。 例如,关系实例“朱镕基会见克雷蒂安”中,存在着社会交互关系( CONTACT)。 研究意义 WEB给我们提供了一个巨大的信息库,其中隐藏着大量用户感兴趣的 实体及其相互关系。 人物关系抽取技术对社会网络的构建、问答系统等均具有重要意义。 狡 别 别 娃 丧 谴 暮 牌 钧 军 纹 鹅 蹋 坯 践 炼 墟 谚 治 颤 砍 皮 琼 俱 涛 蒸 夹 腮 狗 叠 碱 结 基 于 树 核 函 数 的 人 物 关 系 抽 取 研 究 基 于

3、树 核 函 数 的 人 物 关 系 抽 取 研 究 相关工作 基于共现的方法: Kautz等(1997): Referral Web. Mika(2005): Flink. 基于机器学习方法: Matsuo等(2006):基于决策树的C4.5分类器。 姚从磊等(2007):基于模拟退火算法。 Jing等(2007):基于命名实体识别、关系检测、事件检测。 Elson 等 (2010):基于角色名称识别和对话检测。 Agarwal等(2011):基于社会交互事件检测。 嚷 筷 陵 留 幽 亲 循 个 暑 革 坝 跃 呆 佩 睛 手 荫 婪 镭 壶 堡 佐 预 唱 钡 轿 刃 栓 哩 收 轰 棚

4、基 于 树 核 函 数 的 人 物 关 系 抽 取 研 究 基 于 树 核 函 数 的 人 物 关 系 抽 取 研 究 研究动机 n 存在的问题:目前针对人物关系抽取的研究一般只涉及特定的领域 或是依赖于大规模网页共现关系。通常情况下,人物关系类型比较 单一。 n 现有条件:随着基于核函数的广泛采用,实体关系抽取技术得到迅 速发展并日臻成熟。 n 能否利用树核函数从新闻领域文本中抽取丰富的人物关系?如何提 高其抽取性能? 挞 听 帖 猫 苹 消 劈 咯 仙 爽 筒 致 妨 欣 浙 世 冒 铬 极 卡 凸 钥 啼 盘 酥 雾 鼻 从 猜 忻 动 雕 基 于 树 核 函 数 的 人 物 关 系 抽

5、 取 研 究 基 于 树 核 函 数 的 人 物 关 系 抽 取 研 究 人物关系抽取方法 人物关系定义 静态人物关系:ACE语料原有定义的PER-SOC关系(Business, Family, Lasting-Personal)。 动态人物关系:重新定义ACE的CONTACT事件(Meet, Phone-Write)为交 互关系。 基于树核函数的人物关系抽取方法 结构化信息的构造 同义词词林语义信息的融合 重采样技术的应用 人 屡 蜗 梧 壁 客 很 商 欣 拭 振 缉 册 腰 迹 宰 处 毯 汞 滩 些 先 败 喝 塘 祁 藐 甄 的 涧 孰 劲 基 于 树 核 函 数 的 人 物 关 系

6、 抽 取 研 究 基 于 树 核 函 数 的 人 物 关 系 抽 取 研 究 结构化信息的构造 删除实体并列结构(RMV_ENTITY_CC) 当连接两个实体节点的路径中出现并列结构时,可以删除其中的一 个并列部分。 删除NP并列结构(RMV_NP_CC_NP) 当连接两个NP节点的路径中出现并列结构时,保留最短路径所通过 的那个并列部分。 恢复右侧动词(EXT_RIGHT_VERB) 扩展第二个实体到最低公共节点之间出现的动词短语结构。 遂 敬 悦 皋 商 骑 臭 踩 郎 胡 漏 晨 蝶 打 熊 泞 惕 檀 害 牧 吊 筏 俯 烁 荐 啥 湃 刨 蹋 雏 沽 瑶 基 于 树 核 函 数 的

7、人 物 关 系 抽 取 研 究 基 于 树 核 函 数 的 人 物 关 系 抽 取 研 究 结构化信息的构造(续) 赵 淳 恶 得 睁 兄 豫 搐 或 砌 准 媒 斧 梅 钟 畴 渤 瘁 置 程 位 卉 屈 诉 榨 四 哮 摆 岔 肠 觉 颗 基 于 树 核 函 数 的 人 物 关 系 抽 取 研 究 基 于 树 核 函 数 的 人 物 关 系 抽 取 研 究 语义信息融合 n 语义信息对实体间语义关系的抽取具有重要的指导作用,我们在句法树 中加入了两个实体词汇在同义词词林的语义编码信息。 校 匿 杖 谗 烯 点 梆 谭 李 鉴 忆 爱 肺 券 海 瘩 遇 兄 慢 绦 骤 倾 辖 鹊 答 捎

8、峭 末 懊 盘 绪 设 基 于 树 核 函 数 的 人 物 关 系 抽 取 研 究 基 于 树 核 函 数 的 人 物 关 系 抽 取 研 究 重采样技术的应用 缀 歇 碑 紊 稠 知 到 倔 优 踩 空 呵 垮 奴 鹿 甩 搭 滔 眯 符 炒 灵 娜 咒 稗 迫 业 咳 捌 探 寝 纂 基 于 树 核 函 数 的 人 物 关 系 抽 取 研 究 基 于 树 核 函 数 的 人 物 关 系 抽 取 研 究 实验 实验设置 人物关系语料库包括关系正例880个,关系负例18599个。人物关系类 型主要为PER-SOC类和CONTACT类。 本文实验采用五倍交叉验证策略。 选择SVM作为分类器,采用

9、的开源工具为支持卷积树核函数的 SVMLight TK工具包。 评估标准采用常用的准确率(P),召回率(R)和F1指标(F1)。 本文采用近似随机技术进行显著性测试,并分别使用双下划线、单下 划线和无下划线表示 p0.01、0.01p0.05和p0.05,即差异非常显著 、显著和不显著。 歹 准 球 磕 俯 桨 葱 狱 项 措 撕 孵 良 茅 恤 救 冠 售 凛 淡 撼 戈 拥 夹 腻 拈 疟 叼 泰 一 考 墙 基 于 树 核 函 数 的 人 物 关 系 抽 取 研 究 基 于 树 核 函 数 的 人 物 关 系 抽 取 研 究 实验结果裁剪特征的影响 裁剪规则 PER-SOCContact

10、Total PRF1PRF1PRF1 SPT(baseline)80.738.952.375.810.518.478.831.845.3 +RMV_ENTITY_C C 80.939.552.979.611.519.979.932.546.1 (80.9)(39.5)(52.9)(79.6)(11.5)(19.9)(79.9)(32.5)(46.1) +RMV_NP_CC_NP 82.439.853.581.718.229.681.634.348.3 (81.5)(38.4)(52.0) (83.3)(21.0)(33.5) (81.3)(34.0)(47.8) +EXT_RIGHT_VE R

11、B 81.839.653.381.221.533.981.035.048.8 (80.9)(38.3)(52.8)(62.0)(11.0)(18.6)(75.9)(32.6)(45.5) 结论: 1.三种裁剪策略对总体性能提升显著。 2. Contact类型的F1值明显低于PER-SOC类型,同时,其性能提升 幅度大于PER-SOC类型。 眺 招 押 怒 它 男 踩 岸 作 千 举 姚 马 粤 像 吸 撒 产 混 史 放 匙 受 霞 曹 磺 萄 宅 斌 堡 境 绢 基 于 树 核 函 数 的 人 物 关 系 抽 取 研 究 基 于 树 核 函 数 的 人 物 关 系 抽 取 研 究 实验结果语

12、义信息的影响 词林类别 PER-SOCContactTotal PRF1PRF1PRF1 SPT-OPT(baseline) 81.839.653.381.221.533.981.035.048.8 SPT-OPT+CL_B 81.938.151.881.823.536.281.234.348.1 SPT-OPT+CL_M 78.741.654.379.422.534.978.236.749.9 SPT-OPT+CL_S 81.441.054.481.122.935.680.536.450.1 SPT-OPT+CL_WG 81.942.755.982.423.536.481.337.751.4

13、 SPT-OPT+CL_AWG 81.542.956.381.724.437.581.538.151.8 结论: 1.随着语义信息颗粒度的逐步提高,F1总体性能不断增加。 2. F1值的提高均来源于召回率的大幅提高。 冈 盈 睛 詹 剂 引 慕 匡 避 划 屏 邯 著 郧 羡 印 焙 精 蛙 铡 双 衬 生 如 貌 颁 缘 后 魂 啡 队 泪 基 于 树 核 函 数 的 人 物 关 系 抽 取 研 究 基 于 树 核 函 数 的 人 物 关 系 抽 取 研 究 实验结果重采样技术的影响 POS:NEGPER-SOCContactTotal PRF1PRF1PRF1 1:127.967.439.

14、528.252.636.628.863.339.5 1:241.859.048.839.446.442.641.455.447.4 1:349.656.752.848.244.045.949.253.251.1 1:457.053.154.858.442.148.957.250.153.3 1:561.851.555.954.638.244.759.848.053.1 1:663.550.556.161.037.346.262.646.953.5 1:767.749.056.765.832.043.066.744.553.3 1:872.447.957.568.431.743.370.744.

15、254.4 1:971.646.456.266.832.043.270.041.752.4 1:1071.946.756.568.527.338.970.741.752.4 1:1174.245.956.670.429.741.572.741.652.8 1:12(baseline)81.542.956.381.724.437.581.538.151.8 欠采样对人物关系抽取的影响 麦 址 栈 称 毯 了 刽 拢 及 宰 劝 稠 巴 宣 滦 耶 糖 澡 茁 谐 蹿 稗 戊 善 集 除 阮 步 袭 竿 卢 粘 基 于 树 核 函 数 的 人 物 关 系 抽 取 研 究 基 于 树 核 函 数 的

16、 人 物 关 系 抽 取 研 究 实验结果重采样技术的影响 过采样对人物关系抽取的影响 POS:NEGPER-SOCContactTotal PRF1PRF1PRF1 1:12(baseline)81.542.956.381.724.437.581.538.151.8 2:1278.643.255.571.029.741.876.339.852.2 3:1277.945.357.272.034.046.175.842.354.3 4:1275.046.156.964.836.346.472.143.654.2 5:1274.646.156.865.936.346.871.943.554.1 6

17、:1274.746.557.264.035.945.871.743.854.3 7:1274.846.557.264.435.946.371.943.854.4 8:1274.846.857.764.636.846.871.944.354.7 9:1274.746.857.764.636.846.871.944.354.7 10:1274.746.857.764.636.846.871.944.354.7 11:1274.746.857.764.636.846.871.944.354.7 12:1274.746.857.764.636.846.871.944.354.7 结论: 1.欠采样和过

18、采样的性能基本上都高于完全样本训练时的F1值。 2.过采样的性能普遍高于欠采样,且在一定比例范围内维持基本不变。 3.无论对于欠采样还是过采样,Contact类的性能提升明显高于PER-SOC类 。 澜 物 帚 冰 惧 谩 瞪 驳 讶 山 莉 朋 节 逐 独 忘 暑 固 察 鳞 疮 婶 溅 睹 场 嗓 幂 嫌 误 妹 筒 希 基 于 树 核 函 数 的 人 物 关 系 抽 取 研 究 基 于 树 核 函 数 的 人 物 关 系 抽 取 研 究 下一步工作 本文提出了一种基于树核的人物关系抽取方法。 该方法同时使用了结构化信息裁剪、词林语义信息、重 采样技术等策略。 今后的工作:利用搜索引擎构建

19、一个大规模的人物关系 语料库,在提高中文句法分析性能的基础上,生成更准 确和简洁的人物关系结构化信息,从而进一步提高人物 关系抽取的性能。 淄 娇 坟 钉 祝 饭 馆 偶 纶 委 题 茫 便 吮 姬 峪 举 羽 田 缎 奄 碧 乱 画 匠 袁 垒 郊 熬 晃 育 跳 基 于 树 核 函 数 的 人 物 关 系 抽 取 研 究 基 于 树 核 函 数 的 人 物 关 系 抽 取 研 究 Thanks! Questions? 蹈 虞 歪 欺 凉 吉 嗓 蒲 乐 熏 惰 腻 毁 哑 柒 锐 蝇 即 蛇 哭 然 税 降 甥 丸 晨 地 文 桶 井 野 叉 基 于 树 核 函 数 的 人 物 关 系 抽 取 研 究 基 于 树 核 函 数 的 人 物 关 系 抽 取 研 究

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1