文本语义分析的实现及应用.doc

上传人:scccc 文档编号:13130961 上传时间:2021-12-16 格式:DOC 页数:1 大小:37KB
返回 下载 相关 举报
文本语义分析的实现及应用.doc_第1页
第1页 / 共1页
亲,该文档总共1页,全部预览完了,如果喜欢就下载吧!
资源描述

《文本语义分析的实现及应用.doc》由会员分享,可在线阅读,更多相关《文本语义分析的实现及应用.doc(1页珍藏版)》请在三一文库上搜索。

1、Cloud Computing cttW105105文本语义分析的实现及应用文/郑波,胡其,林君 淘宝网每天产生千万级的用户输入文本(简称UGC),它们是无结构的,因此与结构化数据相比,更难通过 语义分析技术进行信息挖掘。然而,UGC的无结构化,又使得其能够挖掘的信息是无限的。本文将讲述如 何利用文本语义分析技术来挖掘有价值的信息,并介绍该技术在淘宝网的应用情况。105105文本语义分析的匸要过程及实现对用户评论进行文本语义分析的目的是分析出用 户对商品或交易的哪些方面满意、哪些不满意, 从人的思维角度来分析评论.以一条实际评论为 例:“东西质量很好,就是价格不便宜,但卖家服 务还不错”,人脑

2、如何理解分析这条评论呢? 模拟人脑的分析过程,首先雯对评论分词;其次 潘要一个语义i司典,该词典包含所有的属性词、 情感词及其情感倾向、程度词、否定词等类型词; 然后需要一个语法规则库,该语法库包含情感词 对風性词的修饰规则、程度词和否定词对情感词 的修饰规则等语法规则;最后,根据语法规则抽 取出属性情感搭配,根据语义信息确宦最终的情 感倾向,得到最终的分析结果.下面从分词、语义 词库构建和语法规则库构建三方面详细阐述.分词词是最小的、能够独立活动的、有意义的语言成 分,是最基本的语言单位.英文以词为书写单位, 而中文以字为基本的书写单位,词语之间没有明 确的分隔标记.由于中文的差异性,使得分

3、词成 为中文信息处理必、不可缺的一个基本处理阶段, 完成分词之后才能进入上层的语义处理阶段。中 文分词是中文信息处理的基础和关键,也是评论 语义分析系统首要解决的问题.现有的分词算法很多,但主要可以分为三类:基 于字符串匹配的分词方法、甚于理解的分词方法 和基于统计的分词方法.三类算法各有其优缺 点,基于字符串匹配的算法实现简单、分词速度 快I基于理解的算法理论比较先进,但实现比较 复杂,目前还没有成熟产品I基于统计的算法可 以摆脱建词典这项繁重的工作,但时空开销大, 此外训练语料也需異人工建立.在评价语义分析系统中,我门采用的是双向最大 匹配分词结合互信息消歧,词典使用的是淘宝内 部词典,词

4、汇为百万级.采用双向最大匹配分 词的理由主嬰有以下几个.实现简单不考虑还处在试验阶段的基于理解的分词系统, 基于字符串匹配的分词方法在实现上要比基于统 计的分词方法简单得多,其算法过程清晰,易理 解、易实现.基于字符串匹記的分词方法依赖于 机器词典进行,淘宝内部已建立好了词库,所以 该分词方法可以很轻松地实现.准确率能满足要求统计结果表明,正向最大匹配方法分词分出的结 果的错误率为1/169,而逆向最大匹配方法分词分 出的结果的错误率为1/245,双向最大匹配加互信 息消歧的错误率更低,这一数据基本满足需求. 由于评论语义分析只关注属性词、情感词、程度 词、否定词等少数类型的词,对于占比最大的基 础类型词并不关注.所以,词库可适当向关注的105

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 社会民生


经营许可证编号:宁ICP备18001539号-1