中文微博情感评测报告.ppt

上传人:少林足球 文档编号:3890320 上传时间:2019-10-05 格式:PPT 页数:24 大小:1.48MB
返回 下载 相关 举报
中文微博情感评测报告.ppt_第1页
第1页 / 共24页
中文微博情感评测报告.ppt_第2页
第2页 / 共24页
中文微博情感评测报告.ppt_第3页
第3页 / 共24页
中文微博情感评测报告.ppt_第4页
第4页 / 共24页
中文微博情感评测报告.ppt_第5页
第5页 / 共24页
点击查看更多>>
资源描述

《中文微博情感评测报告.ppt》由会员分享,可在线阅读,更多相关《中文微博情感评测报告.ppt(24页珍藏版)》请在三一文库上搜索。

1、中文微博情感评测报告,提纲,研究背景及意义 任务预备 任务分析与实施 总结,背景,在Web2.0大背景下,微博作为用户发言、相互交流的重要途径,具有数量大、更新快的特点,是从中发掘用户观点以及情感倾向的可靠来源。针对微博的自然语言处理研究已成为当前一个新的研究热点和前沿课题,而情感分析就是其中一个热点话题。,微博情感分析,情感分析,包括观点挖掘、观点分析、主客观分析等。情感分析的目的是从文本中挖掘用户表达的观点以及情感倾向。 主要技术:(1)情感词典与规则相结合的方法(2)机器学习,意义,过滤不合法网络舆论信息,营造良好的网络环境 监督舆论的走势,辅助社会管理 实现商品个性化推荐 对社会计算的

2、研究有重要的意义,提纲,研究背景及意义 任务预备 任务分析与实施 总结,任务清单,任务一:观点句判定 任务二:分析情感倾向 任务三:提取情感要素,技术准备,分类器:SVM 、 CRF 情感词典扩充:加入网络用语和表情符号 中文分词技术:海量云分词,提纲,研究背景及意义 任务预备 任务分析与实施 总结,任务处理流程,构建特征集,人工标注 训练语料,训练集及训 练模型生成,预测集生 成及预测,人工标注,利用本团队自主开发的标注工具标注 严格按照主办方提供的标注规则,从样列文件中选取1219条具有代表性的微博进行标注 标注内容包括:是否为观点句、情感倾向性、情感要素,训练语料,任务一:人工标注的12

3、19条微博 任务二:任务一训练语料中451条为观点句的微博,任务一特征集,任务二特征集,训练模型生成,网络用语、表情特征提取,提取特征,训练模型,格式转换,分词,SVM训练,人工标注语料,海量分词格式,分词结果,训练集,格式转换,预测集生成,网络用语、表情特征提取,提取特征,格式转换,分词,待预测微博,海量分词格式,分词结果,预测集,格式转换,预处理,预测集生成及预测细节,任务一分词前预处理 : 过滤类似 “我感到很高兴”这样的主观抒发情感句,并定为非观点句。 任务二预测集生成:根据任务一的预测结果,从中提取预测为观点句的微博 使用SVM对预测集进行预测,评测结果,任务三流程,分词,特征提取,

4、CRF训练及预测,结构化标注,情感要素提取,任务三特征集,训练集生成,使用与任务二相同的人工标注集作为训练语料 结构化标注:TP-B 表示情感要素开始词,TP-E 表示情感要素结束词 SO为情感词,BG为背景,情感要素确定,标注为SO,即情感词,作为微博情感倾向 标注为TP-B或TP-E,则可能是情感要素 没有标注TP-的角色,那么就认为该句没有情感要素,总结,本团队在本次比赛中,运用自然语言处理与机器学习的相关知识,结合自身的思路与创新,对任务一(观点句识别)和任务二(情感倾向分析)的评测取得了较为理想的结果,而在任务三的实施方面由于时间和精力方面的原因,尚存一定偏差。在以后的时间里,我们一定会继续深入研究和努力,进一步改进预测方式,扩充情感词典,完善训练模型,提高在中文微博评测领域的水平。,感谢各位专家、学者聆听本次报告!,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1