ImageVerifierCode 换一换
格式:DOCX , 页数:38 ,大小:207.93KB ,
资源ID:261755      下载积分:5 金币
已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  
下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(基于lda的文本情感分析研究信息管理与信息系统专业.docx)为本站会员(飞猪)主动上传,三一文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一文库(发送邮件至doc331@126.com或直接QQ联系客服),我们立即给予删除!

基于lda的文本情感分析研究信息管理与信息系统专业.docx

1、摘要1前言3第一章雌41.I情感分析概述41.1主要研究内容41.1.2文本情感分析的分类51.1 .3主题模型在情感分析中的应用61.2 国内外研究现状61.3 本文内容安排7第二章数据预处理82. 1概述82.1 分词以及简繁体转换82.2 去除停用词82.3 抽取情感信息924.1情感词典的构建92.4.2抽取情感信息92. 4.3数据92.5本章小结10第三章LDA建模113. 1LDA概念113.1.1概率主题概念的提出113.1.2LDA模型123.2实验133.2.1划分数据集133.2.2数据词典133.2.3向量化143.2.4使用TFrDF作为特征值153. 2.5LDA模

2、型训练163.3本章小结17第四章SVM分类184. 1SVM概念184.1.1 线性分类184.1.2 软间隔最大化204.1.3 1.3非线性支持向量机204.2本文中的SVC224.2.1算法描述224.3实验234.3.1特征选取234.3.2数据转换244.3.3将数据随机分为训练集和测试集244. 3.4SVM训练和预测254.3本章总结25第五章贝叶斯分类265. 1概念265.2贝叶斯定理265.2.1朴素贝叶斯265.2.2伯努利模型275.3本文中的朴素贝叶斯275.3.1算法描述275.3实验285.3.1特征选取285.3.2向量化285.3.3朴素贝叶斯分类训练285

3、 3.4测试286. 3.5准确率295.4本章总结30第六章总结与展望317. 1本文主要内容总结316.2存在的问题以及未来展望31参考文献33致谢34互联网的快速发展让各类社交媒体与日俱增,人们在网络上发表各种各样的评论、博客等信息。这些信息很大一部分表达了用户的情感倾向,如微博评论可能表达对某个明星的喜爱,虎扑评论可能表达对某个球队的支持和狂热,去哪儿、蚂蚁蜂窝等网站上的酒店评论集表达了客户对该酒店的喜爱程度,也侧面表达出该酒店的好坏层度。评论集这种简练却信息丰富的数据集具有重要的研究价值。情感分析,也称意见抽取、意见挖掘和倾向性分析8。主要是通过对带有情感色彩的主观性文本进行分析、

4、处理、归纳然后进行推理的过程1。本文对酒店评论数据集进行了如下的工作:首先,整合网络上表现较好的情感词典,然后将数据集进行常见的预处理操作,包括去掉停用词等操作,根据情感词典抽取数据集中的极性词。其次,对预处理过后的文本进行LDA建模,其目的是以文档-主题分布取代文档-词矩阵,从而实现降维的效果。最后分别使用SVM和贝叶斯分类器,以LDA中得到的文档主题分布作为特征向量,来对文本进行分类。这些情感信息具有宝贵的作用,当评论非常多时,我们不可能人工地去观察每一条评论。通过情感分析,我们可以了解客户的心情,对某件事情或者物品的看法,从而挖掘其中潜在的商业价值。关键词:情感分析文本分类支持向量机数据

5、挖掘主题模型LDA朴素贝叶斯AbstractWiththerapiddevelopmentoftheInternet,variouskindsofsocialmediaareincreasingdaybyday,andpeoplepublishvariouskindsofcomments,blogsandotherinformationontheInternet.Alargepartofthisinformationexpressesausersemotionaltendencies,suchasamicro-blogcommentthatmayexpressaloveforastar,the

6、tigerreviewmayexpressthesupportfanaticismofateam,wherethehotelreviewsonsitessuchastheanthoneycombexpressthedegreeofcustomerloveforthehotel.Commentingonthisconcisebutinformativedatasethasimportantresearchvalue.Affectiveanalysis,alsocalledopinionextraction,opinionminingandtendentiousnessanalysis.Itism

7、ainlythroughtheanalysis,processing,inductionandreasoningprocessofsubjectivetextwithemotionalcolor.Thispaperhasdonethefollowingworkforhotelreviewsdataset:First,agoodemotionaldictionaryonthenetworkisintegrated,andthenthedatasetisusedforcommonpreprocessingoperations,includingtheremovalofthedisusewordsa

8、ndsoon,andthepolarwordsinthedatasetareextractedaccordingtotheemotionaldictionary.Secondly,LDAmodelingofpreprocessedtextisaimedatreplacingdocumentwordmatrixwithdocumenttopicdistribution,soastoachievetheeffectofdimensionalityreduction.Finally,SVMandBiasclassifierareusedrespectively,andthedocumenttopic

9、distributioninLDAisusedasthefeaturevectortoclassifythetext.Theseemotionalinformationisvaluableandveryimportantaswell.Whencommentsareverylong,itisimpossibleforustoobserveeverycommentmanually.Throughemotionalanalysis,Wecanunderstandthecustomers*mood,theviewsofacertainthingoritem,andtapthepotentialcomm

10、ercialvalue.Text Classification SVM Data MiningKeyWord:SentimentAnalysisTopicModelLDANaiveBayes互联网的发展让人们不再以以往的“读”的方式访问网络,随着各类开放式平台的兴起,用户开始在互联网上发表自己的评论和见解。即从原来单纯的“读网页”向“写网页”发展。由用户发表的网络文本,包含了大量的信息。通过淘宝上的评论,人们决定是否购买某类商品,通过微博上的评论信息,我们可以得知用户对于某件新闻事件的看法。而在这些文本所蕴含的信息中,情感信息可以表达用户对事件的主观感受,具有非常重要的潜在价值。文本情感分析指

11、的是对于包含用户观点、喜好、情感的文本进行检测、信息抽取、分析和挖掘的过程。利用这些信息,消费者可以理解其他消费者对商品的态度、商店可以了解消费者对自己产品的喜爱程度从而改善自己的服务,提高竞争力等。文本情感分析作为文本分类领域的一个新兴课题,对它的研究呈现出越来越多元化的趋势。通常来说,情感分析将文本分为褒贬二类,这方面的研究比较成熟,也有学者将文本信息划分地更为细致,将褒贬信息分为三类9,甚至四类10。网络上对于酒店的评论文本对于往上预定酒店的客户来说具有非常重大的决定作用,其中蕴含的情感信息也将会作为用户决定是否入住该酒店的重要依据。本文将结合主题模型LDA以及SVM等算法来对酒店评论数

12、据集进行情感分析。本文的主要内容有:(1) 文本预处理(2) 构建情感词典并抽取情感词(3) 1.DA建模(4) 使用SVM进行情感分类(5) 使用贝叶斯分类器分类第一章概述本章简单介绍情感分析的概念,分析国内外在情感分析领域的研究现状,给出本文组织结构。1.1 情感分析概述文本情感分析,又称意见挖掘(OpinionMining),是指对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程”;情感分析属于计算语言学,情感分析运用到人工智能,NLP,信息检索,机器学习等多个领域的知识8。如从淘宝上的商品评论分析某一件商品是好是坏,从豆瓣电影评论分析用户对某部电影的喜爱程度等。斯坦福大学通过T

13、witter分析网民在2008-2009年金融危机的心情,如下图:window=15,r=0.804g第O 7SSGaHup PollTwitter SentimentOTAen OEd4 OEW OTqaLOLuer WO6Q - 690N 60oo60&8S 60,6n4603 60-Unr69AeW I 60,4 - 60.En 60,qu.60,ue- 0lOQ 01oz ;80,oo80. da I 0 , Bo,_n :80,Unr 80 工 ew I 011)(1,1),(2;1),(3,1);(4,1),(5;1),(6,1),(7,1);(8,1)(2,2),(9,1),(W

14、1),(11,1),(12,1),(13,1),(14,1),(15,2),(16,1),(17,2),(18,1),(19,1)(2,1),(6,1),(15,1),(20,1),(21,2),(22,1),(23,1),(24,1),(25,1),(26,3),(27,1),(28,1),(29,1)(15,1),(24,1),(30,1),(31,3),(32,1),(33,1),(34,1),(35,1),(36,2),(37,1)(15,1),(24,1),(36,1),(31,3),(32,1),(33,1),(34,1),(35,1),(36,2),(37,1)(36,1),(

15、38,1),(39,1)(12,1),(15,1),(18,1),(30,1),(31,1),(33,2),(36,3),(40,1),(41,1),(42,1),(43,1),(44,2),(45,1),(46,2),(47,1),(48,1),(49,1),(5,1),(51,1),(52,1),(53,1),(54,1),(55,1),(56,1),(57,1),(58,1),(59,1),(60,1),(61,1),(62,1),(63,1),(64,1),(65,3)(66,1)(15,1),(36,1),(67,1),(68,1),(69,1),(70,1)(15,1),(21,1

16、),(36,2),(53,1),(71,1),(72,1),(73,1),(74,1),(75,1),(76,1),(77,1),(78,1),(79,1)(15,1),(63,1),(8,1),(81,1),(82,1),(83,1)(8,2),(36,1),(4,1),(46,1),(67,1),(68,1),(84,1),(85,1),(86,2),(87,1),(88,1),(89,1),(9,1),(91,1),(92,1),(93,1),(94,1),(95,1),(96,1),(97,1),(98,1),(99,1),(1W,1),(W1,1),(12,1),(103,1),(I

17、M1),(期,1),(106,1)每篇文档被表示成一个list,该list包含多个tuple,每个tuple为termID,frequency这样的形式。3.2.4 使用tfidf作为特征值使用词项频率(tf)作为特征值有时会不太准确,有时候一篇文档中某个单词出现的次数非常多,但其实它对整篇文档的分类帮助很小,比如常见的停用词,在一些特殊情况下的术语等。如酒店评论集中的“酒店”、“服务”等词,音乐数据集中的“音调”、“五线谱”等词。本文采用tfidf(词频-逆文档频率)作为词项权重代替tf(词项频率)。词项频率即一个单词在某一篇文档中呈现的频率,文档频率表示呈现过某个单词的文档的个数。一般来说

18、一个词语的文档频率越低,词项频率越高,就越能代表该文档,这样的词对文本分类来说就更重要。idf的计算公式为:Nidf=log(3.2)tf-idf计算公式为:tf-idf=tfidf(3.3)转化过后的COrPUS为(截取部分数据):(,3908543314061557),(1,.274063953432442),(2,.2253562792123S65),(3,0.5348985949062285),(4,.38397017607839146),(5,0.3856524851581557),(6,.1205165708944511),(7,0.294112346822147),(8,.25

19、4640138524313)(2,0.238959880409849),(9,.4577092965806774),(10,0.22586204424576717),(11,0.31331342195544304),(12,.2326352161911786),(13,.18412227582620427),(14,.257514154233473),(15,.14991750119143113),(16,.2340863166121538),(17,0.36322567904941155),(18,.10688638375757),(19,.45779296586774)(2,0.19691

20、7517598866),(6,.102l438893376),(15,.11963524560279355),(20,0.11716445638362212),(21,.2824964336254206),(22,.26418972874790964),(23,0.26494352442334),(24,.371289155627986),(25,.17115172873982104),(26,.29738470l5375135),(27,0.3784115547969146),(28,.1929991216212177),(29,.5193388751264862)j(15,0.087689

21、396414233),(24,0.2721449e39975),(3,.17282998399629168),(31,.5285554058422931),(32,.335859196433153),(33,.9315494805184805),(34,0.3983651465230785),(35,.4866158595395894),(36,.84742348777213),(37,0.2913l23275662)(15,0.087689396414233),(24,0.2721449000039975),(3,0.17282998399629168),(31,0.528555405842

22、2931),(32,0.3358591964033153),(33,09315494805184805),(34,0.3983651465230785),(35,.4866158595395894),(36,0.08474234870772013),(37,0.29130123275662)(36,0.611477278945673),(38,0.6317962008433954),(39,0.7727238170858047)(12,0.14161575453045738),(15,0.04563083870884575、,(18,0.0650631598320533),(30,.08993

23、535645445573),(31,0.916812729890204),(33,0.09694988409787761),(36,0.06614592990398115),(40,0.09670412458676783),(41,0.21294760154311546),(42,0.16212976839191803),(43,0.1515841151969968),(44,0.30789984857116726),(45,0.11577301847826896),(46,0.08717727455003123),(47,0.16063334355992664),(48,0.18188793

24、448673354),(49,0.028148081365956316)(50,0.18460453398371132),(51,0.19072828867804684),(52,0.2196310208174585),(53,0.1504561087217707),(54,0.10193010417403388)1(55,0.11093206326163503),(56,0.12036116360365051),(57,0.1706934622667118),(S8,0.27862869807499036)1(59,0.11208369675536389、,(60,.181887934486

25、73354),(61,0.09258643793946497),(62,0.10665646719845855、,(63,0.06e779S18S79825S),(64,0.125047192146172),(65,0.5182626476S178),(66,0.1591956174081126)(15,0.21595957083369122),(36,0.10435082237260453),(67,0.2840593467764331),(68,0.4810166873353236),(69,0.647662674132S32),(70,.46l2472S126S28)3.2.5 与使用词

26、项频率作为权重类似,使用tf-idf作为权重后的每篇文档的向量表示依旧由多个tuple构成,只不过每个tuple变成了ID,tf-idf的形式。3.2.6 1.DA模型训I练根据上文得到的向量以及词典构建LDA模型,选取其中前15个主题的词项分布如下:(e,0.07*4fH+.043,if干净+e.ei8服务e.i31ai+e.ei2O+0.i2(f*e.ei2.012+.011-rtif)(1,.25-IH+0.ei8到-+.017+0.015”不要+0.O14f0.014不到+0.013Ir没在+e.i2+.i2)(2,e.24tf+e.22*iW+.i7*fir+o.i7-fcj-+e.

27、ei5三+e.eu-ft+e.ou”热态-+e.enil+e.ee+e.eft,)(3,.l9Zf+0.018“认为“+0.017麻娘“0.ei7,H+.16,+0.ei6wl-+e.l5S+.014+.ei20.l2it)(4,0.026-+0.022*F公+0.019W+0.014*-jXt11+O.W齐全”+0.012,-实惠.+0.012标准+0.012”冷+.012i+0.011,“好(5,e.ei7-tftt+0.e+e.ei0if+e.e.要-+e.ee没有+e.ew大+e.ee*+e.eeH+.010-+0.eet)(6,0.023*“这样+0.021,h+0.015”不过+0.012”好-+喀朵+0.011*fll+0.011*+0.011*

宁ICP备18001539号-1