1500字范文,内容丰富有趣,写作好帮手!
1500字范文 > 实体词典 情感词典_情感词典

实体词典 情感词典_情感词典

时间:2023-07-16 02:54:12

相关推荐

实体词典 情感词典_情感词典

今天开始我们来讨论下微博情感分析的具体方法。我会以不同的方法作为章节来概述微博情感分析的过程。

情感分析及评价对象抽取,目前主要有两种基本方法。一种是基于句型、句法、语义的词典及规则方法,一种是基于标注语料的机器学习方法。我认为,情感分析,分析的是语言的意义,要想在对语言进行深层理解的基础上完成情感分析,可能自学习的方法更有优势。但目前尚无无监督的分类方法,所以相比人工标注语料的机器学习方法,规则的方法可能更有优势。建立规则需要一定的统计方法,但统计只在建立词典确立词条属性、建立规则库确定规则优先级时发挥作用。针对话题型微博,情感词典主要采用词典词性计算的方法得到句子的情感值。但根据我前文所说,其实可以将情感词在词性上再做分层,虽然我们很难得到一个情感词的具体情感值,但我们可以扩大范围以获取情感词所在的词性区间。通过计算区间均值可以近似计算句子的情感值。词性计算的时候,可以加大情感因子颗粒度,之后结合构建基于短语的情感词典,通过短语规则确定句子极性。

(1)构建基于短语的情感词典

识别观点句,学界的通常做法是以情感词作为依据,带有情感词的是观点句,否则就是非观点句。也有一些学者注意到了短语在情感分析中的作用。话题型微博中的观点句由于情感表达强烈而理性评价淡化,各种脏话、粗话、口语词语大量使用,加之很多非直接性的表达,使得影响句子的情感因子的颗粒度加大,仅仅依靠传统的情感词典,依靠句子中是否有情感词来进行观点句的判断,会造成很多错判,因此在基本情感词典的基础上,可以用人工方式增加了情感短语,构建基于短语的情感词典。

情感短语词典突破了以词为主要收录对象的局限,将明确表达观点的情感短语甚至短句都收录其中,如“不得好死、不咋的、扯犊子、就好了、瞎折腾个屁、不是找抽吗、什么玩意儿、没一个好东西、好不到哪儿去、以为自己是谁啊、可以说脏话吗、这是人的行为吗、良心让狗吃了”等等。当然,一些明确表达观点的口语词、网络用语和脏话也必须收录到情感词典中,如“得瑟、傻逼、狗逼、操蛋、犯贱、傻B、欠揍、找死”等,这样包含这些情感短语和情感词的观点句就能够被准确地识别出来,从而可以在不降低准确率的前提下,提高系统对观点句的召回率。

(2)通过短语规则确定观点句及其极性

话题型微博语言简单,短句多,长句少;单句多,复句少。针对这种特点,在建立短语情感词词典的同时,可以建立短语规则库,试图解决情感短语词

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。