一文教你挖掘用户评论典型意见( 二 )


更好的情感分析估计需要利用大量手机领域的语料重新训练才行,本文就暂不讨论这个啦 。
语义理解是一个非常难的课题,本文不追求绝对精准,仅希望能对产品的评论有一个快速的理解 。本文将从三个方面来阐述同类型评论语料的语义:
分析词云、关键词和主题容易发现
1、好评集中在:屏幕、惊讶、手感、全面屏、边框,大致就是讲小米手机不错;手感很好;全面屏很惊艳之类的;
2、中评集中在:屏幕、还好、失望、边框等
3、差评集中在:客服、失灵、售后、失望、模式、微信等,大致就是手机失灵;微信电话时的屏幕?因为版本等出现了一些售后客服问题?
只能说还凑合,模模糊糊、断断续续能理解一些 。因为它只给出了词语,并没有配套的情感 。
电商评论不同于一般的网络文本,它主要的特点在于语料都是在针对产品的某些特征作出评价 。这一节我们希望能通过算法找到这些特征 。
细想下,语料主要在对特征做出评价,而特征一般是名词,评价一般是形容词 。相对来讲产品的形容词不会很多,如“不错”、“流畅”、“很好”之类的,所以可以通过关联分析来发现初始的特征-形容词对,如("手机"-"不错")、("手机"-"流畅")等 。
通过关联分析找打的特征-形容词对需要筛选,主要表现在两点 。
1、里面不只名词-形容词对,两个名词,形容词-动词等都有可能;
2、没有考虑两个词语在文本之间的距离 。比如名词是第一句话中的,形容词则是最后一句话中的;
筛选好后其实还不够,关联分析只会挖掘支持度大于一定数值的特征,我们称这种特征为 "常见特征" 。那不常见特征怎么办?怎么才能挖出来?注意到上面已经挖掘出很多形容词啦,这些就是产品的最常用评价词语啦,我们可以通过它们反向挖掘出 "不常见特征" 。
可以看到与手机有关的大部分特征都找出来啦,另外有一些是关于京东的,如"速度"、"京东"、"快递" 。还一些不是特征的,比如:"有点","想象"
在语料中搜索与"外观"有关的语句,先看看大家在讲"外观"时,都在聊些啥?
看来小米MIX2的外观还是很不错的,有很多人都是冲着外观买的 。接下来我们来量化各个特征的好评占比和差评占比 。
本来这里是想利用情感分析包来完成的,因为它能给出评价是否是正面的具体概率大小 。考虑到情感分析目前的准确率,这里我们还是用原始的评分来量化 。以刚刚的关键词 "外观|质感" 为例,我们有
利用这种方法,扩大到上述所有的特征可以得到:
可以看到提及最多的特征依次为:感觉、屏幕、速度、手感、系统、边框、摄像头、全面屏、拍照、体验、256g、外观、质量、性价比
其中比较好的依次为:性价比、质量、手感、速度、外观、感觉
其中稍差些的依次为:256g、屏幕、边框、拍照、摄像头、系统、体验、全面屏
最后的最后我们来看下这些特征对应的语料 。
总结一下差评主要表现在:
No1. 256g版本发货问题
No2. 窄边框问题
No3. 拍照问题,MIX2的拍照效果有待提升
No4. 前置摄像头在下面不方便
No5. 系统,MIUI广告多
这里安利一个自己造的轮子:,结合 格式可以自动化生成PPTX报告 。目前关注量已经有20+啦 。
在中,每一页幻灯片被简化成四部分:标题、副标题、主体(数据图、表格、文本框或图片)、脚注 。只要给定每一页的这些数据,就能帮您自动生成pptx,一般四行代码就完成啦 。如:
当然本文的pptx要复杂一些,相应的代码和生成的报告如下: