【问大家】电商问答数据的采集与深度分析-2

1. 引言
电商运营多年,功能越来越完善,我们发现当您购买过该商品之后,在消息-互动这里会看到别的网友提问的有关该商品的问题,这个功能叫问大家 。
问大家模块可以说填补了宝贝评价部分的短板,评价部分单向传播属性较强,而问大家功能搭起了已购买与未购买用户之间的桥梁,其不支持删除及随机邀请的机制最大程度保证了用户获取信息的真实性 。
通过这些问题和答案商家、品牌也能快速定位到用户感兴趣的相关问题,了解市场需求和痛点,从而进行产品优化,做出更加符合消费者需求的产品 。
因此我采集了10万条不同类目的问答对数据 。上篇我们对问题进行了分析,本文我将继续上次未做完的分析,用“护肤品”类目展示,对这个数据集的答案进行的详细分析,并分享一些有个人的观点和洞见 。有助于了解用户需求、产品优化以及更好地理解各个领域的用户心声 。
2. 数据采集和预处理
数据采集是数据分析挖掘的根基:
数据分析与挖掘过程中比较基础且重要的一个环节是数据采集,再好的特征选取,建模算法,没有了优质的元数据,也会“巧妇难为无米之炊” 。
2.1 采集目标
本人选取了某宝上的20款“护肤品”类目的top商品,采集了该商品问大家的公开数据 。这个数据集包含了用户提出的问题和已购买用户回答的答案 。
2.3 采集数据展示
2.4 数据预处理 停用词去除
为了清洗数据并提高后续分析的效率,我首先进行了停用词的去除 。停用词是指那些在文本中频繁出现但通常不包含有用信息的词汇,例如“的”,“是”,“在”等 。通过去除这些词汇,我们可以减小数据集的大小并集中注意力在有意义的词汇上 。
专业词汇处理
在数据预处理过程中,我还注意到一些专业词汇,如“敏感肌”、“干皮”、“油性皮肤”等可能会分词或多种术语表达,影响后续的分析 。为了解决这个问题,我进行了专业词汇的处理 。这包括了:
词汇替换:将一些特定的专业词汇替换为通用词汇或相近的词汇,以降低其对分析的干扰 。
词汇过滤:筛选出与研究目标相关的专业词汇,忽略与主题无关的词汇 。
词汇标记:标记专业词汇,以便后续分析时能够更容易地识别它们
3. 数据分析(回答版)
问题数据和答案数据分开分析,本次分析任务对回答进行分析,了解消费者在护肤品类目中关系的一些问题和吐槽点 。(问题版见上篇)
3.1 统计信息
本次分析20款商品,共包含9555个问题、48005个答案 。
问题字数的平均长度为12.58个字,答案的平均长度13.58字 。
问题的常见词汇如下:
这些统计信息将帮助我们更好地了解数据的特点和分布情况 。
3.2 语义网络分析
通过构建语义网络,我们可以探索问题之间的关联性,发现潜在的主题和洞察,并为数据提供更深入的理解 。
3.2.1 分析步骤
1、词汇关联:使用词汇之间的关联性来构建初始的语义网络 。通过计算词汇的共现频率或词汇之间的相似性来实现 。
2、可视化网络:使用将语义网络可视化,以便更好地理解问题之间的关联性 。
3、主题发现:使用社区检测算法或聚类分析来识别问题的主题群组 。
4、中心性分析:识别在语义网络中起关键作用的问题或词汇 。
3.2.2 部分代码展示
# 计算关键词之间的共现次数cont_list = [cont.split() for cont in cut_word_list]alone_df = []for i, w1 in enumerate(keywords):for j, w2 in enumerate(keywords):count = 0alone_count = 0for cont in cont_list:if w1 in cont and w2 in cont:count += 1elif w1 in cont or w2 in cont:alone_count += 1#coefficient词语共同出现的频次与各自单独出现频次和之比 。系数值越大,关系越强,系数值越小,关系越弱 。if alone_count==0:coefficient = countelse:coefficient = count/alone_countalone_df.append([w1, w2, alone_count, count, round(coefficient,2)])matrix[i+1][j+1] = count