基于文本挖掘和情感分析的物流客户满意度测算研究
文|重庆邮电大学电子商务与现代物流重点实验室 胡迪
摘 要: 为合理评价电商平台物流客户满意度情况,提出一种基于评论大数据的物流客户满意度测算方法。首先,以生鲜电商为研究对象爬取大量在线评论,进行分词等操作并基于TF-IDF算法得出生鲜电商物流满意度的关键因素及其权重,随后构建物流属性词向量模型,结合词语权重和其与物流关键因素之间的相似性,区分每句话中的物流属性,确定用户重点关注的物流属性。然后,构建情感分析模型对物流相关评论进行情感分析,计算用户对物流各属性的满意度情况,得到评论中不同物流属性的客户满意度情况。
关键词:生鲜电商、物流客户满意度、文本挖掘、情感分析
一、引言
物流是畅通国民经济循环的重要环节,近年来随着电子商务的快速发展,线上购物逐渐成为消费主流,随着物流业的井喷式发展,随之而来的也有一系列的消费问题,网经社电子商务研究中心发布的《2020年度电商物流消费投诉数据与典型案例报告》显示,在用户投诉问题类型中,物流问题占比高达42.42%。已有大量研究表明物流是影响生鲜电商发展的重要因素[1-5],因此,为了让物流快递企业更多地了解客户需求,本文基于生鲜电商的在线评论数据,从不同维度对生鲜电商的物流满意度进行测评研究,根据分析结果,对生鲜电商的物流快递企业提供相应的意见及建议,以提高消费者对整个物流环节的满意度。
通过文献梳理后发现,我国生鲜电商的发展过程中还存在短板和不足,尤其是在物流环节中存在的问题较多,并且对于生鲜电商产品来说,物流因素是影响购买者购买意愿的重要因素。主流的物流客户满意度研究中,大多是采用问卷调查法等实证研究方法。目前主流的研究物流客户满意度大部分集中在路径规划、末端物流节点选址上,而在线评论作为消费者在购买使用过产品后所发表的评论,能够真实反映出产品及服务的相关情况,因此本文基于生鲜电商平台的评论数据,提出一种结合文本挖掘和情感分析的物流客户满意度深度挖掘分析方法。
二、相关工作
1. 确定物流属性
本文从词频特征衡量词语与物流属性之间的相关性,挖掘词语的隐式语义信息,关键词既包含文本的主题相关性,又能反映词语的重要性[6]。TF-IDF是用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度的一种统计方法。TFIDF算法的优势是其能同时考虑到低频词和高频词对分类过程的影响,因此其特征向量提取的效果相对较好[7]。
TF(Term Frequency)表示样本关键词在文档中出现的频率,计算公式如(1)所示:
(1)
其中,为关键词出现次数,为文档中所有词的数量。
IDF(Inverse Document Frequency)逆文档频率,反映关键词的普遍程度,当有大量文档包含这个词时,其IDF值越低;反之,则IDF值越高。计算公式如(2)所示:
(2)
其中,为所有的文档总数,表示文档是否包含关键词,若包含则为1,若不包含则为0。若词在所有文档中均未出现,则公式中的分母为0,因此平滑即加一处理。
关键词在文档中的重要程度可用公式(3)表示:
(3)
TF-IDF值可以有效度量词语的重要性程度,越大证明其越重要。
2. 确定物流属性相关评论
如果一条评论为有用评论,其必定包含用户关注的物流属性,即一个评论具有一个或一个以上的物流属性词,则认为该评论为有用评论,判断规则公式如(4)所示:
(4)
为第个评论是否为有效评论的判断值,取值为0或者1。当第条评论中含有的属性词个数时,他的有用性,则这条评论被选取,否则这条评论被过滤掉。
Word2Vec 通过浅层的神经网络对模型进行优化,考虑了词语之间的语义联系,将单词转换成多维向量形式,把对文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度,余弦相似度是通过计算两个向量的夹角余弦值来评估他们的相似度,余弦值越大则越相似,其计算公式如(5)所示:
(5)
其中,分别代表提取的关键词向量和物流属性的各分量,如“物流”这个词语经过向量转化后为[-0.201,-0.094,0.506,0.356,......],“包装”这个词语经过向量转化后为[ 0.062,-0.108,0.178,0.332,......],通过计算两个向量之间的余弦相似度,余弦值越接近1,就表明两个向量越相似,即两个词语越相似。
3. 情感分类模型
情感分析的主要目的是挖掘评论中蕴含的感情色彩,即分析文本的情感倾向于正面还是负面。Zhang等人[8]提出了一种基于规则的方法:首先根据情感词典得到句子的情感倾向,再根据句子的情感倾向得到整个文档的情感倾向。Pang等[9]按照不同的方法提取特征,他们将用户标记的情感极性或者评分作为标签,并且使用机器学习算法构建带有文本特征的情感分类器。本文将情感分析看作是一个分类问题,情感分析旨在预测评论文本的情感标签,使用Bayes分类器来预测给定评论的倾向性。
贝叶斯模型在文本分类领域应用广泛,其主要利用文本类别的先验概率和特征向量对类别的条件概率计算未知文本属于某一类别的概率。对于有两个类别的和的分类问题来说,其特征为,特征之间是相互独立的,则属于类别的贝叶斯计算公式如(6)-(8)所示:
三、基于在线评论的物流客户满意度测算
主观评价以传统调查问卷或访谈形式进行,消耗时间精力较多,数据不具有实时性,调查对象数量有限,且获得的结论受问题设置影响较大,准确性大打折扣。因此本文利用 Python Request 编写在线爬虫程序,爬取京东商城生鲜产品中新鲜水果、海鲜水产、精选肉类、冷冻饮食、蔬菜蛋品5类商品的在线评论,爬取内容包括店铺名称、用户ID、评论内容、满意度星级等,为保证评论数据的准确性,对爬取的评论数据进行预处理,删除为空、重复的评论和评论内容只有标点符号或者表情的评论,最终得到838,143条评论。
1. 确定物流属性及其属性词
对初始数据进行清洗和挖掘后,对所有评论进行评论有用性分析,利用中文分词工具 Jieba 分词,采用精确模式(lcut)对所获得的评论进行分词处理,去除停用词、标点符号和介词、代词等没有实际意义的词,进行词频统计,并运用TF-IDF算法提取出评论中TD-IDF值前100的主题词,从中筛选出所有和物流相关的属性,根据主题词提取结果和特征词频统计结果,本文将生鲜产品的物流特征属性分为11类,即包装、运输、发货、配送员、配送、完整性、配送方式、冷链、速度、服务、质量,运用上述所提到的Word2Vec方法构建评论词向量,计算出生鲜产品物流属性所包含的属性词词典,建立的词典如表1所示。
2. 确定物流属性的相关评论
本文先通过公式4结合TF-ID确定的关键词,初步筛选出和物流相关的评论,然后通过Word2Vec模型生成词向量并结合余弦相似度,计算其和物流属性的相似度,从而确定每句话中是否含有物流属性,取两个向量之间相似性大于0.5的向量作为物流相关的评论,最终共获得了21,9571条有用评论,模型参数设置如下:size=100,window=5,sg=1,min_count=1。由物流属性及其属性词确定的每个有效评论中都包含属性词且与物流属性向量的相似度均大于0.5,从而确定评论中和物流属性相关的评论。
3. 物流属性情感倾向计算
本文分析的内容源于用户评论,采用专门针对中文文本挖掘的SnowNLP 情感分析库进行情感分析,Sentiment模型是基于贝叶斯分类器进行训练,针对在线评论中的物流评论进行人工构建研究相关领域的情感语料库,经专家审核后补充或替换通用语料库,调用sentiment.train函数训练新的情感分类器,以提升准确度。对评论数据人工标注1000条正向评论和1000条负向评论,对语料库进行训练,并保存训练模型。
结合本文提出的物流属性提取方法和SnowNLP模型,计算评论中的物流情感倾向,例如“包装完好,送货速度快,这个蓝莓已经回购过几次。日期新鲜。味道还不错,酸酸甜甜的,家里的小朋友们都很喜欢,下次还会再买的。”这句话,经过计算可得其和物流相关的属性有:包装、送货、速度、质量、完整性。情感倾向值是指该句情感指向为正的概率,经过SnowNLP.sentence模块的切分,其中包含这些物流属性的情感正向概率分别为0.6828、0.8964、0.9643、0.5474、0.6828,则这句话中的物流总体倾向取这5项的均值为:0.7548。
用户的在线评论由评论内容和评论星级两部分组成,则用户评论的满意度最终评分也由评论内容的评论星级得分和情感值得分两部分而来,因此将用户评论中的“5星好评”视为正向概率为1,“四星好评”视为正向概率为0.8,以此类推,用户评论的星级正向概率为,。则用户评论的最终得分由下列公式(9)可得:
(9)
其中为满意度综合评分;为物流属性情感满意度倾向值;为星级满意度倾向值,数值越大,情感越积极,用户的满意度越高,取即为正向评论,标记为1,为负向评论,标记为0。则所有物流评论数据的情感倾向计算结果如表2所示。
表2 物流情感倾向概率计算结果
4. 结果分析
为验证方法的有效性,设置一组没有区分物流属性直接进行情感分析计算的对比实验,其他所有步骤均相同,实验中采用分类模型中的常用指标值作为评判标准,其计算公式如(10)-(13)所示。
其中TP:真正例,实际为正预测为正;FP:假正例,实际为负但预测为正;FN:假反例,实际为正但预测为负;TN:真反例,实际为负预测为负。区分物流属性和不区分物流属性的模型评价结果如表3所示。
通过对不同分类模型指标的计算结果对比发现,在对不同物流属性分别进行测算的情况下,分类的查准率、查全率、正确率和F值均有了不同程度的提升,说明此方法的有效性。ROC作为一种综合评价指标,经常用于不平衡数据的分类模型性能评估准则,ROC曲线越凸向左上方,则下方面积越大,表示分类模型的泛化能力越强。ROC曲线下面包围的面积,也就是对ROC曲线进行积分,得到的结果称为AUC(Area Under Curve)。用metrics.roc_curve函数,绘制二者的ROC曲线图如图1所示。可以发现测算了物流属性的情况下其AUC为0.94,而未测算物流属性的其AUC为0.888,低于测算物流属性的AUC,故证明了本文提出方法的有效性。
四、生鲜电商物流环节客户满意度分析
1. 物流客户总体满意度分析
将在上述研究的基础上继续进行深度挖掘,探索生鲜电商物流客户满意度情况,对所有物流评论的物流属性及其情感倾向值分别取均值并绘制雷达图如图2所示,进一步探究生鲜电商评论中对物流各属性的满意度情况。
从物流属性情感倾向图中可以发现,用户对生鲜电商的总体满意度得分差异性较大,用户对生鲜电商物流客户满意度排名依次为:速度>完整性>运输>质量>服务>包装>冷链>配送员>配送方式>发货>配送,取情感倾向概率均值大于0.5的为正向评论,可以看到用户对速度和完整性的满意度较高,对运输、质量、服务的满意度相对较高,对包装则不是很满意,对冷链、发货、整个配送环节不满意,说明物流企业和公司在保持自身优势的同时,也需要进一步提高对配送环节、发货环节、冷链环节、包装环节的改进。
2. 改进策略与建议
加强快递员队伍建设,提升末端配送满意度。加强对快递员队伍的建设和管理,完善人才培养和培训机制,同时也要提高快递员的福利待遇水平,增强快递员的安全感和幸福感,不断增加快递员的职业成就感,提高物流配送效率和服务质量。
优化产品发货流程。加强自动分拣系统的建设,对货物进行自动化分类拣取,同时确保物件的及时跟踪,为后续作业的完成提供信息支持对商品进行清点、检验,按调拨单上的货号及数量进行盘查,保证货物的数目核对正确,提高发货效率和准确性。
加大对冷链技术的科技研发和技术创新。改进冷冻水产品贮藏、运输、流通及消费的过程中,通过采用新型冻结方式以改善解冻后水产品的品质,或者采用涂膜、浸泡、喷淋等形式,通过添加物减缓温度波动对水产品品质带来的变化,保证产品的质量和新鲜口感。
加大对快递包装的研发投入,提高产品包装质量。在满足用户需求的同时也做好包装的绿色循环使用,秉承绿色快递包装设计理念,避免造成资源浪费和环境污染。要注重快递包装减量化、品牌化设计,侧重快递包装易拆卸性、人性化设计,创新快递包装设计,以提高物流客户对包装的满意度。
五、结论
随着日益激烈的市场竞争环境和不断变化的用户需求,对物流快递业发展提出了更高的要求。为了促进物流快递业的健康发展,本文基于生鲜电商评论大数据,结合文本挖掘和情感分析,提出一种提取评论中物流相关评论的方法,并分别对每种物流属性的情感值进行测算,对比不同物流属性分别进行测算的情况,通过模型验证发现,提取物流属性并分别对物流属性进行客户满意度测算,得到的结果更加准确,论证了本文提出方法的有效性,最后在分析物流环节不足的基础上,对物流客户相对不满的环节提出对策建议。
END