朴素贝叶斯模型做电商评论分析
导入数据,筛选出我们需要的字段
import pandas as pd
evaluation = pd.read_excel('./data/jd_comment_data.xlsx', engine='openpyxl')
evaluation.head(2)
# 将"此用户未填写评价内容"的用户删除
evaluation = evaluation.drop(evaluation[evaluation['评价内容(content)']=="此用户未填写评价内容"].index)
# 运用正则表达式,将评论当中的数字和英文字母消失
evaluation['评价内容(content)'] = evaluation['评价内容(content)'].str.replace('[0-9a-zA-Z]','')
# 筛选出我们需要的重要的信息
importance_features = ['评价时间(publish_time)','评价内容(content)','评价者(author_name)','评分(总分5分)(score)']
evaluation = evaluation[importance_features]
消除警报,使用jieba分词
import warnings
warnings.filterwarnings('ignore')
import jieba
# 加载自定义词库
jieba.load_userdict('./data/all_words.txt')
# 读入停止词
with open('./data/mystopwords.txt', encoding='UTF-8') as words:
stop_words = [i.strip() for i in words.readlines()]
# 构造切词的自定义函数,并在切词过程中删除停止词
def cut_word(sentence):
words = [i for i in jieba.lcut(sentence) if i not in stop_words]
# 切完的词用空格隔开
result = ' '.join(words)
return(result)
# 对评论内容进行批量分词
words = evaluation['评价内容(content)'].apply(cut_word)
# 显示下前5行切词的效果
words[:5]
将文本编码,数字化
from sklearn.feature_extraction.text import CountVectorizer
# 计算每个词在个评论内容中的次数,并将稀疏度为99%以上的词删除
counts = CountVectorizer(min_df=0.01)
# 文档词条矩阵
dtm_counts = counts.fit_transform(words).toarray()
# 矩阵列的名称
columns = counts.get_feature_names()
# 将矩阵转换为数据框--即X变量
X = pd.DataFrame(dtm_counts, columns=columns)
# 情感标签变量
y = evaluation['评分(总分5分)(score)']
构建模型
from sklearn import model_selection
from sklearn import naive_bayes
from sklearn import metrics
import matplotlib.pyplot as plt
import seaborn as sns
# 将数据拆分为训练集和测试集
X_train, X_test, y_train, y_test = model_selection.train_test_split(X, y, test_size=0.25, random_state=1)
# 构建伯努利贝叶斯分类器
bnb = naive_bayes.BernoulliNB()
# 模型在训练数据集合上的拟合
bnb.fit(X_train, y_train)
# 模型在测试数据上的测试
bnb_pred = bnb.predict(X_test)
# 构建混淆矩阵图
cm = pd.crosstab(bnb_pred, y_test)
# 绘制混淆矩阵图
sns.heatmap(cm, annot=True, cmap='GnBu', fmt='d')
# 去除x轴和y轴标签
plt.xlabel('Real')
plt.ylabel('Predict')
# 显示图形
plt.show()
# 模型的预测准确率
print('模型的准确率为:\n',metrics.accuracy_score(y_test, bnb_pred))
print('模型的评估报告:\n',metrics.classification_report(y_test, bnb_pred))
模型的准确率为:
0.92931748604358
模型的评估报告:
precision recall f1-score support
1 0.21 0.10 0.14 253
2 0.00 0.00 0.00 55
3 0.00 0.00 0.00 135
4 0.09 0.02 0.04 223
5 0.94 0.99 0.96 10440
accuracy 0.93 11106
macro avg 0.25 0.22 0.23 11106
weighted avg 0.89 0.93 0.91 11106
检验模型
# 计算正例五星好评对应的概率,用于生成ROC曲线的数据
y_score = bnb.predict_proba(X_test)[:,0]
fpr, tpr, thresholds = metrics.roc_curve(np.array(list(y_test)), y_score, pos_label=2)
# 计算AUC值
roc_auc = metrics.auc(fpr, tpr)
# 绘制面积图
plt.stackplot(fpr, tpr, color='steelblue', alpha = 0.5, edgecolor = 'black')
# 添加边际线
plt.plot(fpr, tpr, color='black', lw = 1)
# 添加对角线
plt.plot([0,1],[0,1], color = 'red', linestyle = '--')
# 添加文本信息
plt.text(0.5,0.3,'ROC curve (area = %0.2f)' % roc_auc)
# 添加x轴与y轴标签
plt.xlabel('1-Specificity')
plt.ylabel('Sensitivity')
# 显示图形
plt.show()