基于文本挖掘和情感分析方法的“智慧旅游”服务质量感知研究

2023-06-25郭佳怡方博平陆欣怡王妮宋涛

现代信息科技 2023年6期

郭佳怡方博平陆欣怡王妮宋涛

摘要：智慧旅游是推动智慧城市发展的重要手段。随着网络评论在旅游生态中的地位显著提升，如何通过网评文本反映游客的消费体验、服务质量反馈与情感诉求，吸引游客消费、取得竞争优势，成为景区管理人员与主管部门的一项重要工作。基于文本挖掘和情感分析方法，选取景区和酒店网评文本，识别旅游景点现状的问题和痛点，设计科学、客观的综合评价体系，为景区与酒店等相关经营者、文旅部门做出更优决策提供理论支撑和数据支持。

关键词：智慧旅游；情感分析；TF-IDF算法；DBSCAN聚类；LDA主题模型

中图分类号：TP391；O235 文献标识码：A 文章编号：2096-4706（2023）06-0001-06

Research on Service Quality Perception of “Smart Tourism” Based on Text Mining and Sentiment Analysis Methods

GUO Jiayi1， FANG Boping1， LU Xinyi1， WANG Ni1， SONG Tao1，2

（1.School of Science， Huzhou University， Huzhou 313000， China;

2.Huzhou Key Laboratory of Data Modeling and Analysis， Huzhou 313000， China）

Abstract： Smart tourism is an important means to promote the development of the smart city. With the significant promotion of online comments in the tourism ecology， how to reflect tourists' consumption experience， service quality feedback and emotional demands through online comments text， so as to attract tourists' consumption and gain competitive advantages， has become an important task for scenic spot managers and competent departments. Based on text mining and sentiment analysis methods， the online comments text of scenic spots and hotels are selected to identify the problems and pain points of the current situation of tourist attractions， and a scientific and objective comprehensive evaluation system is designed to provide theoretical and data support for the scenic spots， hotels and other related operators and cultural tourism departments to make better decisions.

Keywords： smart tourism; sentiment analysis; TF-IDF algorithm; DBSCAN clustering; LDA theme model

0 引言

在智慧城市的快速規划和发展进程中，智慧旅游的建设源源不断地为智慧城市建设提供动力。各类旅游网站和手机APP所辖的网评平台为收集海量旅游用户评论数据提供了方便。但如何对旅游景区满意度进行用户情感分析，快速有效筛选和分析有效的评论，成为亟待解决的问题[1-3]。针对此问题，刘晓彤等提出了基于机器学习方法的在线评论情感分析技术以实现游客评论的情感数据挖掘[1]；谢宗彦等[2]基于word2vec工具，程海琪[3]基于情感分类方法对酒店评论进行情感分类和主题挖掘；石文华等基于情感倾向和对在线评论进行有用性影响因素研究[4]；田韶存针对用户评论提出了一种与评论主题相关的权重方式[5]；罗新引入集成学习方法中的随机森林算法进行了评论文本的分类模型研究[6]；阮光册采用LDA主题挖掘技术进行了文本主题挖掘研究[7]。然而，这些研究所提出的分类和排序模型依然存在准确度较低的问题，难以应用到大规模的旅游服务平台中。

为了进一步提高游客评论信息在旅游服务平台上的分析准确度，本文基于数据挖掘技术提出了针对游客评论数据的情感分类和有效筛选技术。利用收集自互联网公开来源的景区酒店评价文本，采用TF-IDF算法对文本数据进行关键词提取，结合语义网络分析，获取印象热词；选取K-means聚类算法获取游客满意度影响因素，建立基于情感分析的游客满意度评价模型；利用随机森林（Random Forest）依据多项指标筛选有效评论，构建文本有效性评价体系；最后将情感分类和LDA主题挖掘进行融合，建立LDA主题挖掘模型，挖掘景区酒店的亮点特色。

1 数据预处理

1.1 数据清洗

数据来源为互联网公开渠道。数据清洗的过程主要包括文本去重、压缩去词、短句删除等。利用Python程序判断并删除语料库中存在的完全重复文本。使用同义词词库和繁转简词库去除繁体字和近义词。

1.2 中文分词

基于Python语言，预处理选择中文分词模块jieba对评论进行分词，采用精确模式用于去除文本标注的无效信息为后续进一步处理做准备。对于不带情感的虚词与实词的组合也可以表达情感倾向这一问题，本文借鉴N-gram语言模型特点，以知网HowNet情感词典为基础，抽取评论预料中常见组合单元构建自定义分词词典。获取每一个词的TF-IDF值，采用Gensim模块的Corpora函数以及Model函数进行处理，使用TF-IDF算法训练数据，提取TF-IDF值靠前的100个词汇作为自定义词典，基于自定义词典对网评文本进行分词，得到更精确的结果。

1.3 去停用词

建立停用词字典，结合中文停用词表、哈工大停用词表、百度停用词表，在分词以后去除停用词和标点符号。对文本数据分词后去停用词的部分结果如表1所示。

2 热词提取

2.1 基于TF-IDF算法的关键词提取

TF-IDF（词频-逆文档频次算法）是一种基于统计的计算方法，常用来评估在一个文档中一个词对某文档的重要程度。基于TF-IDF算法，分别选取景区和酒店10个关键词。结果如表2所示。

2.2 语义网络分析

研究景区及酒店评论的文本数据时，利用语义网络分析可以挖掘出词项之间的语义关联，在一定程度上可以将由分词所导致的凌乱的文本结构关系重新整合，从而还原出单独词项无法表达出的部分原始文本信息。语义网络图常被用于提取游客选择目的地的关注点。由于中文分词会打乱原来的语句结构、语义关系，通过语义网络能够很好地重建语义之间的联系，从中得出潜藏的信息。使用Networkx生成所需语义网络图，实现分析网络的结构、构建网络的模型、设计新的网络算法、绘制网络等功能。

3 游客满意度评价模型构建

3.1 热词挖掘

3.1.1 定义热度指标

热词，即热门词汇，反映了特定人群在某段时间普遍关注的问题和事物。综合考虑，选取以下指标进行热度评价，对每个景区和酒店分别计算热度指标：

（1）该目的地的评论数量n，评论数量是热度的重要表现。

（2）该目的地最早评论日期与最晚評论日期的间隔天数m，热点问题往往在较短时间内集中产生。

（3）该目的地评论的正向情感次数a与负向情感次数b，评论中越多情感次数反映更多的关注度。

综上，则目的地热度公式为：

（1）

（2）

3.1.2 热度计算

基于以上提出的热度评价指标体系，计算各景区、酒店热度值。再利用公式计算每个词的热度值，最后得到每个景区及酒店中热门词热度如表3、表4所示。

3.2 游客满意度因素分析

获取景区及酒店游客满意度影响因素过程在满意度理论和相关研究的基础上进行。提取TF-IDF值靠前词汇作为游客满意度二级影响因素，采用Word2Vec模型对二级影响因素词汇进行向量化处理，最后采用K-means聚类获取词向量的聚类结果。综合聚类与内容分析结果，定义服务、位置、设施、卫生、性价比五个指标为满意度一级影响因素。景区和酒店综合评价体系如表5、表6所示。

3.3 基于情感分析的游客满意度评价模型

3.3.1 计算情感得分

将评论划分为短句，应用情感倾向分析接口对包含主观信息的文本进行情感倾向性类别（积极、消极和中性）的判断。定义positive_prob、negative_prob、confidence分别表示评论的积极类别概率、消极类别概率和置信度。定义sentiment表示评论的情感倾向，sentiment有2种取值，0表示负向，1表示正向。

满意度模型各指标构建如下所示：

（1）计算二级影响因素满意度得分sj，sj表示第j个二级影响因素的满意度得分，由于量化后的满意度影响因素情感极性值在0～1之间，为了统一性，满意度按照5分制满分的评价标准进行计算：

（3）

其中表示第j个二级影响因素所包含评价单元的积极概率和的平均值，表示消极概率和的平均值。

（2）计算二级影响因素权重ωij，ωij表示第i个一级影响因素下第j个二级影响因素测评指标的权重：

（4）

其中表示第i个一级影响因素下第j个二级影响因素的TF_IDF值的和，为第i个一级影响因素下第j个二级影响因素的TF_IDF值。

（3）计算一级影响因素权重ωi，ωi表示一级游客满意度影响因素中第i个测评指标权重：

（5）

其中，表示第i个一级影响因素下第j个二级影响因素的TF_IDF值的和的均值。

（4）构建基于情感分析的游客满意度评价模型，计算整体满意度得分HCSI：

（6）

3.3.2 满意度划分标准

综合情感得分结果并结合游客满意度相关研究，确定评价指标体系。以情感极性值为基础来确定二级影响因素的满意度得分，采用预处理中 TF-IDF算法得到的结果作为基础，计算两级影响因素的权重。根据二级指标的权重得到一级指标得分，最后根据一级指标权重计算整体游客满意度得分，制定相关满意度等级，划分结果如表7所示。

游客满意度为高，则该景区或酒店对应的综合评价为高层次；游客满意度为中，则综合评价等级为中；游客满意度为低，则对应的景区或酒店的综合评价等级为低。

4 基于随机森林的信息质量有效性分析

4.1 文本有效性评价指标体系

根据旅游评论信息的特点，从信息内容质量和信息表达形式质量两个方面构建文本有效性评价指标体系。

4.1.1 信息内容质量

（1）时效性。文本内容的时效性是指消费者一定时间内感受到内容价值的属性，信息内容的时效性表明时间能够决定信息的效用。本文设置参数σ，评论及时性（X_1）的取值范围控制在[0-10]，计算公式为：X_1=[T_max-（T_w-T_r）]/σ。其中T_max是评论发布时间和评论阅读时间的最大差值，T_w是评论发布时间，T_r是评论阅读时间，σ取值为T_max/10。

（2）情感性。评论文本中情感词的频率很难表达评论中表达的积极或消极情绪的强度，本文基于Hownet情感词典，根据情感词典中对应词的相似度对采集到的文本进行评分，考虑程度副词和否定词对情感值计算的影响，加权计算句子情感强度，输出评论文本的情感极性和强度。

（3）相关性。评论内容的相关性即评论中产品特征的丰富性，由评论中包含的目的属性特征词来量化。属性特征词通常为名词或形容词，是目的地本身及其相关服务的客观表达。本文提取文本细节内容，通过分词、词性标注等处理得到目的地评论词集合C1。根据TF-IDF词频的统计对名词和形容词进行要素量化，得到属性特征词集C2。构建空间向量模型，匹配评论词集C1和属性特征词集C2，統计评论中每个特征词的出现频率。

4.1.2 信息表达形式质量

（1）完整性。网评文本的深度主要是指对目的地特征的详细描述。本文统计了每条评论的字数，统计所得字符数分布较为不均，对字符数进行取对数，Length=Ln（Nr），其中 Nr 为评论字数。

（2）可理解性。评论的可理解性指文本前后的关联性。本文利用语义文本向量度量评论的可理解性。向量语义的概念是将一个单词表示为多维语义空间的一个点。表示单词的向量嵌入到特定的向量空间中。

4.1.3 关联分析

（1）DBSCAN聚类。聚类是一种简单有效的数据挖掘技术。聚类是按照一定的标准将一些事物划分为若干类别的过程。相似的被聚为一类，不相似的被聚为不同的类。聚类算法种类繁多，比较常见的有：K-means聚类、密度聚类、DBSCAN聚类等。

现采用的是DBSCAN聚类算法。DBSCAN聚类的模型构建思路如图1所示。

（2）Apriori算法。Apriori算法是一种基本的发现频繁项集的算法。Apriori算法由连接和剪枝两个步骤组成。连接是找到Lk，通过L（k-1）与自己连接产生候选k项集的集合Ck；剪枝是通过计算每个k项集的支持度来得到Lk，为减少计算量，可利用到该算法的性质即如果一个k项集的（k-1）项子集不在L（k-1）中，则该候选也不是频繁的，可以直接从Ck中删除。其中支持度、置信度、提升度是用来衡量关联性强弱的三个核心指标。

关联规则的模型构建思路如图2所示。

（3）关键技术路线。评论文本数据需要进行文本分析，研究技术路线复杂，涉及分词、去停用词、词数统计等步骤。核心技术步骤如图3所示。

4.2 随机森林分类模型

随机森林算法具有泛化性强、稳健性、对噪声不敏感、能处理连续属性等特点，适合用于建立文本分类模型。在文本有效性评估时，选用随机森林进行分类。

4.2.1 参数选择

建立随机森林分类模型时设置3个重要可调参数：

（1）nodesize表示包含样本的叶节点数，节点大小为1表示分类，5表示回归，取nodesize=1。

（2）ntree表示森林中树的数目，ntree值足够大时，可保证随机森林的总体误差率趋于稳定。实证表明ntree=59时分类效果最好，准确率达到0.823 5。

（3）mtry表示每个节点的候选特征数，是影响随机森林模型性能最明显的参数。在分类中mtry建议值是整个变量个数的均方根，因此取mtry=7。

4.2.2 随机森林分类模型效果评价

对于有效性分类预测预实验的评价标准，现采用统计学领域常见的精度（Accuracy）、查准率（Precision）、查全率（Recall）、F1值（F-measure）作为综合评价指标。结果显示准确率为82.35%，即所有被预测的样本，预测正确的概率为82.35%；精确率为80.77%，说明分类器识别样本的能力较好；召回率为98.45%，表示被预测的所有正样本，能够被正确预测的占比；F1值是一个综合的评价指标，为78.02%。

4.3 高效评论排序模型

分类模型在一定程度上降低了游客获取信息的时间成本，但高效评论的数量仍然众多。如何向游客优先展示最高效的评论是一个重要的问题。建立基于LDA的排序模型主要过程如下：

（1）数据预处理。对评论分词，与停用词表进行匹配，去除无用词，减少评论的噪音。

（2）构建高效评论-词频矩阵。采用向量空间模型构造文本向量，用TF-IDF函数变换。

（3）LDA建模。主要使用的是建模后得到的评论主题分布表，得到每个主题词在每条评论中的概率，为排序模型做准备。

（4）关键词向量计算。提取所有评论关键词，构造最优关键词向量，取值为TF-IDF。

（5）基于LDA的排序模型构建。根据评论主题表，计算评论主题信息的熵值，并基于该值对评论进行排序。

5 基于TextCNN的主题挖掘模型构建

采用TextCNN卷积神经网络分类器对文本数据进行分类，将各情感单元分类到各二级影响因素下，为后续对各景区和景点的积极高效评论文本集进行主题挖掘，打好基础，进一步发掘其各自优势和特色。主题挖掘思路为：

（1）对使用卷积神经网络分类好的文本进行分词。

（2）使用Counter Vectorizer（Python中scikit-learn矢量化工具）对文档集合进行向量化。

（3）在scikit-learn工具箱中调用Latent Dirichlet Allocation函数，在参数调整和可视化结合下，选定主题数为4。