APP下载

基于seq2seq模型的心理咨询对话系统的研究

2021-05-12张鹤凝马佳琳

信息记录材料 2021年3期
关键词:分词语料心理咨询

张鹤凝,马佳琳

(沈阳师范大学科信软件学院 辽宁 沈阳 110034)

1 引言

长期以来,智能问答系统的问世使得我们用鼠标、键盘和电脑互动,并且语音识别、手势识别等最新进展,使得人机交互不断发展。聊天机器人是人工智能代理,也是这种趋势之一。聊天机器人有两种构建方式:生成型和检索型的聊天机器人。检索型聊天机器人很简单,在知识库中有预定义的输入。生成型聊天机器人从学习的例子中生成自己的句子。检索型聊天机器人比生成型聊天机器人相对更容易构建,因为它们只需要对当前对话做出响应[1]。对话系统支持人机交互,主要输入模式是语音和文本。建造一台能够使用自然语言与人类交流的机器一直是计算机科学的长期目标。聊天机器人结合心理咨询服务的研究对于促进人们的心理健康具有深刻意义[2]。

2 相关技术

2.1 中文分词

本文选用开源的心理咨询问答语料库,该语料库由斯坦福大学等心理学专业人士参与建设。这是心理咨询领域首个开放的QA语料库。一般来说,中文语料数据为长文本组成,比如文章摘要、句子、段落或者整篇文章组成的一个集合。其中文本中句子、段落之间的字、词语是连续的,有一定含义。而进行文本挖掘分析时,我们希望文本处理的最小单位是词或者词语,所以这个时候就需要结巴分词技术来将文本全部进行分词[3]。

2.2 词向量

目前为止计算机还无法理解自然语言,所以文本向量化是首先要考虑的。如何把分词之后的字和词语表示成计算机能够识别的类型,需要把中文分词的字符串转换成数字类型,确切的说应该是数学中的向量[4]。所以我们需要将每个词进行数字化,这里选择建立索引的方式。以词表为基础建立索引库,根据用户提问中的关键词迅速找到包含特定关键词的段落。这里数据处理包括索引生成与索引过程。其中,索引生成是把分词之后的字和语句进行索引,在进行查询的时候可以根据索引快速定位。通过Word2index技术生成索引文件。而索引过程是用户在提问时,将依据系统抽取的关键词从索引表中找出满足条件的所有段落取交集返回。

3 系统整体设计

3.1 系统架构

本系统使用python作为开发语言,在设计上遵循配置灵活、代码模块化的思路,分为五大模块;分别是数据预处理器、数据处理、执行器、深度学习模型以及可视化。数据预处理是将原始语料库通过python的结巴分词器对语料库进行分词处理,语料分词后通过word2vec向量表示以便于满足数据处理模块的要求;执行器是整个系统引擎分别在运转的时候调用数据处理器、深度学习模型进行数据处理、模型训练、运作等工作;深度学习模型是一个基TF的seq2seq模型。可视化展示是面向用户的人机交互系统。图1为整体的框架图。

图1 系统框架

3.2 实现方法

(1)首先对选用的开源语料库进行语料数据预处理;

(2)使用seq2seq模型训练预处理的数据集最终得到对话模型;

(3)用户输入问题,根据对话语句上下文信息提取相关主题词;

(4)最后将预处理之后的问题通过Api调用训练的模型获取对应的回答。

3.3 模型训练

序列到序列的方法或称为seq2seq的方法是将给定序列从一个域转换到另一个域的深度学习方法。编码器作为输入端用于输入序列做学习训练,并将序列传递给中间向量,解码器用于输出中间向量训练后的序列。每一次的输出即是下一次的输入[5]。本系统利用seq2seq模型的特点,结合word2vec的思路,将训练语料分为Ask语料集和Replay语料集,并根据一定的比例分为训练语料集和验证语料集。在数据处理完成后,执行器根据训练模型调用seq2seq模型创建神经网络。在训练过程中,使用perprelixy来计算模型的loss,通过自动调整learning rate来逐步取得最优值,当learning rate减少为0达到最优值。最终可视化展示模块启动进程调用执行器来实时在线提供聊天服务,在语句输入和输出利用seq2seq的特点,直接将输入seq转换成vec作为已经训练好的神经网络,然后神经网络会生成一个seq向量,通过查询词典的方式将生成的向量替换成中文句子。训练模型部分代码如下:

return tf.reduce_mean(loss_)

checkpoint =tf.train.Checkpoint(optimizer=optimi zer,encoder=encoder,decoder=decoder)

@#tf.function

def train_step(inp,targ,targ_lang,enc_hidden);

loss=0

4 心理咨询

互联网时代人们对电子产品的依赖性越来越强,人与人交流的机会越来越少,很难达到理解与共情,负面情绪随之而来。人们无法专门腾出时间去心理咨询室进行咨询,甚至有的人并没有觉察到自己的心理状态变化,所以无法及时得到心理疏导[6]。因此,心理咨询对话系统的研究对于促进人们的心理健康具有深刻意义。随着科技的不断发展,心理咨询师的辅助心理服务方式也越来越多,例如网上咨询互动。人工智能的加入让心理咨询更加智能化,普及心理咨询对话系统指日可待。

5 总结

本文主要基于seq2seq模型对心理咨询对话系统进行研究,结合心理咨询语料库,利用深度学习框架解决序列到序列的问题,提出对话系统为用户提供心理咨询服务,使用户感觉更像是在和人(咨询师)进行对话。近年来,国家特别重视国民的心理健康,因此,在实现心理咨询对话功能的基础之上做出一些判断,判断用户也就是来访者是否患有抑郁之类的症状,并且得出相应结论是日后研究的重点。心理咨询对话系统暗示了未来交互代理实际上可能会被引入精神病学领域。

猜你喜欢

分词语料心理咨询
分词在英语教学中的妙用
结巴分词在词云中的应用
结巴分词在词云中的应用
法科大学生心理咨询案例研究
心理咨询:架一座心灵的彩虹
基于语料调查的“连……都(也)……”出现的语义背景分析
高校心理咨询课程教学改革探析
华语电影作为真实语料在翻译教学中的应用
《苗防备览》中的湘西语料
国内外语用学实证研究比较:语料类型与收集方法