增强非线性特征提取的时间间隔感知序列推荐

2022-08-12宁昱霖

现代信息科技 2022年7期

宁昱霖

（安徽理工大学计算机科学与工程学院，安徽淮南 232001）

0 引言

随着互联网技术的迅速发展，全球的数据总量呈井喷式增长。虽然大数据蕴含丰富的信息及巨大的商机，但信息过载造成的问题也随之而来。如何有效的从海量的数据中提炼出有价值的信息成为当今信息检索领域发展的一大难题。推荐系统作为缓解信息过载的技术之一，它已经成为电子商务、短视频、新闻推送等各个互联网领域的核心技术。

传统的推荐模型，例如基于内容和基于用户的协同过滤推荐，它们是以一种静态的方式建模用户和项目的交互且只可捕获用户广义的喜好，而在现实生活中用户的偏好是不断改变的并且用户前后的行为都存在极强的关联性。序列推荐模型就是利用了用户兴趣的动态性，试图将用户过去的历史行为记录建模成一个项目序列，根据用户最近交互的项目来预测他们的下一步行动。基于时间间隔的序列推荐模型是在传统的序列推荐模型中显式地融入用户与项目交互时间的间隔。但由于数据集中涉及了复杂的时间间隔信息，单一的前馈神经网络无法完全提取数据集中蕴含的信息，因此，本文准备使用三阶段线性层代替前馈神经网络以充分提取数据集中蕴含的信息。

1 模型与方法

本文提出的模型是基于基线模型TiSASRec进行改进的，在本节中，将详细介绍改进后的TiSASRec 模型的各个组成部分，包括个性化时间间隔处理、嵌入层、时间感知自注意力模块和预测层，模型流程如图1所示。

图1 模型流程图

1.1 问题描述

定义和分别表示用户字典和项目字典，给定每个用户∈的历史行为序列S={s，s，…}，其中s∈，行为序列对应的时间序列可表示为T={t，t，…}。在时间步长时，模型会根据之前的项以及两两项目之间的时间间隔预测下一个项目。

1.2 项目序列及时间序列的处理

1.3 相对位置矩阵的计算

为了防止时间间隔过于稀疏，将时间间隔大于的时间间隔替换为，剪裁后的矩阵表示为M。

1.4 嵌入层

首先创建一个项目嵌入矩阵M∈，为嵌入维度。通过检索用户项目序列中的项目索引，从M中找到对应的嵌入表达，将其堆叠在一起，形成矩阵E，E∈R，可表示为E=[m，m，…，m]。然后，使用两个不同的可学习的位置嵌入矩阵E，E∈R分别作为自注意力机制中key，value 矩阵的绝对位置编码，表示为E=[p，p，…，p]，E=[p，p，…，p]。对于相对位置嵌入矩阵的嵌入表示，同样采用两个版本E，E∈R，分别作为自注意力机制中key，value 矩阵的相对位置编码，表示为：

1.5 时间感知自注意力模块

1.5.1 时间感知自注意力机制

对于每个用户∈的项目交互序列E=[m，m，…，m]，计算新的序列=[，，…，z]，对于每个z都是由项目交互序列的嵌入表达经过线性变化后再加权求和得到的。用公式可表达为：

其中，w∈R为自注意力机制中将项目交互序列转化为value 矩阵的线性层，α是softmax 函数对于权重系数的归一化操作，可以表达为：

其中，e为结合交互序列中的项目信息，绝对位置信息以及相对位置信息的权重系数，可表示为：

其中，w，w∈R分别为自注意力机制中将项目交互序列转化为query，key 矩阵的线性层。为了防止模型未卜先知，需屏蔽所有q和k的连接（＞）。

1.5.2 多层线性层

时间感知自注意力机制本质上仍然是一个线性模块，没有提取数据集非线性特征的能力，因此，需要在时间感知自注意力机制后面添加一个可以提取数据集中非线性特征的模块。TiSASRec 模型采用一个前馈神经网络提取数据集的非线性特征，但由于模型的输入信息中包含复杂的时间信息，因此，本文选择使用三层线性层替换前馈神经网络进行非线性特征的提取，并且使用LeakyReLU 函数作为激活函数。其公式可表达为：