机器之心专栏
机器之心编辑部
来自Aauto Quicker和武汉大学的研究人员提出了一种多粒度神经模型,将多兴趣学习和多级图形纸张积累相结合,显著增强了准确学习用户复杂行为的能力。对不同层次用户兴趣的细粒度建模拓宽了序列推荐领域的前沿研究方向。这项研究已被今年的SIGIR会议作为一篇长文接受。
随着人们获取信息方式的移动化和碎片化,短视频分享平台(如Aauto Quicker和Tik Tok)逐渐成为人们生活中获取信息和娱乐的重要渠道。破纪录的DAU一方面伴随着巨大的商业价值,另一方面也给成千上万的推荐算法带来了巨大的挑战。
在Aauto faster的流媒体推荐场景中,用户观看视频的序列化行为对用户动态兴趣建模起着至关重要的作用。序列推荐旨在根据用户的行为历史来识别用户偏好的下一个产品/视频,但传统的序列推荐方法往往使用单一向量来表示用户的动态兴趣。由于用户观看历史的兴趣是多样的,仅仅对用户单一的动态兴趣建模很难达到理想的推荐效果。如何同时精准捕捉用户动态多样的兴趣,是当前短视频流媒体推荐的痛点。
图1电商和短视频场景下两个真实用户的部分历史序列
具体而言,现有的序列推荐工作简单地将用户复杂的偏好表征为单一载体来建模用户偏好的序列模式,但不可避免地导致用户不同兴趣之间的模糊性。例如,在电子商务场景中,图1(a)显示了该用户的短点击历史中有两个主要兴趣:体育和游戏。显然,用传统的单一向量很难同时表征这两种利益。然而,图1(b)中的短视频交互序列反映了用户的兴趣是不同粒度的。漫画,一个粗粒度的兴趣点,也包含了更细粒度的兴趣点,即如图2所示的IP级别的《猫和老鼠》(汤姆杰瑞)和《海绵宝宝》(海绵宝宝方块),也是传统方法。
图2粗粒度用户兴趣中的兴趣重叠现象
为了解决上述问题,近期的努力主要遵循两个改进方向:多兴趣学习和图纸一体化。一方面,像ComiRec和MIMN这样的多兴趣模型侧重于通过执行历史商品聚类来提取用户的不同兴趣。然而,这些多兴趣方法都是以商品/视频为最小兴趣建模单元,缺乏对复杂、动态、高阶用户行为的建模能力。例如,图1(a)和图2(a)所示的真实场景中常见的兴趣重叠现象表明,用户主要关注体育和游戏,但值得注意的是,t和t-2时间戳处的交互视频对两种兴趣的建模都有影响,这在现有方法中难以准确分解。
地址:https://arxiv.org/abs/2205.01286 3360号
另一方面,包括TGSRec和SURGE在内的图聚合方法选择将序列建模与图神经网络相结合。基于历史商品间的多层次关联,提炼用户不同层次的偏好。然而,与多利益解决方案相比,这些方法忽略了多利益分解的好处。遗憾的是,目前的工作还没有意识到上述两种解决方案可以互补:通过聚合多层次的用户偏好来实现更精确的多兴趣提取,从而更好地进行推荐。总之,如何对多种兴趣进行多粒度建模是本文要解决的问题。
本文提出了一个统一的多粒度神经模型,简称MGNM。将多兴趣学习与图量聚合相结合,可以达到对用户多粒度兴趣的最佳建模效果。该方法首先为用户学习历史互动商品的图形结构和信息聚合路径;然后,进行图形卷积,迭代导出商品表示,用于捕捉不同层次用户的复杂偏好。然后,通过提出的序列胶囊网络,将序列模式注入到多兴趣提取过程中,以多粒度的方式实现更精确的兴趣学习。在来自不同场景的三个真实数据集上的实验证明了MGNM相对于最先进基线的优越性。进一步的分析还表明,MGNM在理解多个粒度级别的用户偏好方面是健壮和有效的。
方法
具体来说,提出的MGNM模型由两个主要部分组成:用户感知图体和顺序胶囊网络。用户感知图卷起组件将原始序列转换为用户感知自适应图,并通过执行图卷起来迭代地推导商品表示,图卷起用于捕捉不同级别的用户偏好。胶囊网络组件将时间序列信息引入到传统的胶囊网络中,提取多兴趣序列化模式。通过多层次、多兴趣的结合,可以更准确地对用户的多粒度兴趣进行建模。MGNM网络的架构如图3所示。
图3 MGNM的网络架构
A.用户感知图体积
为了从用户历史序列中提取复杂且高阶的用户兴趣,本研究使用图结构自适应地建模不同历史商品之间的相关距离。给定用户的历史行为序列,首先将商品序列转化为如图4(1)所示的全连通商品图,根据用户嵌入和两个商品的嵌入联合计算不同商品之间的距离。用户嵌入用于实现用户感知的图构造。也就是说,相同的两个商品对对于不同的用户可能具有不同的相关值。通过这种自适应的图连接方式,梯度可以在训练过程中通过更新商品和用户的嵌入来调整图连接方式。同时,为了使兴趣图具有足够的区分度,研究者在邻接矩阵中加入L1正则化来逼近一定的稀疏度。最后利用自适应用户历史兴趣图,通过用户感知的图卷积得到L层的卷积输出,如图4(2)所示。每一层的产品表现代表不同层次的产品信息,对应后续不同层次用户兴趣的提取。卷积的层数越多,用户感兴趣的程度越高,也越复杂。
B.序列胶囊网络
该模型在提取多层次商品表示后,利用胶囊网络从每一层次用户的历史商品序列中提取K个兴趣向量。然而,标准的动态路由机制缺乏定时信息,导致胶囊网络无法捕捉用户兴趣的变化。然而,已有研究证明,时序特征对序列推荐中的兴趣建模有很大影响。因此,在动态路由的第一次迭代中,作者使用BiLSTM对代码进行排序,如图5所示。在第一次迭代之后,该模型使用具有时间特性的输出来通过残差结构更新动态路由的权重。BiLSTM用于为胶囊网络增加时间建模能力,弥补了标准胶囊网络在序列建模问题下的缺陷。最后,每一级序贯商品表示通过序贯胶囊网络得到相应用户的K个兴趣向量。
图5通过顺序胶囊网络模拟行为
C.预报
为了预测给定候选商品/视频的概率,模型基于注意机制聚合单个级别的k个兴趣向量,聚合L个级别的k个兴趣向量得到L个级别的兴趣向量。考虑到不同用户的交互习惯是不同的,即他们可能受到高阶或低阶兴趣的影响,该模型使用max-pooling层从L个级别的兴趣向量中选择概率得分最高的级别,其sc
为了证明提出的MGNM模型的有效性,研究人员在短视频场景和电商场景三个数据集上进行了实验。数据集的统计结果如表1所示。与现有的最佳基线模型相比,本研究所提出的模型在AUC、NDCG、MRR和HIT上都取得了显著的改善,实验结果如表2所示。
表1。三个数据集的统计结果
从表2可以看出,在微视频和玩具游戏数据集上,本研究提出的MGNM模型在各项指标中是最好的。在乐器数据集上,GAUC和NDCG的表现分别低于TGSRec和SLi_rec。研究人员强调,这是因为这两种方法都是基于序列时间戳特征的基线,所以与其他方法相比,它们拥有更多的一维精细时间戳编码特征(其他基于序列模型的方法只使用了时间顺序),但即便如此MGNM仍然在HIT和MRR上取得了最好的性能。
表二。不同方法在三个数据集上的性能比较
为了验证模型各模块的有效性和研究的创新性,本文做了详细的烧蚀研究。表3中的实验结果证明了关键创新模块的重要作用,例如用户感知图汇总(UGCN)、邻接矩阵A上的L1正则化(L1范数)、顺序编码层中的顺序胶囊网络(BiLSTM)和基于最大池的预测。此外,作者还研究了序列胶囊网络的一些变体(BiLSTM、SumPool、SelfAtt、Transformer),验证了在胶囊网络中引入序列模式的必要性,以及采用BiLSTM这样的轻量级序列模型可以取得令人满意的结果。
表3。玩具和游戏数据集上的消融实验。
由于提出的模型旨在同时捕捉用户的多层次兴趣,研究人员对模型中的图卷层数L和胶囊网络数K进行了超参数实验,控制了兴趣层次和兴趣数。一方面,较大的L值(L 3)可以聚合更远的高阶邻居来推断用户的高级偏好,但过大的L值(L 3)设置也会带来一些噪音信息,产生不利影响。另一方面,单个兴趣表达(即K=1)在四个指标中表现最差。当k在[3,5]范围内时,MGNM达到相对更稳定的性能,验证了多兴趣建模的重要性。此外,玩具游戏和微视频数据集的最佳k值分别为2和4,这与短视频数据集的语义空间比电商数据集的语义空间宽得多的直觉是一致的。
图4:不同L值在玩具和游戏以及微视频数据集上的表现。
图5:不同k值在玩具和游戏以及微视频数据集上的表现。
为了进一步验证多层次兴趣建模的作用,本研究分别在微视频和玩具游戏数据集上对不同用户的兴趣粒度分布进行了抽样可视化。通过基于max-pooling预测值计算用户对样本产品/视频的偏好水平,图6和图7分别绘制了每个用户对其交互式产品/视频的激活水平在两个数据集上的分布。颜色越深,该级别下的估计值越高。
图6。微视频场景中多层次用户兴趣分布的可视化
图7。玩具和游戏场景中多层次用户兴趣分布的可视化
可以观察到,为不同用户推荐不同产品/视频所需的偏好水平是完全不同的。图7显示,MGNM的前两层(即L 2)对于玩具和游戏数据集的大部分用户来说已经足够,但对于少数用户来说,需要派生的高级偏好(即L 2)。图6显示,对于语义空间较大的微视频数据集,高级偏好的作用对于所有用户都变得更加重要。研究人员认为,用户对短视频的偏好更高,意味着用户对短视频场景的兴趣更高、更复杂、变化更快。因此,这一现象证明了多级机制的有效影响。
此外,在推理阶段,研究人员将max-pooling替换为sum-pooling,并测试了模型的性能。图8中的结果进一步量化了模型中多层次兴趣提取结构的影响。
图8。MGNM推理阶段的最大池和总和池
摘要
本研究主要利用图模型对用户的多层次历史行为表示进行建模,并利用时序增强型胶囊网络提取用户的多元兴趣向量。提出的MGNM细粒度神经序列推荐模型在三个真实推荐场景数据集上表现突出。同时,大量的实验和可视化分析证明了多层次、多兴趣的建模思想对推荐性能提升的重要影响。