《Semi-supervised Collaborative Filtering by Text-enhanced Domain Adaptation》解读

简介: 推荐算法是机器学习的一个重要应用,推荐算法与其他机器学习算法的一个重要区别在于数据的特点。在推荐系统中,由于用户行为的长尾效应,往往数据极为稀疏,而另一个问题在于,推荐算法的数据集往往是隐式反馈,即通过对用户行为的采集而非query来获得用户对推荐标的的反馈。学界针对这两个问题曾提出过不少方法,也有很多经典的工作。然而,这两个问题始终没有得到完整的解决。

论文作者:于文辉,林肖,葛均锋,欧文武,覃征

推荐算法是机器学习的一个重要应用,推荐算法与其他机器学习算法的一个重要区别在于数据的特点。在推荐系统中,由于用户行为的长尾效应,往往数据极为稀疏,而另一个问题在于,推荐算法的数据集往往是隐式反馈,即通过对用户行为的采集而非query来获得用户对推荐标的的反馈。学界针对这两个问题曾提出过不少方法,也有很多经典的工作。然而,这两个问题始终没有得到完整的解决。

目前学界解决数据稀疏性的思路是引入更多的信息来辅助协同过滤进行推荐,例如引入丰富的side information如文本和tag,图片等。而同时为了解决隐式反馈,往往采用负采样的方式添加负样本来帮助模型学习。负采样的方式存在一个明显的缺点,即采样过程中可能会将潜在的正样本当作负样本使用,使得负样本中存在着较大的噪声。

我们在已有工作的基础上,提出了一个新的迁移学习的思路来同时解决这两个问题。我们试图通过让模型学会举一反三的方式,将知识从一个数据丰富的 domain(source domain)迁移至一个数据稀疏的 domain(target domain)。我们考虑一个极端的情形,即将知识从一个 domain 迁移至用户和商品均不重叠的 domain,辅助推荐。同时,我们仅在 source domain 进行负采样,通过知识迁移将负样本的知识迁移到 target domain,避免了直接进行 target domain 上的负采样,实现了在target domain 上的有效学习。

推荐算法极为依赖用户和商品的表达,即embedding。常用的迁移学习算法大多建立在两个domain共享embedding隐式空间的基础之上。然而这一方式存在着一个严重的问题,即推荐算法中的embedding 分布在隐式空间之中,其空间不具备明确的语义含义。因此直接对两个domain的embedding进行共享可能会导致embedding 的错位。这一点与 cv 领域中的共享隐层存在着极大的差异。因为在图像领域中,图片的轮廓、色彩等信息具备明确的含义,两个数据集上的猫或者狗的图片在轮廓和纹理上是具有相似性的。而在推荐领域中,embedding 的任一个维度没有语义含义,因此 source domain 中的一个恐怖电影与 target domain 中的喜剧电影,两者的 embedding 向量可能很接近,直接迁移会造成语义上的南辕北辙。为此,我们引入了评论文本信息,将两个 domain 的 embedding 分别与对应的文本的语义空间进行对齐,保证两个 domain 的恐怖电影的 embedding 均与 horrible 这一单词较为接近,由此保证两个 domain 的 embedding 可以进行更准确的空间对齐。
image.png
为此,我们设计了一个基于文本的半监督式迁移学习推荐算法,并将其命名为Text-enhanced Domain Adaptation Recommendation (TDAR)算法。我们首先在两个domain中将用户和商品分别构造出文本空间内的隐式表示。具体来说,我们采用了memory network,将用户/商品的隐式表示建模成评论文本中单词embedding的线性组合,并通过一个基于文本的推荐任务对该表示进行训练。而后,我们采用了domain adaption中经典的adversarial training的方式,设计了一个domain分类器和一个协同过滤模块,其中domain分类器采用adversarial training的方式,将用户/商品的embedding和文本表示进行对齐,使得source domain的用户/商品embedding与target domain的用户/商品embedding出于同一空间内。为了使得两个domain的embedding能够通过文本进行对齐,我们将用户/商品基于文本的表示和embedding进行拼接后输入到domain分类器,再进行对齐。
image.png
我们在亚马逊的公开数据集上进行了实验,选用了movies, videos, CDs 以及clothes进行了实验,并将domain之间有用户或者商品交集的数据删除。我们将数据最为丰富的movies作为source domain,其他三个domain作为target domain分别进行了实验。同时,我们采用了经典的协同过滤算法MF,深度学习算法NeuMF,深度文本推荐算法CoNN,adversarial leanring经典算法DANN以及state-of-the-art的跨领域推荐算法Rec-DAN进行了对比,实验结果表明,我们的算法在多个数据集上均取得了很好的效果。
image.png
image.png
同时,我们也观察到,对于domain相对接近的任务中,我们的算法表现更为突出。这也符合我们的预期,因为从不相近的domain迁移知识,对于target domain而言收益并不大,这也提示我们应该选择合适的domain来帮助学习。

我们利用文本信息来对跨领域推荐的用户/商品表示空间对齐的方案具备较强的扩展性,对于工业界的跨领域推荐也有着一定的启示。考虑到文本只是诸多信息中的一个类型,我们在未来将会关注以其他的信息来进一步帮助迁移学习在推荐算法中的使用,而迁移学习在cv以及nlp领域取得成果之后,我们相信这项技术在未来的推荐中也会发挥日益重要的作用。

更多数据挖掘领域论文请查看:KDD顶会论文解读

相关文章
|
机器学习/深度学习 人工智能 大数据
【重磅】文娱技术喜提多篇ACM MM论文
2021ACM MM(ACM International Conference on Multimedia),阿里巴巴文娱技术共4篇论文被收录。研究成果分别是:视频修复、目标检测器、视频质量评估、情感计算 技术领域。
1380 0
【重磅】文娱技术喜提多篇ACM MM论文
|
机器学习/深度学习 自然语言处理
文生图模型-Stable Diffusion | AIGC
所谓的生成式模型就是通过文本或者随机采样的方式来得到一张图或者一段话的模型,比如文生图,顾名思义通过文本描述来生成图像的过程。当前流行的文生图模型,如DALE-2, midjourney以及今天要介绍的Stable Diffusion,这3种都是基于Diffusion扩散模型【1月更文挑战第6天】
2140 0
|
Java
Mac下安装JDK11(国内镜像)
Mac下安装JDK11(国内镜像)
8616 0
|
SQL Oracle 关系型数据库
浅谈mysql数据库迁移至国产化达梦数据库
项目要求mysql数据库数据需要转到达梦数据库,对于达梦数据库的了解尚且不多,一开始使用手动转SQL脚本,效率极低,非常容易出错。达梦数据库的资料实在有限,经过后期研究,发现原来DM已经有自己的数据迁移工具,使用之后非常方便。对mysql数据库转达梦数据库的操作流程做一个简要分享。
7341 0
浅谈mysql数据库迁移至国产化达梦数据库
|
数据可视化 PyTorch 算法框架/工具
No module named ‘tensorboard‘ 解决方法
No module named ‘tensorboard‘ 解决方法
2102 0
|
数据采集 自然语言处理 大数据
​「Python大数据」LDA主题分析模型
使用Python进行文本聚类,流程包括读取VOC数据、jieba分词、去除停用词,应用LDA模型(n_components=5)进行主题分析,并通过pyLDAvis生成可视化HTML。关键代码涉及数据预处理、CountVectorizer、LatentDirichletAllocation以及HTML文件的本地化处理。停用词和业务术语列表用于优化分词效果。
992 0
​「Python大数据」LDA主题分析模型
官宣!杭州市地铁集团与阿里云达成战略合作
官宣!杭州市地铁集团与阿里云达成战略合作
1021 9
|
人工智能 自然语言处理 算法
|
Linux Docker 容器
openEuler 安装 podman 和 podman compose
Podman Compose 是 Podman 的扩展,它提供了与 Docker Compose 类似的功能。如果你的版本中没有包含 Podman Compose,或者你需要单独管理它,你可以尝试从外部仓库安装 Podman Compose。比如:使用 pip3 安装 podman & compose
1682 0
openEuler 安装 podman 和 podman compose
|
数据采集 前端开发 Java
2024年全新基于Java爬取微博数据(完整版)
【5月更文挑战第9天】适用于2024年 的 基于 Java 爬取微博数据,涉及 微博正文、图片、视频、粉丝数、关注数、等微博主页正文列表数据及微博主页用户数据信息的获取

热门文章

最新文章