开发者学堂课程【场景实践 - 搭建个性化推荐引擎系统:推荐引擎的算法原理】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/522/detail/7052
推荐引擎的算法原理
内容介绍:
一、推荐引擎的算法原理
二、基于人口统计学的推荐
三、基于内容的推荐
四、基于用户的协同过滤
五、基于物品的协同过滤
一、推荐引擎的算法原理
推荐引擎的主要推荐算法有如下四类:
1、基于人口统计学的推荐
2、基于内容的推荐
3、基于用户的协同过滤
4、基于物品的协同过滤
二、基于人口统计学的推荐
用户信息建模
计算用户相似度
根据相似用户推荐
首先,基于人口统计学的推荐及人口统计学的推荐技术是一种最容易实现的推荐方法,他只是简单的根据系统用户的基本信息进行建模,发现用户的相关程度,然后将相似用户喜爱的其他物品推荐给当前,比如说a用户喜欢物品4,a用户的建模特征是年龄30到40岁,性别是男,婚姻状况是已婚,收入介于5k到8k之间,然后在对 D 用户进行分析的时候,发现对用户是37岁,男,已婚,收入8k,正好和A用户建模的年龄,性别,婚姻状况,收入所匹配。于是就认定地 D 用户也会喜欢物品4,所以将物品4也推荐给 D 用户。
基于人口统计学的推荐优点是不需要当前用户对物品喜好的历史信息,对新用户没有冷启动问题,不依赖物品本身。缺点就是要收集到用户信息,比如包括一些敏感数据,年龄等等,这些一般都不愿意提及的数据信息。还有这种根据用户基本信息对用户分类的方法比较粗糙,无法适用于一些高品质领域,比如说电影好的音乐等等,还有就是用户的一些基本信息有可能会变更,比如说生活习惯一个人结婚前和结婚后它的喜欢可能就不同。
三、基于内容的推荐
物品信息建模
计算物品相似度
根据相似物品推荐
基于内容的推荐是在推进引擎出现之初应用最广泛的推荐机制,它的核心思想是根据推荐物品和内容的元数据发现物品或者内容的相关性,然后去用户以往的喜好记录推荐给用户的物品,比如说右边图,可以看出用户喜欢电影1属于爱情浪漫类型,再看其他的电影,发现电影四也是爱情浪漫型的电影,和电影的1类型是一样的,所以用户 D 也会喜欢电影4,所以说就把电影给推荐给他。
对应经内容的推荐优点是不需要其他用户的数据,只有用户自己本身的数据求就可以,没有数据的启动问题。能很好的建模用户的口味缺点是需要对物品分析,建模推荐的质量依赖于对物品模型和完整的全面程度,但物品相似度分析紧仅依赖物品本身的特征,没有考虑人对物品的态度。
四、基于用户的协同过滤
用户偏好模型
找到相近用户群
根据相似用户推荐
的最佳方法,这种算法是一个物以类聚人以群分的假设。喜欢相同物品的用户,更有可能具有相同的兴趣,基于用户的协同过滤的推荐系统,一般应用,有用户评分的系统之中,通过分数,就刻画用户对物品的喜好。
基于用户的协同过滤推荐的基本原理是根据所有用户对物品或者信息的偏好,比如说评分,发现与当前用户口味偏好相似的邻居用户,也叫相近用户群。在一般的应用中,基于K的邻居的历史偏好信息,为当前用户进行推荐,比如说上图所示,用户A和用户B的购物习惯相似,它们属于相近用户群,所以将用户A购买过的物品1推给用户 D。优点是推荐物品内容上可能完全不相关,因此可能或发现用户的潜在兴趣,并且针对每个用户生成个性化的推荐,对用户分类更为准确,能提供更准确的推荐。缺点是对新用户有冷启动问题,这种推荐是基于假设喜欢物品的用户可能有相同的口号偏好,还有用户数据一般很大,并且用户对物品的喜好会发生变化计算比较复杂,需要随时更新。
五、基于物品的协同过滤
基于物品的协同过滤和基于用户的协同过滤相比,他使用所有用户对物品或者信息的偏好,发现物品和物品之间的相似度,然后根据用户的历史偏好信息,将类似的物品推荐给用户。
比如上图中买了物品1的都买了物品3,用户 D 买了物品1,所以就把物品3也推荐给用户 D。优点是基于物品的协同过滤推荐,事实是在基于用户的机制上改良的一种策略,因为在大部分的网站中,物品的个数远远小于用户的数量,而物品的个数相度相比较用户来看,他是比较稳定的,同时基于物品的机制比基于用户的实时性更好一点。
缺点是需要以历史数据为技术抓取的建模用户的偏好后,很难进行修改或者根据用户的使用经验,从而导致这个方法不够灵活,而且不是所有的场景都适合,比如说新闻推荐系统,新闻的个数远远大于用户的个数,新闻的更新速度很快,所以说他的相似度依然不稳定。其实,除了上述推荐算外,还有别的推荐算法,比如说基于关联规则的推荐,基于效应的推荐,基于知识的推荐,组合推荐等等。