开发者学堂课程【天池大赛算法教程及获奖选手答辩: 新手入门赛-阿里移动推荐算法(下)】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/389/detail/5000
新手入门赛-阿里移动推荐算法(下)
内容介绍:
一、机器学习如何解决二分类问题
二、如何将购买预测的问题转化为二分类问题
三 、线下如何实现
一、机器学习如何解决二分类问题
在命题中,给定一个二维平面,给出很多个点,这些点有两种不同的属性,有些是蓝色,有些是红色点。
问在给定一个新的点之后,需要判断它有多大可能是蓝色的,或有多大可能是红色,这就是一个最为基础的一个预测二分类的一个命题。
在这个命题中,解剖一下可以发现有三个关键组件,第一是研究对象即为平面上的点,这些对象拥有一些自己的特征,在这个问题中对应着这个点的坐标数值。
同时对象也拥有它的一个标签,蓝色或者红色,通常把它记为0或者1。那么传统的一个方法,逻辑斯回归就是用于解决此类问题。
通常将对象属于0或1的概率建模成一个表达式.
研究对象:点
对象特征:点坐标数值(X0,X1)
对象标签:蓝色(0)或者红色(1)
Logistic Rcgrcssion
建模:
目标:
二、如何将购买预测的问题转化为二分类问题
如何将购买预测的问题转化为二分类问题?
首先,给定0到30天的用户行为数据,然后预测31天的购买行为。并继续做一个简单的推广。
在原有的一个基础问题的概念之上,发现在这个问题中,点变成了一个三元组,这三组分别是特定的用户、特定的商品以及特定的考察日。是非常简单的坐标数据特征,然后可以上升为在考察日之前。
在多天的时间里面,该用户和该商品之间各种相关的,行为的一些统计量都可以作为特征,具体哪些统计可以通过思考这些业务的逻辑,去自自行构造。
给定0~30天的用户行为数据,预测31天的用户购买行为。
研究对象由点 转化为 (用户、商品、考察日)
对象特征由点坐标数值(X0,X1)转化为 在考察日之前该用户、该商品相关的各种行为的统计量
对象标签由蓝色(0)或者红色(1) 转化为该用户在考察日购买了该商品(1)或者没购买该商品(0)
例(13245,7789,29)
X0:考察日前一天该用户对该商品进行了多少次浏览操作
(有多少条用户为13245,商品为7789,日期为28天,操作为浏览的记录)
X1:考察日前一天该用户对该商品是否进行了加入购物车操作
(用户13245是否在28天将商品7789加入了购物车)
X2:考察日前一周该用户是否购买了该商品
(用户13245是否在第22天到第28天中对商品7789有购买的记录)
三 、线下如何实现
(1)推荐使用 linux ubuntu, mac os
(2)更多的参考资料:
1. Logistic Regression:
http://blog.csdn.net/zouxy09/article/details/20319673
2.Python basic:http://www.dotnetperls.com/python
3. Sklearn with Python:
http://kukuruku.co/hub/python/introduction-to-machine-learning-with- python-andscikit-learn
(3)环境安装 python numpy sklearn
1.读取线下训练的候选对象、线下评估的候选对象、线上评估的候选对象
2.统计所有对象的特征向量以及训练样本标签
3.训练模型
4.使用模型进行线下预测、评估、线上预测