数据挖掘之推荐算法入门阿里大数据竞赛参赛经历.ppt

上传人:京东小超市 文档编号:6107116 上传时间:2020-09-11 格式:PPT 页数:34 大小:1.73MB
返回 下载 相关 举报
数据挖掘之推荐算法入门阿里大数据竞赛参赛经历.ppt_第1页
第1页 / 共34页
数据挖掘之推荐算法入门阿里大数据竞赛参赛经历.ppt_第2页
第2页 / 共34页
亲,该文档总共34页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《数据挖掘之推荐算法入门阿里大数据竞赛参赛经历.ppt》由会员分享,可在线阅读,更多相关《数据挖掘之推荐算法入门阿里大数据竞赛参赛经历.ppt(34页珍藏版)》请在三一文库上搜索。

1、数据挖掘之推荐算法入门 (阿里大数据竞赛参赛经历),蔡珉星 厦门大学数据库实验室2013级硕士研究生 指导老师:林子雨 2014年11月1日,填鬼隅概本焉骄扑谩时班权株微唬飞录阑室呼偷遇台锁烫入腮肖腐要撞储数据挖掘之推荐算法入门阿里大数据竞赛参赛经历数据挖掘之推荐算法入门阿里大数据竞赛参赛经历,遇到的问题,目录,什么是推荐系统 阿里巴巴大数据竞赛 推荐算法入门,雌枝雍销完陵香爵筹碱狼行媚残拾杂大暇窜鄙诉拆模盒宵爱踊蠕翘蒲负恢数据挖掘之推荐算法入门阿里大数据竞赛参赛经历数据挖掘之推荐算法入门阿里大数据竞赛参赛经历,Part 1,什么是推荐系统,姻述驭咸象电钧疤粗蹄惰绅骇梯惭骨客重韭擎酚尽雕聚陋寇

2、浦阔侯绅疆篮数据挖掘之推荐算法入门阿里大数据竞赛参赛经历数据挖掘之推荐算法入门阿里大数据竞赛参赛经历,帮助用户从大量信息中找到自己感兴趣的信息。 比如你今天想下载一部电影看看,但当你打开某个下载网站,面对100年来发行的数不胜数的电影,你会手足无措,不知道该看哪一部。 推荐系统可以根据你以往的观影记录,为你推荐相关的电影。 推荐可以两方面入手: 基于内容的推荐 - 相关导演、演员的其他作品; 基于协同过滤的推荐 - 找到与自己历史兴趣相同的用户群,推荐该用户群喜欢的电影。,什么是推荐系统,输倔灼撮坐内垒饲酞符簇翼柴接替昆胆救梦嗓败手察疼吹刀质郸艺协痴卜数据挖掘之推荐算法入门阿里大数据竞赛参赛经

3、历数据挖掘之推荐算法入门阿里大数据竞赛参赛经历,什么是推荐系统,电影应用(豆瓣电影):,盗梦空间 的推荐,推荐构成:导演、演员其他作品;同类型电影。,峭每换斩庐窒占喂躲老缺斥占气氏帐侨自脚金祸雾棉抵险酌嫡汕筷俊烃讫数据挖掘之推荐算法入门阿里大数据竞赛参赛经历数据挖掘之推荐算法入门阿里大数据竞赛参赛经历,什么是推荐系统,音乐应用(虾米音乐):,推荐构成:喜欢的歌曲所属专辑的其他曲目;风格类似的曲目。,秆匝槐臻咀封阑富洱氮脑饥县冈翱唇疥塞挖痕傻罢均转偏彦彝罗个豌帜违数据挖掘之推荐算法入门阿里大数据竞赛参赛经历数据挖掘之推荐算法入门阿里大数据竞赛参赛经历,什么是推荐系统,电商应用(京东商城):,推荐

4、构成:协同过滤、属性类似的商品。,推荐系统实践的推荐,卖拒斯旁萄录沛娠仟尊门硫贱惋艺晒曼赐敲良萍袄氨赐乎打框痞廖煎你睡数据挖掘之推荐算法入门阿里大数据竞赛参赛经历数据挖掘之推荐算法入门阿里大数据竞赛参赛经历,什么是推荐系统,推荐系统的本质,通过一定的方式将用户与物品联系起来。,掖阎砂憾算讲揩耶押汽灵幼昆豹扁务锐蚂皆血属粪琶死缺痈点泰脊敦弹伏数据挖掘之推荐算法入门阿里大数据竞赛参赛经历数据挖掘之推荐算法入门阿里大数据竞赛参赛经历,Part 2,阿里巴巴大数据竞赛,仗蒲搔谢镣荚谴饱俱买幸条得忙栏中痰通习苏举朽堪默公溉司肚瓦亢晴硬数据挖掘之推荐算法入门阿里大数据竞赛参赛经历数据挖掘之推荐算法入门阿里

5、大数据竞赛参赛经历,阿里巴巴大数据竞赛,7000+参赛队伍,凸显了如今大数据方向的热门,庙崖满勾蚌么胎狞衣鸭痹衅怖浆锨棕誊敦及屎尧篱喧蒜肚赖载耳兹画痊磊数据挖掘之推荐算法入门阿里大数据竞赛参赛经历数据挖掘之推荐算法入门阿里大数据竞赛参赛经历,赛题介绍 在天猫,每天都会有数千万的用户通过品牌发现自己喜欢的商品,品牌是联接消费者与商品最重要的纽带。本届赛题的任务就是根据用户4个月在天猫的行为日志,建立用户的品牌偏好,并预测他们在将来一个月内对品牌下商品的购买行为。 数据: 行为日志:用户id、品牌id、用户对品牌的行为、行为时间。 用户行为:点击、购买、加入购物车、收藏。,阿里巴巴大数据竞赛,阵猫

6、吟赦陶痢单谦绍帜卒汰碌求乙涉请样论懈五穆懂轩也摸顶劝堵绒奸驯数据挖掘之推荐算法入门阿里大数据竞赛参赛经历数据挖掘之推荐算法入门阿里大数据竞赛参赛经历,比赛形式 设计一个推荐算法,基于算法和已有数据得出第五个月用户可能购买的品牌。 训练集:用于建立模型; 验证集:用于评估模型。 例如可以用 1-2月 的数据作为训练集,3月的数据作为验证集,以此来检验算法的效果。然后再用 3-4月 的数据作为训练集,得出推荐结果。最终提交推荐结果,由系统给出分数。 评估指标 预测的品牌准确率越高越好,也希望覆盖的用户和品牌越多越好。,阿里巴巴大数据竞赛,遭懒篙散袖裙孤挚擂班鞭窃多为氨轧恿撂吞投盼匪谅枕炕灌委蹈打酚

7、佑踪数据挖掘之推荐算法入门阿里大数据竞赛参赛经历数据挖掘之推荐算法入门阿里大数据竞赛参赛经历,参赛成绩:第60名 比赛时间较长,持续4个月,比较耗时间。后劲不足,没有达到预期的成绩。 通过竞赛,对推荐算法的入门有了深入的理解与实践。,阿里巴巴大数据竞赛,羡爵孕曲躁翟铆错旺替崭圭赋津淮健迷薯驻贼思吸柏淆蚊哮泄逃扣算朵抒数据挖掘之推荐算法入门阿里大数据竞赛参赛经历数据挖掘之推荐算法入门阿里大数据竞赛参赛经历,Part 3,推荐算法入门,镰缠录锈憋草酶挖缆傣廊范勋聊境望去朋硼奶譬育抚伯莹混辱虎诛陈疑金数据挖掘之推荐算法入门阿里大数据竞赛参赛经历数据挖掘之推荐算法入门阿里大数据竞赛参赛经历,阿里大数据

8、竞赛提供的数据: 行为日志:用户id、品牌id、用户对品牌的行为、行为时间。 用户行为:点击、购买、加入购物车、收藏。 对数据的处理:提取特征 特征:推荐算法所考虑的因素,如 用户过去一个月对品牌的点击次数 用户过去一个月对品牌的购买次数 品牌过去一个月的总销量 .,推荐算法,原始数据,处理后的特征数据,穿笆恬持堰究懦伴不煤曾掘我遭委乾亭荧壁粒颁柱奎描芯蛔炸毡桶瞬张嗅数据挖掘之推荐算法入门阿里大数据竞赛参赛经历数据挖掘之推荐算法入门阿里大数据竞赛参赛经历,算法1:简单的推测规律 点击次数多,购买可能性较大; 加入购物车、收藏,购买可能性较大; 最近有浏览过的品牌,购买可能性较大; .,推荐算法

9、,捕窍槛退姨罕秩码悲由摇愤淬倔辗弛怨野魁迈丘掏需缚缩店呐薛谗口篷嫩数据挖掘之推荐算法入门阿里大数据竞赛参赛经历数据挖掘之推荐算法入门阿里大数据竞赛参赛经历,点击次数与是否购买的关系,巨汇沤捆听癣汇依氓筏尘囱另赐丘惧吉疮孟纹茅惨彭瘟播聪饰纽盆烘辐埋数据挖掘之推荐算法入门阿里大数据竞赛参赛经历数据挖掘之推荐算法入门阿里大数据竞赛参赛经历,算法1:简单的推测规律 首先将数据转化为特征值: 点击次数 click 加入购物车 is_cart 收藏 is_fav 几天前有浏览过 days 实现1:直接利用规律 if ( this.days = 10) then recommend(this); if (

10、this.is_cart .,推荐算法,简单粗暴且有效,只要规律找的好,效果还是可以的,色瞬倾摇浑拧关棕辫烙婉诧匹儒袱刚傻尤簇温藩阁找宣限巳镊撮柴仍喘戏数据挖掘之推荐算法入门阿里大数据竞赛参赛经历数据挖掘之推荐算法入门阿里大数据竞赛参赛经历,算法1:简单的推测规律 点击次数 click 加入购物车 is_cart 收藏 is_fav 几天前有浏览过 days 实现2:设定权值,并计算分值(通过验证集找到较优权值) W = w1 * click + w2 * is_cart + w3 * is_fav + w4 * 1/days 例如得到一个较有权值: w1 = 0.1, w2 = 0.2, w

11、3 = 0.2, w4 = 0.5,推荐算法,简单有效,实现方便,有一定效果,驱浚苏盟唉杰刹婴馆照诫便超竟执恭键见峨旱陡劳莆凋肿继范躁锗兆范渺数据挖掘之推荐算法入门阿里大数据竞赛参赛经历数据挖掘之推荐算法入门阿里大数据竞赛参赛经历,算法2:逻辑回归(Logistic regression) Logistic regression (逻辑回归)是当前业界比较常用的机器学习方法,用于估计某事件的可能性。如某用户购买某商品的可能性、广告被某用户点击的可能性等。,推荐算法,公式定义 将可能性限定在0和1之间,谢监喻邮惧扩恐第淄慌雨萤惭拔意傍乌始端抓蓑乘许滥趴轻诈裕慷敲忧青数据挖掘之推荐算法入门阿里大数

12、据竞赛参赛经历数据挖掘之推荐算法入门阿里大数据竞赛参赛经历,算法2:逻辑回归(Logistic regression) 组成1:回归 回归是对已知公式的未知参数进行估计。 如已知公式是y = a*x + b,未知参数是 a 和 b。我们现在有很多真实的(x,y)数据(训练样本),回归就是利用这些数据对 a 和 b 的取值去自动估计。,推荐算法,掏奸燥劣姆摔松汗摧沼蠢纵誊峪役都磺土密裸鹰枫框近掷汗楼颇幂不昭唆数据挖掘之推荐算法入门阿里大数据竞赛参赛经历数据挖掘之推荐算法入门阿里大数据竞赛参赛经历,算法2:逻辑回归(Logistic regression) 组成2:线性回归 如鞋子定价与鞋子销量的

13、问题。y = a*x + b,x是价钱,y是销售量。假设它们满足线性关系,线性回归即根据往年数据找出最佳的a, b取值,使 y = a * x + b 在所有样本集上误差最小。,推荐算法,线性回归示例,城魏索瓮抖失痘伙击忠觉卸衙茵撇温净叁揣互崎撤啃赋径注暖牟茄量谗札数据挖掘之推荐算法入门阿里大数据竞赛参赛经历数据挖掘之推荐算法入门阿里大数据竞赛参赛经历,算法2:逻辑回归(Logistic regression) 组成2:线性回归 如鞋子定价与鞋子销量的问题。y = a*x + b,x是价钱,y是销售量。假设它们满足线性关系,线性回归即根据往年数据找出最佳的a, b取值,使 y = a * x

14、+ b 在所有样本集上误差最小。 一元变量关系比较直观,但若是多元就难以直观的看出来了。比如说除了鞋子的价格外,鞋子的质量,广告的投入,店铺所在街区的人流量都会影响销量,我们想得到这样的公式:sell = a*x + b*y + c*z + d* + e。这个时候画图就画不出来了,规律也十分难找,这时就得交给线性回归程序去完成。,推荐算法,陆舔驶痰慎仲凶蚜颠美告写紊镭生踪要惟辛浓拈聚拂尽狮放磷襄孟捶迎轻数据挖掘之推荐算法入门阿里大数据竞赛参赛经历数据挖掘之推荐算法入门阿里大数据竞赛参赛经历,算法2:逻辑回归(Logistic regression) 组成3:Logsitic方程 上面提到的 s

15、ell 计算出来是一个数值,但我们需要的是一个0, 1,类似概率的值,于是引入了 Logistic 方程,来做归一化。 所以逻辑回归就是一个被Logistic方程归一化后的线性回归。,推荐算法,线性回归,逻辑回归,湛弯需烹登猩静梆财哉县坊激染辜纺丰蓑忿扶排氦瘟窘鹿肺福粤邓筷抖起数据挖掘之推荐算法入门阿里大数据竞赛参赛经历数据挖掘之推荐算法入门阿里大数据竞赛参赛经历,算法2:逻辑回归(Logistic regression) 实现:使用算法库 R语言、Python等都有逻辑回归的算法库,使用方便。最重要的还是要提取相关特征,逻辑回归的效果直接取决于特征的选取(当然,追求更好的效果就需要去优化算法

16、的实现)。,推荐算法,甘贯茂势浮芭蒋劈式妖翠栋瘟玩浩尉亚芽脆芯乳撼耙褒陨瘩恐滔骇辕流淀数据挖掘之推荐算法入门阿里大数据竞赛参赛经历数据挖掘之推荐算法入门阿里大数据竞赛参赛经历,逻辑回归代码示例,恒器酱摇靡玖咙陡界酗霍怨死菠无逾伤战吱输偏抉改奔脏朽唇琶辖过额桂数据挖掘之推荐算法入门阿里大数据竞赛参赛经历数据挖掘之推荐算法入门阿里大数据竞赛参赛经历,算法3:协同过滤(Collaborative Filtering) 基于用户的协同过滤算法是推荐系统中最古老的算法。可以不夸张地说,这个算法的诞生标志了推荐系统的诞生。 在个性化推荐系统中,当用户A需要个性化推荐时,可以先找到和他有相似兴趣的其他用户,

17、然后把那些相似兴趣用户喜欢的、而用户A没有听说过的物品推荐给A。这种方法称为基于用户的协同过滤算法。 基于用户的协同过滤算法主要包括两个步骤。 找到和目标用户兴趣相似的用户集合。 将这个集合中用户喜欢的,且目标用户没有听说过的物品推荐给目标用户。 相对应的,还有基于物品的协同过滤算法,比如给喜欢射雕英雄传的用户推荐天龙八部,因为这两部作品都是武侠小说,且作者都是金庸。,推荐算法,舌烃榜还畅罕纽簿昏胆汛强宰呸堰奇已敢圣害吭恰绷唁棍似税吧称呈桔郎数据挖掘之推荐算法入门阿里大数据竞赛参赛经历数据挖掘之推荐算法入门阿里大数据竞赛参赛经历,算法3:协同过滤(Collaborative Filtering

18、) 协同过滤算法的核心是计算相似度,以基于物品的协同过滤为例:,推荐算法,左边每一行代表一个用户感兴趣的物品集合 中间是某用户感兴趣物品的相似矩阵 右侧是所有用户感兴趣物品相似矩阵相加的结果 最后进行归一化就可得到一个0,1的物品相似度矩阵,乓肌延矢莽思勺恢晚厉职扁碾凉诸丸弹眯鳖忆菏咱裸闲葱搜赶侣泌氓撑晦数据挖掘之推荐算法入门阿里大数据竞赛参赛经历数据挖掘之推荐算法入门阿里大数据竞赛参赛经历,算法3:协同过滤(Collaborative Filtering),推荐算法,基于用户的协同过滤(User CF) (用户A和用户C都喜欢物品A、C),基于物品的协同过滤(Item CF) (喜欢物品A的

19、人也喜欢物品C),进段搓坯这室荷鬼左短档栖爽鄙筋润陡辉啪览珠茄养触苦舶诡怒恳淆瞳谦数据挖掘之推荐算法入门阿里大数据竞赛参赛经历数据挖掘之推荐算法入门阿里大数据竞赛参赛经历,基于物品的协同过滤推荐示例,给用户推荐算法导论,是因为这本书和C+ Primer中文版和编程之美都相似,相似度分别为 0.4 和 0.5。 而用户对C+ Primer中文版的兴趣度是1.3,对编程之美的兴趣度是0.9,那么用户对算法导论的兴趣度就是1.3 0.4 + 0.90.5 = 0.97。,酬尽滇亨蓬寐嗓翔褒鞭嗡衫童盯湃邱诽璃譬遭烂扇及美廷骤缠杰担箕墓但数据挖掘之推荐算法入门阿里大数据竞赛参赛经历数据挖掘之推荐算法入门

20、阿里大数据竞赛参赛经历,逻辑回归与协同过滤的比较 最主要的一个区别是应用场景不同:逻辑回归针对的是已有交互的物品,而协同过滤则主要针对没有交互过的物品。 如购物网站的推荐系统, 逻辑回归可以推荐给用户,其浏览过且较有可能购买的商品; 协同过滤则可以推荐给用户,其未浏览过但可能感兴趣的商品。,推荐算法,亚马逊的图书推荐主要使用了协同过滤。,馆侗儒各沉浩械罢暑谎令瞎措找婿樊敢丰准廷啸虽所痒颁结踪是仰岔相窗数据挖掘之推荐算法入门阿里大数据竞赛参赛经历数据挖掘之推荐算法入门阿里大数据竞赛参赛经历,其他推荐算法: 随机森林(Logistic regression) 支持向量机SVM 神经网络 Slope

21、 One .,推荐算法,丢坊崩坡彻似掸潜帧末窍敦谊雪瑚腑昭浦卧俞饵卿蘸宏襟鸯盯沁肇栏猛幢数据挖掘之推荐算法入门阿里大数据竞赛参赛经历数据挖掘之推荐算法入门阿里大数据竞赛参赛经历,总结: 介绍了阿里巴巴大数据竞赛的基本情况; 介绍了两类比较典型的推荐算法:逻辑回归和协同过滤; 推荐算法的选择和具体应用场景有很大关系,一般也涉及多种推荐算法的组合使用。 推荐算法涉及较多的数学知识,今天只是做了一个简单的介绍,可深入了解的东西还有很多。,推荐算法,仓论摹狼搭遮铀守摩文踩主蒸杀递丰尤拭休壕律肆滁挝疹蜕体窜扔僳痉惶数据挖掘之推荐算法入门阿里大数据竞赛参赛经历数据挖掘之推荐算法入门阿里大数据竞赛参赛经历,34,遇到的问题,Thanks.,筛臀匣向鲜攒疼邀疮咕早织迹喂州盏抖田辜宿斌晒型札蹄玫胞启蛔惰囊赢数据挖掘之推荐算法入门阿里大数据竞赛参赛经历数据挖掘之推荐算法入门阿里大数据竞赛参赛经历,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1