可乐漫画IT小课堂 篇四:关于双11,电商们怎么知道你要买啥?
设为头图
双11已经过去两周多了,大家的快递也差不多首汽活了,现在正好可以静下心来,好好回顾一下你在这个盛大的节日所收获的那些体验。
不光是双11,你平时肯定没少在各大剁手平台乱逛,在逛的时候不知道你有没有注意过页面底下经常会出现这种环节:
如果你平时出门旅游的时候在Booking.com这样的网站定过旅馆,是不是也会常常收到下面这样的邮件?
亲,看到这些东西,你心里会有什么想法?
好烦,干嘛要骚扰我……
糟了,全都暴露了……
啊哟喂,你怎么知道我要这些?
不管你的想法是啥,作为一个优秀的剁手健将,你都应该产生这样的好奇心:这些东西为啥会发给我?他们凭啥觉得我对这些感兴趣?
这就是我们这堂课想要说的东西——推荐系统(Recommender Systems)
首先,啥是推荐系统?
推荐系统是一种信息过滤系统,用处是预测某个用户(消费者)对某样东西(商品、服务)的喜好程度。言下之意,如果它觉得你对某些玩意儿喜好程度高,就推给你,不然就换点儿别的推给你,总之必须要骚扰你。
那么推荐系统凭什么判断出你到底好哪一口儿呢?它又不是你肚子里的蛔虫。没错,但人家自有一套方法,虽然有时候未必管用。比如Booking给我发的邮件经常推荐那些我已经去过的地方的旅馆……
最简单粗暴的方法当然是直接根据你的浏览或者购物历史,推荐相似的东西(Booking的逻辑大概就是这样)。但这种方法很多时候效果很差。比如你刚买了一个新手机,第二天就收到一堆其他功能价位类似的手机的推荐,你肯定看都不想看。这时候你更想看到的是手机壳、蓝牙耳机或者充电宝这类相关的东西。
又比如你已经三个月没在这家平台买东西了,怎么知道该给你推什么呢?难道参考三个月前的购买记录吗?
所以一个聪明的推荐系统会用更高级的方法。
推荐系统所使用的方法大致可以分成两类:协作式(Collaborative Filtering )和内容驱动式(Content-basedFiltering)。听上去好像有点深奥,不明觉厉?其实特别简单。下面我解释给你听。
协作式推荐系统
协作式方法的逻辑,用一句话来解释一下,就是“物以类聚,人以群分”,简直不能再贴切。再多解释两句,那就是一个三段论式的判断过程——你是哪类人,你们这类人都喜欢些啥,那么就给你推啥。
比如:
你是程序猿,程序猿好多都喜欢硅胶波波鼠标垫,那么就给你推硅胶波波鼠标垫;
你是死肥宅,死肥宅好多都喜欢二次元挂历,那么就给你推二次元挂历;
你是油腻中年大叔,油腻中年大叔好多都喜欢可以泡枸杞的玻璃保温杯,那么就给你推各种玻璃保温杯。
简单吗?说起来挺简单,其实也没那么容易。这系统真的能工作,还要解决一些问题:
第一, 怎么判断你到底是程序猿还是死肥宅,还是油腻中年大叔?这个可以利用机器学习的模型。比如根据某类人典型的购物偏好先建立一个样本库,并用有监督的机器学习模型(神经网络、k-NN等)来进行训练。之后根据你的历史购物记录以及你留存在购物网站上的个人信息(生日、地区之类,如果有职业就更好办了),用训练好的模型做分类判断。
也可以直接对大量人群的购物记录等数据应用无监督学习的方法来聚类,让系统自动把整体人群分成若干不同类别。这种方法的好处是不需要对某类人的特征有预先的知识,缺点是准确性比较低,也无法给出“程序猿”或者“死肥宅”这样的标签。
如果你想更深入的了解这些内容,建议阅读本系列的第二讲。
第二, 怎么知道某类人喜欢什么东西?方法也很直接——参考同类人近期的购物、浏览记录。比如你已经被判断为“油腻中年大叔”的类型,而最近一段时间和你同属一类的人群有许多都在看手串和记忆枕,那就把这些也推给你。所以如果你发现自己的推送列表里出现某些明显和自己年龄和取向不符的商品,就要反思一下自己是不是哪里出了问题。
协作式推荐的优点是只需要关注接收人的类别,而不需要对所推的东西有任何意义上的理解。无论是要推荐的内容是手机、汽车还是音乐、电影,甚至是相亲对象,对系统而言都是没有区别的,只要看类似的接收者最近都感兴趣哪些就好了。
协作式推荐的缺点是对于无从参考历史的新用户,很难给出确切的分类,也就没法知道该推什么了。另外,对于超大型的购物网站(比如某宝,某东),因为商品的数量太多,尽管用户数量也不少,但平均下来每件商品的浏览和购买数量都很低,从而很难判断一件东西最近是不是真的该推给某类人。
内容驱动式推荐系统
内容驱动式推荐的逻辑其实也不复杂,概括起来就是:如果你买了(或者正在关注)某样东西,那么很可能也对类似的东西感兴趣。当然了,这个“类似”并不是简单的同一类东西的概念,比如你买了脑白金,那么可以给你推一下静心口服液和足浴盆;如果你最近在关注情人节巧克力,那么大概也会对求婚钻戒或者套套感兴趣……
你很容易看出来,跟协作式推荐相反,内容驱动式推荐系统关注的不是人的类别,而是东西的相似性。这就要求它有能力判断哪些东西是类似的(比如脑白金和静心口服液),或者有关联的(比如情人节巧克力和套套)。换句话说,系统要“理解”所推的东西本身的特征,或者说内容。
对现在的软件系统来说,要理解一件东西本身的特征还比较难,所以常用的方法就是通过人来打标签。购物网站可以预先设定一些标签。物品本身所属的分类当然是最显然的标签,比如数码产品、家用电器、书籍、厨具、乐器等等。除了这些,还可以添加一些归纳或者描述性的标签,比如文艺范、驴友、小清新、孝敬爸妈专用、撩妹必备之类。这样就形成了一个很大的标签库,之后就可以对每一件商品添加若干个标签,用这些标签来表示商品的特征。通过比较不同商品上的标签异同,就能判断它们之间的相似性或者关联性。
在实际应用中,通常可以对大量商品依据它们所带标签的特征,应用无监督的机器学习模型自动分成若干类别,为推送提供依据。现在你知道了,之所以足浴盆会跟着脑白金一起推送,可能是因为它们都有#中老年保健这个标签,而套套和情人节巧克力一起推送……你懂的。
基于内容的推荐系统的优点是不需要了解用户的历史行为,所以即便对于新注册用户也能实现比较精准的推送(很多内容提供网站,比如网易云音乐、知乎之类,在新用户注册的时候都会提示你选择一些自己感兴趣的类别、题材等等,这正是为了之后基于内容的推送做准备。),而缺点在于需要对推送的东西进行大量人为的打标签操作,并且一个系统只能用于特定类型的东西——用来推荐汽车的系统没法同时推荐电影,因为两者的特征没有什么交集,没法使用同一个标签库。
好了,本堂课讨论了推荐系统的两种主要工作原理:协作式推荐和基于内容的推荐。它们各有优缺点,所以很多购物网站往往使用两者结合的方式来扬长避短,这样才能对你进行最精准的骚扰,成功挤干你的钱包。
学完这堂课,你应该能回答:
推荐系统主要有哪两种工作方式;
什么是协作式推荐系统;
什么是基于内容的推荐系统,以及
怎么保护你的钱包。
小编注:本文作者@ imeasy 是什么值得买生活家,他的个人自媒体信息为:
微信公众号:逸飞影话 ,微信搜索“YifeiPic”
扶持推广个人品牌是生活家新增福利,更多详细内容请了解生活家页面(https://zhiyou.smzdm.com/author/)。欢迎大家踊跃申请生活家,生活家中表现优异的用户还将有机会成为『首席生活家』,欢迎有着特别生活经验的值友们踊跃加入生活家大家庭!
克利克萨斯
校验提示文案
克利克萨斯
校验提示文案