开原汽车网

当前位置:

这家公司精确的知道你喜欢看甚么全球的学习者都只能学个皮毛

2019/11/09 来源:开原汽车网

导读

EUI研究院/王敏Netflix的推荐策略一直是行业内的标杆。数据显示,Netflix的用户75%的观影动力来自于推荐,也就是说75

EUI研究院/王敏

Netflix的推荐策略一直是行业内的标杆。

数据显示,Netflix的用户75%的观影动力来自于推荐,也就是说75%的用户进入Netflix的首页不用做任何操作就能找到自己感兴趣的节目。这一使人吃惊的数据显示了Netflix推荐系统的强大和精准。Netflix主张:「推荐系统帮助Netflix赢得关键时刻」。当一个会员访问Netflix,他们希望能够帮助用户在几秒钟以内就找到他感兴趣的影片,以避免用户去寻觅别的乐子。

这家公司精确的知道你喜欢看甚么全球的学习者都只能学个皮毛

从2009年Netflix发起的Netflixprize百万美金竞赛,让这项技术从学术圈进入到了商业界,发展到现在,推荐系统已经非常复杂,叠加了多样的数据、算法及规则,下面从几个角度做一个较详细的介绍。

1、数据

Netflix的数据来自于它全球的大量用户。数据维度非常精细,包括:影片基本数据:演员、导演、类型(微类型)、评论、评分;用户行动数据:每次的搜索,添加书签,正面或负面的评分,播放时长、 设备数据、登录授权数据、再加上地理位置数据;还有第三方数据, 如尼尔森的收视数据,社交媒体分享数据;乃至包括交互细节数据:鼠标滚动、鼠标悬停、点击、和在页面的停留时间,乃至可以针对某一帧画面进行内容分析,分析当时的观看习惯。画面内容数据可能包括音量, 色采, 背景等等数据。

这么多维度的数据,其中的每个数据项Netflix都做得非常细致。比如影片类型,Netflix把可能影响影片分类的每个因素叫做基因,基因组成了影片的一个非常细致的类型,或说是一种“微类型”。

一个基因组成的微类型语法可能是这样:

地区+形容词+类型(名词) +基于……+……为背景+来自……+关于……+从 X 岁到 Y 岁(Region + Adjectives + Noun Genre + Based On… + Set In… + From the… +About… + For Age X to Y)

也就是说,你喜欢看来自非洲的年轻女性成为超级英雄的电影,Netflix可以帮你找到。比如我自己,喜欢看失意的爸爸靠打拳击而解救人生的电影,看起来非常具体,但其实这个类型的电影单我看过的就有:《铁甲钢拳》、《阿虎》、《铁拳》等。这样微类型的分类其实与好莱坞类型化高度成熟的现在,好莱坞故事的套路组合方式是非常一致的。

这家公司精确的知道你喜欢看甚么全球的学习者都只能学个皮毛

影片这样的微类型Netflix有多少个呢?76897个。数据作为算法的基础,Netflix可以算将自己的数据发掘到了最深处。

2、算法

如果需要给用户做一个精准的推荐,需要2个步骤。1. 找到用户可能感兴趣的内容;2.对这些内容进行排序。这对应着推荐算法的两个系统:召回系统和排序系统。

1. 召回系统

召回系统的目的是在海量节目中找到用户可能感兴趣的内容,这需要叠加多样的规则从多个角度尝试命中。Netflix的召回系统规则有:

personalizedVideo Ranker(pVR)

这是Netflix推荐系统最核心的部分。基于「基因」的电影推荐主要就是由pVR来完成的。pVR是千人千面的,即便同一个基因推荐序列,每一个用户看到的影片及排序都是不同的。Netflix推荐系统中pVR的应用极其广泛,它是针对每一个用户给出个性化推荐结果的基础,比如和「流行度」算法结合,可以让热门推荐也变得个性化起来。

Top-N VideoRanker

找到各类型内容中的头部最优内容推荐。

TrendingRanker

观测近期的趋势,对正在热门和可能热门的内容进行预测性地推荐。在以下两种情况下它会预测的特别好:

(1)对那些几个月重复一次的节日,例如情人节的时候浪漫类视频的观看会显著上升 (2)一次性的短期事件,例如最近“freestyle”的梗大火后,不光会带动《中国有嘻哈》节目的热播,还可能引发《8英里》等说唱相干电影热度提升。

ContinueWatching

对内容用户,基于你看过的节目推荐未观看的节目可能命中,但是更大掌控的是用户延续观看的节目。尤其是综艺节目、季播剧,用户可能会遗忘或不好寻觅。推荐此时也产生意义。

Video-VideoSmilarity Because You Watched (BYW) 推荐——基于观看历史的推荐——是一种普遍被使用的非常重要的推荐形态,Netflix自然也不例外。这类推荐方法的核心是计算两个影片的「类似度」,可以计算基于内容的基因类似度。这类类似度本身是非个性化的,Netflix会在把BYW推送到个人页面的时候加入个性化相关的度量。

2. 排序系统

找到用户可能喜欢的内容后,需要为这些内容做排序,组成一个有序列表出现给用户,而这个列表是个性化的千人千面的。

基于以往的数据,Netflix基本可以预测一个用户对一个内容的评价。但是不是就应当将预测评分高的内容推荐给用户?你是愿意看一个70年代的高分电影,还是看一个最近的评分平庸的商业片?排序系统要做的就是预测评分与热门视频的策略平衡。

这样的模型可以用函数表示:f(u v) = w1*p(v) + w2*r(u v) + b,其中 u 表示用户,v 表示视频,p 表示热门函数,r 表示期望评分。这个公式可以通过一个二维空间表示,如下图:

这家公司精确的知道你喜欢看甚么全球的学习者都只能学个皮毛

利用机器学习的方法:从历史数据中选择一些正样本和负样本,设计一个目标函数,让机器学习算法自动地为 w1 和 w2 学习一个权重。这样就可以得到一个每个用户都个性化定制排序策略,满足千人前面的需求。

排序系统也有跟多其他策略的叠加,Netflix一直在尝试加入新的策略和算法,优化推荐效果。

3、效果评估

推荐系统完成后,如何评估推荐系统的效果,有一些关键数据:

1. ECS -Effective Catalog Size(有效条目数量):

也就是在全部内容库中,有多少的内容被观看了。如果不做个性化推荐,用户主要追热门内容,观看内容同质化严重。个性化技术能够帮助人们接触到那些足够小众的内容,如下图,Netflix全部平台被点播到的影片数量大大的提升。

2.Take-Rate(被接受度):

推荐给用户的影片真正被播放的比率

4、优化流程

Netflix优化推荐算法的进程主要为反复进行A/B测试,一个典型的从离线实验到在线AB测试的流程如下图所示。

履行 A/B 测试的时候,他们会跟踪多个维度的指标,但最信赖的指标是:用户视频的播放时长。

5、推荐效果

通过上述复杂的算法策略, Netflix不单单知道你星期天晚上比星期一下午更可能看恐怖片。 也可能知道你更加喜欢通过平板电脑来进行观看。 哪些地方的人们更加喜欢在星期天下午用平板电脑观看。Netflix乃至能够记录哪些用户当一集节目结束演职员表开始转动时就停了节目。别的公司需要发布内容后在知道用户的反馈,Netflix在内容发给用户之前就已经知道用户的喜好程度 。

Netflix的用户75%的观影动力来自于推荐,是推荐策略最大的成功。

伟哥能延长时间吗_伟哥能延长多少时间

万艾可对视力有影响吗

网上购买的印度神油

标签