最新知识

YouTube推荐系统(youtube 推荐)

最新知识客服VX(coolfensi)2023-01-24 03:55:1296

「干货」YouTube 基于深度神经网络推荐系统剖析

YouTube推荐系统的三大难点:

联系方式:微信:coolfensi
(使用浏览器扫码进入在线客服窗口)
复制联系方式

· 一是规模太大,简单的推荐算法在如此大规模数据量上可能是失效的;

· 二是实效性,即新数据不断产生,需要将其良好的呈现给用户,以平衡旧有的好内容以及新内容;

· 三是噪音问题,用户行为与视频描述均有噪音,并且只能获得充满噪音的用户隐含反馈,而不能直接获取用户满意度。

图1.YouTube基于深度学习推荐系统架构图

本文呈现的推荐系统解决方案分为两个部分:

· 一个是备选生成(Candidate Generation),其目标是初选结果,从海量数据中选择出符合其个人需求偏好的百级别数据;

· 一个则是排序(Ranking),通过更加丰富的用户,视频乃至场景信息,对结果进行精细化排序,得到呈现给用户的备选。

备选生成阶段,将推荐系统定义为一个多分类器,其职责是确定某个用户,在某个场景与时间下,将从系统的视频中选择消费哪一个视频。具体的方法是,将用户与视频全部转化为Embedding描述,即一个向量,最终用户消费某个视频的概率通过如下方式计算得到:

而构建用户与视频的Embedding,则是通过训练而来。将用户观看视频/搜索记录/其它信息如年龄性别等作为输入特征,部分稀疏特征首先进行Embedding化,中间为数层ReLU,最终一层用SoftMax进行分类。 换句话讲,是将用户与场景信息作为输入,预估用户下一个要看的视频,也就是将用户分到具体某一个视频作为其类别。 用户与视频的Eembedding,则是神经网络最后一层的对应矩阵。这种方法除了能利用用户行为信息外,其它信息例如设备,地理位置,性别等也可以作为输入,这是神经网络相对于普通MF类算法的优势之一。

图2.YouTube推荐备选生成阶段架构

备选生成的下一个阶段是排序。其网络结构跟备选生成阶段类似,将所有排序模型中的信息输入后,进入多层ReLU,最终进行优化的是一个加权逻辑回归损失函数,观看时间作为阳性样本权重。在这一层,也可以看到其推荐“代理问题”的转化:由点击行为预估转为了以观看时长为权重的点击行为预估,这样更佳贴近Youtube的产品优化方向。与备选生成阶段另一个不同在于,排序模块需要考量的特征要多得多:

· “场景”类特征,例如用户可能在某个地方某个时间愿意观看某一条视频,但是在别的地方别的时间则不会;

· 曝光信息:用户观看了某界面,但是并未在其上进行操作,那么随之应进行已呈现内容降级;

· 备选生成层输出:排序需要将各种备选结果联合起来;

· 更丰富的用户信息:例如用户最近的一次搜索词,用户最近观看的同一个主题下的视频数量,用户上一次观看同主题视频的时间,用户所使用的语言等;

图3.YouTube推荐排序阶段架构

除了整体设计与系统架构以外,本篇论文中陈述了很多“选择”,这些选择更多的是“艺术”而不完全属于技术范畴。这些选择往往是很多技术人员关注不多的点,但在笔者看来,这些都蕴含着YouTube技术与产品人员深入的思考与判断。

“Example Age” 特征

对于YouTube产品层来讲,鼓励内容产生毫无疑问是至关重要的,所以推荐系统也希望对用户上传的新内容的有所偏好。然而幸运的是,即使损失一部分相关性,视频的消费者也偏好新内容。也就是说,新内容的价值可以良好的通过其带来的吸引力呈现出来,并不需要平台刻意而为之。

由于系统使用一个时间窗口的训练样本进行训练,如果没有视频的上传时间信息,那么模型会认为这个时间窗口内用户对视频的偏好是稳定的,然而事实远非如此。将视频的上传时间加入到特征集合后,预估更加准确,尤其是视频刚上传阶段的强烈便好被成功捕捉到。

图4.无时间特征预估/有时间特征预估/真实情况 三者对比

优化目标选择

图5.优化对象的选择

算法系统的设计首先要明确优化对象,这不仅仅涉及到损失函数的形式,同样也是评判系统成功与否的标准。YouTube是视频平台,更是富含“价值”的长视频平台,其观看行为比点击行为意义更大。(当然,笔者认为没有任何一个简单指标可以完全代表一个产品)

“正样本”定义

图6.何为正样本的设计选择

训练数据来源

图7.关于训练数据来源的设计抉择

训练数据应该只来源于推荐界面的曝光吗?YouTube认为不然。如果只考虑推荐界面曝光,则无法对用户便好进行 探索 ,更加无法捕捉用户偏好的变化,因为用户偏好的变化往往首先会对应着搜索与浏览行为。所以YouTube将各个界面例如搜索,导航等用户行为全部纳入其中。

训练数据窗口

图8. 训练数据收集方式的设计选择

Youtube将所有用户等而视之,每个用户收集一定量的样本。而不是惯常可见的直接收集一个时间窗口内的所有用户行为,作为训练样本。这样的好处是避免系统收到少数行为过多用户的影响,使得系统更多的为大众设计。这样的设计理念与近期阿里Gai Kun的论文中评测方法(用户AUC)设计有异曲同工之妙。

用户行为序列处理

图9.用户行为序列信息处理的设计选择

在系统中,用户往往会顺着一个检索结果页或者用户发布者浏览页进行顺序观看,如果系统捕捉到了用户看了检索界面的前三个结果,那么预估用户将看第四个结果就会很容易。但是这样真的好吗?将检索结果页面或者用户发布视频界面直接作为推荐结果呈现给用户是并不友好的--抢了别的界面应该干的活嘛。所以此处YouTube对用户行为序列做了处理,在模型输入中选择放弃用户行为的序列信息,将其打散成词袋Embedding,即使这样的信息有利于模型的离线训练效果。

预估对象的选择

图10.关于预估对象的设计选择

用户的行为往往是有顺序的,用户在系统中“热身”后,在一个频道下面,往往先看大众喜欢的热门,然后逐步找到自己的兴趣点,聚焦看一块内容。那么,训练数据则应该收集用户前段时间行为,预估此后的行为。而不是收集时间前后段的行为,预估中间时间段的用户行为。这样模型更加接近用户习惯。

除此之外,Youtube根据系统设计了对应的实验,结果非常简单:深度网络层数越高,效果越好。

YouTube的推荐系统,已经为其贡献了70%的用户播放时长,搜索与导航在PC时代的主导地位在移动时代已经完全被颠覆掉。希望大家在其中学到一些东西。笔者水平所限,若有错误不当之处,敬请指正。

另外,个人用TensorFlow模拟Youtube的推荐系统,做了一个简单实现。其实就是一个多分类器外加一个单分类器,远谈不上成熟,可以供大家参考。

——END——

推荐算法笔记08_国外推荐系统【上】

倒序回归:校准

DLRM(Deep Learning Recommender Model)

类别、id类特征用one-hot编码生成稀疏特征

数值连续特征

one-hot向量经Embdding层将其转换成维度为n的Embedding向量

年龄、收入等连续特征concat成特征向量,经MLP转化成维度n的向量

每类Embedding向量还可进一步通过神经网络层做转换

根据调参和性能评估的情况来决定是否引入神经网络进行进一步的特征处理

Embedding两两内积,让特征之间做充分的交叉,与之前连续特征对应的Embedding连接,输入后续的MLP

最上层的蓝色三角形代表另一个全连接MLP,在最后一层使用sigmoid函数给出最终的点击率预估

为了捕捉用户短期和长期兴趣 ,对用户和房源分别进行Embedding,进而利用Embedding的结果构建出诸多特征,作为排序模型的输入。

两种Embedding生成方法:

基于短期兴趣的房源Embedding方法

利用用户Session内的点击行为序列进行房源的Embedding

数据预处理:

Word2Vec:skip-gram model训练Embedding

预定会话:最后一个房源是被预定房源

将预定信息引入Embedding,使推荐列表更倾向于之前预定成功Session中的房源

不管预定房源在不在Word2Vec的滑动窗口中,都假设这个被预定房源与滑动窗口的中心房源相关,相当于引入一个全局上下文到目标函数中(item2vec)

负采样时,还对中心房源采样同一市场的房源集合随机采样,获得新的负样本,发现同一市场内部房源的差异性。

新房源的Embedding使用附近3个同样类型、相似价格的房源向量进行平均得到。

探索性会话:没有产生预定行为的会话

基于长期兴趣的用户Embedding和房源Embedding

为捕捉用户的长期偏好,Airbnb使用了预定会话序列。

使用预定会话序列训练Word2Vec

如何对用户和房源属性标识序列一起训练Word2vec?

针对某一用户按时间排序的

booking session:(l_1,l_2,...,l_m)

实时排序模型与特征工程

模型训练与线上服务分离

Youtube排序模型

特征:

输出层:

训练:加权逻辑斯特回归

服务:

优化目标:使模型更偏向于用户点击视频且观看时长更长(排序)

怎么建模呢? 样本不均衡问题?(医疗诊断)

加权逻辑斯特回归

权重的确定?

评估指标

线上排序服务

训练与测试样本的处理:

对每个用户提取等数量的训练样本,减少活跃用户模型损失的过度影响

测试集使用用户最近一次观看行为,避免数据穿越。

用户对新视频的偏好:

YouTube推荐系统(youtube 推荐) 第1张

推荐系统产品和算法概述丨产品杂谈系列

本文主要是对最近所学的推荐系统的总结,将会简单概述非个性化范式、群组个性化范式、完全个性化范式、标的物关联标的物范式、笛卡尔积范式等5种常用的推荐范式的设计思路。

许多产品的推荐算法都依赖于三类数据:标的物相关的描述信息(如推荐鞋子,则包括鞋子的版型、适用对象、材质等信息、用户画像数据(指的是用户相关数据,如性别、年龄、收入等)、用户行为数据(例如用户在淘宝上的浏览、收藏、购买等)。这三类数据是推荐模型的主要组成部分,除此之外一些人工标注的数据(例如为商品人工打上标签)、第三方数据也能够用于补充上述的三类数据。

服务端在有以上数据的基础上,就可以从三个维度进行推荐:

根据个性化推荐的颗粒度,我们可以将基于用户维度的推荐分为非个性化推荐、群组个性化推荐及完全个性化推荐三种类型。

非个性化推荐指的是每个用户看到的推荐内容都是一样的 在互联网产品中,我们最常见的非个性化推荐的例子是各种排行榜,如下图是酷狗音乐的排行榜推荐,通过各个维度计算各类榜单,不管是谁看到这个榜单,上面的排序和内容都是一致的。

群组个性化推荐指的是将具有相同特征的用户聚合成一组,同一组用户在某些方面具备相似性,系统将为这一组用户推荐一样的内容 。这种推荐方式是很多产品进行用户精细化运营时会采用的方式,通过用户画像系统圈定一批批用户,并对这批用户做统一的运营。例如音乐软件的推荐播放,若以摇滚乐为基准将一批用户聚合成组,则为这些用户提供的每日推荐歌单是相同的内容和顺序,但与另一组爱听民谣的用户相比,两组用户看到的每日推荐内容将是不同的。

完全个性化指的是为每个用户推荐的内容都不一样,是根据每一位用户的行为及兴趣来为用户做推荐,是当今互联网产品中最常用的一种推荐方式 。大多数情况下我们所说的推荐就是指这种形式的推荐,例如淘宝首页的“猜你喜欢”就是一个完全个性化的推荐,千人千面,每个人看到的推荐尚品都不一样。

完全个性化可以只基于用户行为进行推荐,在构建推荐算法时只考虑到用户个人的特征和行为 ,不需要考虑其他用户,这也是最常见的内容推荐方式。除此之外, 还可以基于群组行为进行完全个性化推荐,除了利用用户自身的行为外,还依赖于其他用户的行为构建推荐算法模型 。例如,用户属性和行为相似的一群用户,其中90%的用户买了A商品后也买了B商品,则当剩下的10%用户单独购买B商品时,我们可以为该用户推荐商品A。

基于群组行为进行的完全个性化推荐可以认为是全体用户的协同进化,常见的协同过滤、基于模型的推荐等都属于这类推荐形式。

基于标的物的推荐指的是用户在访问标的物详情页或者退出标的物详情页时,可以根据标的物的描述信息为用户推荐一批相似的或者相关的标的物,对应的是最开始提到的“标的物关联标的物范式” 。如下图酷狗的相似歌曲推荐,

除了音乐产品外,视频网站、电商、短视频等APP都大量使用基于标的物维度的推荐。如下图便是YouTube基于标的物关联标的物的推荐。在YouTube上我观看一个周杰伦的音乐视频时,YouTube在该页面下方为我推荐更多与周杰伦有关的视频。

基于用户和标的物交叉维度的推荐指的是将用户维度和标的物维度结合起来,不同用户访问同一标的物的详情页时看到的推荐内容也不一样,对应的是开头提到的笛卡尔积推荐范式。 拿酷狗音乐对相似歌曲的推荐来举例,如果该推荐采用的是用户和标的物交叉维度的推荐的话,不同用户看到的“没有理想的人不伤心”这首歌曲,下面的相似歌曲是不一样的。拿淘宝举例的话,一样是搜索“裤子”这一关键词,不同的人搜索得到的搜索结果和排序是不同的,可能用户A搜索出来优先展示的是牛仔裤,而用户B优先展示的是休闲裤,淘宝将结合搜索关键词与用户个人的历史行为特征展示对应的搜索结果和排序。

对于基于笛卡尔积推荐范式设计的推荐系统来说,由于每个用户在每个标的物上的推荐列表都不一样,我们是没办法是先将所有组合计算出来并储存(组合过多,数量是非常巨大的),因此对于系统来说,能否在用户请求的过程中快速地为用户计算个性化推荐的标的物列表将会是一个比较大的挑战,对于整个推荐系统的架构也有更高的要求,因此在实际应用中,该种推荐方式用的比较少。

非个性化范式指的是为所有用户推荐一样的标的物列表,常见的各种榜单就是基于此类推荐规则,如电商APP中的新品榜、畅销榜等。排行榜就是基于某个规则来对标的物进行排序,将排序后的部分标的物推荐给用户。例如新品榜是按照商品上架的时间顺序来倒序排列,并将排序在前列的产品推荐给用户。而畅销榜则是按照商品销量顺序降序排列,为用户推荐销量靠前的商品。

根据具体的产品和业务场景,即使同样是非个性化范式推荐,在具体实施时也可能会比较复杂。例如在电商APP中畅销榜的推荐可能还会将地域、时间、价格等多个维度纳入考虑范围内,基于每个维度及其权重进行最终的排序推荐。

大部分情况下,非个性化范式推荐可以基于简单的计数统计来生成推荐,不会用到比较复杂的机器学习算法,是一种实施门槛较低的推荐方式。基于此,非个性化范式推荐算法可以作为产品冷启动或者默认的推荐算法。

完全个性化范式是目前的互联网产品中最常用的推荐模式,可用的推荐方法非常多。下面对常用的算法进行简单梳理。

该推荐算法只需要考虑到用户自己的历史行为而不需要考虑其他用户的行为,其核心思想是:标的物是有描述属性的,用户对标的物的操作行为为用户打上了相关属性的烙印,这些属性就是用户的兴趣标签,那么我们就可以基于用户的兴趣来为用户生成推荐列表。还是拿音乐推荐来举例子,如果用户过去听了摇滚和民谣两种类型的音乐,那么摇滚和民谣就是这个用户听歌时的偏好标签,此时我们就可以为该用户推荐更多的摇滚类、民谣类歌曲。

基于内容的个性化推荐在实操中有以下两类方式。

第一种是基于用户特征标识的推荐。

标的物是有很多文本特征的,例如标签、描述信息等,我们可以将这些文本信息基于某种算法转化为特征向量。有了标的物的特征向量后,我们可以将用户所有操作过的标的物的特征向量基于时间加权平均作为用户的特征向量,并根据用户特征向量与标的物特征向量的乘积来计算用户与标的物的相似度,从而计算出该用户的标的物推荐列表。

第二种是基于倒排索引查询的推荐。

如果我们基于标的物的文本特征(如标签)来表示标的物属性,那么基于用户对该标的物的历史行为,我们可以构建用户画像,该画像即是用户对于各个标签的偏好,并且对各个标签都有相应的偏好权重。

在构建完用户画像后,我们可以基于标签与标的物的倒排索引查询表,以标签为关键词,为用户进行个性化推荐。

举个粗暴的例子,有歌曲A、B、C分别对应摇滚、民谣、古风三个音乐标签,我听了歌曲A、B,则在我身上打了摇滚和民谣的标签,又基于我听这两个歌曲的频率,计算了我对“摇滚”和“民谣”的偏好权重。

在倒排索引查询表中,摇滚和民谣又会分别对应一部分歌曲,所以,可以根据我对摇滚和民谣的偏好权重从查询表中筛选一部分歌曲并推荐给我。

基于倒排索引查询的推荐方式是非常自然直观的,只要用户有一次行为,我们就可以据此为用户进行推荐。但反过来,基于用户兴趣给用户推荐内容,容易局限推荐范围,难以为用户推荐新颖的内容。

基于协同过滤的推荐算法,核心思想是很朴素的”物以类聚、人以群分“的思想。所谓物以类聚,就是计算出每个标的物最相似的标的物列表,我们就可以为用户推荐用户喜欢的标的物相似的标的物,这就是基于物品的协同过滤。所谓人以群分,就是我们可以将与该用户相似的用户喜欢过的标的物(而该用户未曾操作过)的标的物推荐给该用户,这就是基于用户的协同过滤。

常见的互联网产品中,很多会采用基于标的物的协同过滤,因为相比之下用户的变动概率更大,增长速度可能较快,这种情况下,基于标的物的协同过滤算法将会更加的稳定。

协同过滤算法思路非常简单直观,也易于实现,在当今的互联网产品中应用广泛。但协同过滤算法也有一些难以避免的问题,例如产品的冷启动阶段,在没有用户数据的情况下,没办法很好的利用协同过滤为用户推荐内容。例如新商品上架时也会遇到类似的问题,没有收集到任何一个用户对其的浏览、点击或者购买行为,也就无从基于人以群分的概念进行商品推荐。

基于模型的推荐算法种类非常多,我了解到的比较常见的有迁移学习算法、强化学习算法、矩阵分解算法等,且随着近几年深度学习在图像识别、语音识别等领域的进展,很多研究者和实践者也将其融入到推荐模型的设计当中,取得了非常好的效果。例如阿里、京东等电商平台,都是其中的佼佼者。

由于该算法涉及到比较多的技术知识,在下也处于初步学习阶段,就不班门弄斧做过多介绍了,有兴趣的朋友可以自行进行学习。

群组个性化推荐的第一步是将用户分组,因此,采用什么样的分组原则就显得尤为重要。常见的分组方式有两种。

先基于用户的人口统计学数据(如年龄、性别等)或者用户行为数据(例如对各种不同类型音乐的播放频率)构建用户画像。用户画像一般用于做精准的运营,通过显示特征将一批人圈起来形成同一组,对这批人做针对性的运营。因为前头已经提到此算法,这里不再重复介绍。

聚类是非常直观的一种分组思路,将行为偏好相似的用户聚在一起成为一个组,他们有相似的兴趣。常用的聚类策略有如下两类。

标的物关联标的物就是为每个标的物推荐一组标的物。该推荐算法的核心是怎么从一个标的物关联到其他的标的物。这种关联关系可以是相似的(例如嘉士伯啤酒和喜力啤酒),也可以是基于其他维度的关联(例如互补品,羽毛球拍和羽毛球)。常用的推荐策略是相似推荐。下面给出3种常用的生成关联推荐的策略。

这类推荐方式一般是利用已知的数据和标的物信息来描述一个标的物,通过算法的方式将其向量化,从而根据不同标的物向量之间的相似度来急速标的物之间的相似度,从而实现相识标的物的推荐。

在一个成熟的产品中,我们可以采集到的非常多的用户行为,例如在电商平台中,我们可以手机用户搜索、浏览、收藏、点赞等行为,这些行为就代表了用户对某个标的物的某种偏好,因此,我们可以根据用户的这些行为来进行关联推荐。

例如,可以将用户的行为矩阵分解为用户特征矩阵和物品特征矩阵,物品特征矩阵可以看成是衡量物品的一个向量,利用该向量我们就可以计算两个标的物之间的相似度了,从而为该用户推荐相似度高的其他产品。

再例如, 采用购物篮的思路做推荐,这种思路非常适合图书、电商等的推荐 。 以电商为例,我们可以把用户经常一起浏览(或者购买)的商品形成一个列表,将过去一段时间所有的列表收集起来。对于任何一个商品,我们都可以找到与它一起被浏览或者购买的其他商品及其次数,并根据次数来判断其关联性,从而进行关联推荐。

我们可以对用户进行分组,同样,我们也能够对标的物进行聚类分组。通过某位参考维度,我们将一些列具有相似性的标的物分成一组,当我们为用户进行推荐的时候,便可以将同一组内的其他标的物作为推荐对象,推荐给用户。

笛卡尔积范式的推荐算法一般是先采用标的物关联标的物范式计算出待推荐的标的物列表。再根据用户的兴趣来对该推荐列表做调整(例如根据不同兴趣的权重重新调整推荐列表的排序)、增加(例如基于个性化增加推荐对象)、删除(例如过滤掉已经看过的),由于其复杂程度较高在实际业务场景中应用较少,这边不再详细介绍。

好了,本次的介绍就到此为止了。本次主要是做了一个非常简单的推荐算法概述,在实际的业务场景中,还经常需要与产品形态或者更多的未读(如时间、地点等)相结合,是一个很有意思的领域,有兴趣的朋友可以进一步了解。

关于YouTube推荐系统的论文学习

本文是2010年发表在RecSys上的文章。本文主要介绍的是YouTube的个性化推荐的相关内容。

用户使用YouTube一般有三个原因:

--看他们在其他地方找到的单一视频(直接导航);

--围绕某个主题(搜索和目标导向浏览)查看特定视频;

--受他们感兴趣内容的吸引。

推荐系统主要是针对第三点,目的是帮助用户发现他们感兴趣的高质量视频,并且推荐结果应该随时间和用户最近的行为更新。

在YouTube的推荐应用中,面临以下挑战:

--用户上传的视频的元信息非常少;

--视频时长比较短(一般小于10分钟);

--用户行为短暂、多变而且噪声很多;

--视频生命周期短。

这是YouTube的推荐和普通视频网站推荐不同的地方,这些挑战也是现在很多短视频公司关注的问题。

推荐系统算法应该保持时效性和新鲜性,另外,用户必须了解为什么向他们推荐视频,这样可以帮助用户根据自己的喜好改善推荐引擎。推荐的视频是通过用户的行为来生成的,用户的行为包括观看、收藏、喜欢等来作为种子视频,然后使用各种相关性和多样性的 signals 对视频集进行排序。推荐系统的工程设计方面,保持各个模块的独立性,并且还需要对故障具有恢复能力,并在出现部分故障时适度降级。

这里有2种数据可以考虑:

1)是内容数据视频流、视频元信息(标题,标签等);

2)用户行为数据,包括显性和隐性数据。前者是指用户评分、明确表示喜欢、不喜欢等行为,后者是浏览、观看等行为。

原始数据中还含有非常多的噪声,很多不可控因素会影响原始数据的质量。

作者将相关视频定义为用户在观看给定的种子视频 v 之后可能会观看的视频,使用关联规则挖掘技术来确定视频间的相关性。视频i和j的相关性定义为:

将用户观看过的视频、喜欢过的视频、收藏过的视频等等作为种子集合,对它们进行N级的级联扩展,也就是YouTube选择召回的不是1步相关视频,而是n-步相关视频,即种子视频迭代n次后得到的相关视频集合,产生广阔和多样的候选结果。

在生成一组候选视频后,需要对这些相关视频进行排序。

用于排序的数据主要包括:

--视频质量:包括观看次数、视频评分、评论、收视和上传时间等;

--用户特征:考虑用户观看历史记录中种子视频的属性,例如观看次数和观看时间等;

--多样性:要在被推荐的视频集合的类别中做一个平衡,以保持结果的多样性。

这些数据最终被线性组合起来,得到ranking的评分。

本文虽然是2010年发表的,近年来有很多内容升级复杂化了,但是作为初学者,本文的知识点和整体思路是非常值得学习的。当时的YouTube推荐系统的核心算法就是基于Item的协同过滤算法,也就是对于一个用户当前场景下和历史兴趣中喜欢的视频,找出它们相关的视频,并从这些视频中过滤掉已经看过的,剩下就是可以用户极有可能喜欢看的视频。

本文是Google的YouTube团队在推荐系统上DNN方面的尝试,发表在16年9月的RecSys会议。本文第1节介绍了YouTube推荐系统主要面临的挑战。第2节介绍了一个简要的系统概述。第3节更详细地描述了候选集生成模型,包括如何对其进行训练并用于提供推荐服务;实验结果显示模型添加特征和DNN深度后可以显著提升预测效果。第4节详细说明了排序模型,包括使用加权逻辑回归技术以训练预测预期观察时间的模型;实验结果表明,增加隐层网络宽度和深度都能提升模型效果。 最后,第5节做了总结。

-规模大:用户和视频的数量都很大,传统适合小规模的算法无法满足;

-新鲜度:要求对新视频作出及时和合适的反馈;

-噪音:YouTube上的历史用户行为由于稀疏性和各种不可观察的外部因素而不可预测。 我们很少能获得基本真实的用户满意度,更多的是隐式反馈噪声信号。

推荐系统的整体结构如图所示:

该系统由两个神经网络组成:一个用于候选集的生成,一个用于排序。候选集生成网络将用户的Youtube活动历史记录作为输入,然后从海量视频集中筛选出一小部分(数百个)以高精度与用户相关的视频。排序网络负责基于更加精细的特征对候选集进行排序,最后将最高得分的视频呈现给用户(按它们的得分排名)。

该模型把这个推荐问题转化成极端多分类问题:对于用户U和上下文C,把语料库V中的数百万个视频(分类)i,在时间t处做准确的分类,如下所示:

其中u为用户U的embedding表示,vi 代表各个候选视频的embedding。embedding是指稀疏实体(单个视频,用户等)到实数密集向量的映射;DNN的目标就是在用户信息和上下文信息为输入条件下学习用户的embedding向量u,这对于用softmax分类器来区分视频是有用的。

整个模型架构是包含三层全连接层,使用relu激活函数。把用户观看历史数据、搜索数据做一个embedding,加上age、gender等特征作为DNN的输入;输出分线上和离线训练两个部分。训练阶段使用softmax输出概率,在服务期间则直接使用接近最近邻搜索来进行生产候选的N个视频。

1)把用户观看过的视频id列表做embedding,并对所有历史观看视频ID的embedding做平均,得到观看embedding向量。

2)同时把用户搜索过的视频id列表也做如上的embedding,得到搜索embedding向量。

3)用户的人口统计学属性做embedding得到特征向量。

4)简单的二值和连续特征,例如用户的性别,登录状态和年龄作为归一化为[0,1]的实数值直接输入到网络中。

5)example age:机器学习系统总是利用历史的例子去预测未来,所以对过去总会有一个隐含的偏差。为了矫正偏差,YouTube把训练样本的年龄当作一个特征。

1.训练样本要用youtube上的所有视频观看记录,而不只是我们的推荐的视频的观看记录。

2.为每个用户生产固定数量的训练样本。

3.丢弃搜索信息的顺序,用无序的词袋表示搜索查询。

4.如下图,图(a)从历史观看记录中随机拿出来一个作为正样本来预测它,其余的历史观看记录作为上下文;这样其实泄露了未来的信息,并且忽略了任何非对称的消费模式。相反,图(b)是从用户的历史视频观看记录中随机拿出来一个作为正样本,然后只用这个视频之前的历史观看记录作为输入;这样的预测效果好得多。

– 深度为0:这时网络就是一个把连接起来的输入层转换一下,和softmax的256维输出对应起来

– 深度为1:第一层 256个节点,激活函数 是ReLU (rectified linear units 修正线性单元)

– 深度为2:第一层512个节点,第二层256个节点,激活函数都是ReLU

– 深度为3:第一层1024个节点,第二层512个节点,第三层256个节点,激活函数都是ReLU

– 深度为4:第一层2048个节点,第二层1024个节点,第三层512个节点,第四层256个节点,激活函数都是ReLU

实验结果如下图所示:

可以看出,特征选取较多时,并且模型深度在四层时,可以得到较好的结果。

排序阶段最重要的任务就是精准的预估用户对视频的喜好程度。在排序阶段面对的数据集比较小,因此会采用更多的特征来计算。

作者在排序阶段所设计的DNN和上文的DNN的结构是类似的,但在训练阶段对视频的打分函数不再是softmax,而是采用的逻辑回归。如下图所示:

1)特征工程

尽管神经网络能够减轻人工特征工程的负担,但是我们依然需要花费精力将用户及视频数据转化为有效的特征。其主要的挑战在于如何表示用户动作的时间序列以及这些动作如何与正被评分的视频展现相关。但是通过对用户和物品之间的交互行为,我们能提取出一些有用信息,比如: 用户从这个频道里看过多少视频,用户上次观看这个主题的视频是什么时候等。

2)embedding 离散特征

每个维度都有独立的embedding空间,实际并非为所有的id进行embedding,比如视频id,只需要按照点击排序,选择top N视频进行embedding,其余置为0向量;而当多值离散特征映射成embedding之后,像在候选集生成阶段一样,在输入网络之前需要做一下加权平均。另外一个值得注意的是,离散特征对应的ID一样的时候,他们的底层embedding也是共享的,其优势在于提升泛化能力、加速训练、减小内存占用等。

3)连续特征归一化

对连续值类的特征进行归一化,作者设计一种积分函数将特征映射为一个服从[0,1]分布的变量;还可以对某些特征进行取根号、取对数和取平方的相关操作,使得网络有更强的表达能力。

给定正负样本,正样本为有点击视频,负样本为无点击视频;用观看时长对正样本做了加权,负样本都用单位权重(即不加权);采用的是基于交叉熵损失函数的逻辑回归模型训练的。

上表显示了在保留数据集上用不同的隐层配置得到的结果,这些结果表明增加隐层的宽度提升了效果,增加深度也是一样。

本文内容方面,介绍了YouTube基于深度学习的推荐系统,先用视频和用户的主要信息通过深度候选生成模型从百万级视频中找出数百个相关的视频,再用视频和用户的其他信息通过深度排序模型从数百个视频中找出几十个最有可能受用户欢迎的视频给用户。这样使得推荐系统对用户喜好的刻画能力大大增强,刻画的范围更加广泛。

本文结构方面,从推荐系统的整体结构讲起,划分为候选集生成和排序两个阶段,然后对每个阶段详细地展开讲解。整体过程条理清晰,逻辑严密,值得我们学习。

上一篇:youtube上传(YouTube上传视频限制)

下一篇:youtube社区在哪里(youtube在哪下)

猜你喜欢