最新知识

关于youtube新传的论文(转载youtube要和原作者说嘛)

最新知识客服VX(coolfensi)2023-01-23 03:10:0870

20210329经济学人精读|中国的youtube—哔哩哔哩的发展与盈亏情况

本文节选自《经济学人》2021.3.27期Business版块的一篇文章《China’s YouTube》,简单介绍了bilibili营收及发展情况

联系方式:微信:coolfensi
(使用浏览器扫码进入在线客服窗口)
复制联系方式

本文总共6段,建议大家先自主阅读原文,再学习精读笔记。

文末会总结此次学习写作可以使用的词句,读者也可自己总结。 会定期将内容进行总结,做成word分享,希望大家也能坚持学习

1

The  mission statement  of Bilibili, often  dubbed  “China’s YouTube”, stands out for  its modesty. Instead of promising to change the world, the firm  aspires  merely  to  “enrich the everyday life of young generations in China”. If  user figures  are a guide, the Chinese young feel enriched. In the last quarter of 2020 the number of people who used the service at least once a month  shot up by half from a year earlier , to 202m. Nearly nine in ten were under the age of 35. Videos on the platform, which range from sports highlights to  self­help lectures  and everything in between, attract an average of 1.2bn  daily views .

mission statement : 宗旨说明,英文:an official statement of the aims of a company or an organization,即一家公司或组织的目标 【词汇积累】

dubbed : dub,称作,起绰号,A is dubbed被动形式表示……被称作 【词汇积累】

stand out for sth : 以……脱颖而出,引人注目 【词组积累】

aspire to do or sth : 立志于做某事 【词组积累】

user figures : 用户数据 【词汇积累】

shot up by half from a year earlier : shot up表示激增,猛涨,by half表示增长的量,表示比一年前猛增了一半 【词组积累】

self­help lectures : self-help表示自助的,可以表示自主学习课程 【地道表达】

1.2 bn daily views : 12亿每日观看次数 【地道表达】

 Bilibili,常被称作中国的YouTube,以其谦虚的公司宗旨而引人注目,他并非承诺改变世界,而只是希望“丰富中国年轻一代的日常生活”。如果以用户数据为依据,中国年轻人确实感受到了充实感。在2020年的最后一个季度,每月至少使用这项服务一次的人数比一年前猛增了一半,达到了2.02亿,将近十分之九的人年龄在35岁以下。该平台上的视频,从体育高光时刻到自主学习,以及介于两者之间的一切,平均每天吸引12亿人次观看。

2

Launched  in 2009 as a website for fans of Japanese anime, Bilibili has evolved into  a diversified entertainment group. In recent months even Western musicians (such as Jessie J and Charlie Puth) and Hollywood stars (including Dwayne Johnson) have  rushed to set up Bilibili accounts . Investors, too, have taken notice.  Between  March 2018, when the firm  listed  in New York,  and  February this year its market capitalization rose more than ten­fold, to $41bn. On March 23rd it raised $2.6bn in a secondary listing in Hong Kong.

Launch : 上市。除了发射(火箭)外,还有上市的意思,launched in 2009 于2009年上市。下文中的 list  in New York中的list也有上市的意思 【词汇积累】

evolved into : 进化成为 【词组积累】

rush to set up Bilibili accounts : rush to do争先箜篌地做某事,set up …… accounts则表示开设创建……的账号 【词组积累】

Between  ……  and  ……: 表示在……和……之间,可以为两个时间段之间 【词组积累】

Bilibili于2009年上市,是一家面向日本动漫迷的网站,现已发展成为一家多元化的娱乐集团。近几个月来,甚至连西方音乐家(Jessie J和Charlie Puth)和好莱坞明星(包括Dwayne Johnson)都争先恐后地开设了Bilibili账户。投资者也注意到了这一点。从2018年3月该公司在纽约上市到今年2月,其市值增长了10倍多,达到410亿美元。3月23日,在香港二次上市中筹集了26亿美元。

3

Unlike YouTube, Bilibili refuses to  clutter  user­generated videos with adverts. That way, the thinking goes, it can attract new users  put off by  such interruptions, and convince them to spend more time on the platform. The central aim, as described by executives, is to “convert” this “sticky community” into “paying users”. Bilibili does so in two main ways:  by offering games where   players purchase virtual items to advance to the next level , and access to original and licensed firms and series. This Netflix­like business, launched in 2018, now has 14.5m paying subscribers.

clutter : ~ sth (up) (with sth/sb) 凌乱地塞满;乱堆放to fill a place with too many things, so that it is untidy。文中指的是bilibili不会在用户上传的视频中,随意添加广告:clutter user-generated videos with adverts 【词汇积累】

put off by : 被……推迟,这里指的是bilibili运用不放广告的理念吸引那些被广告阻碍看视频的用户 【词组积累】

by offering games where players purchase virtual items to advance to the next level : 这里的定语从句where后面句子是完整的,不缺成分,where表示玩家在游戏中发生购买行为时的场所,也可以理解为in which

与YouTube不同,Bilibili拒绝在用户自制的视频中添加广告,这样做可以吸引新用户推迟这种中断,并说服他们花更多的时间在平台上。正如高管们所描述的,核心目标是将这个“粘性社区”转化为“付费用户”。Bilibili主要通过两种方式实现这一点:提供玩家购买虚拟物品以提升到下一个级别的游戏,以及访问原始和许可的公司和系列产品。这种类似Netflix的业务于2018年推出,目前拥有1450万付费用户。

4

The share of users who pay for things like in­game  accessories  and subscriptions has risen from 3.9% in 2018 to 8.0% in 2020. Receipts from these sources helped Bilibili nearly to  double its revenues in each of the past three years , to 12bn yuan ($1.7bn) in 2020. It also sells adverts on parts of its platform, but they made up less than fifth of its sales.

accessory : 配件、附属品,文中指游戏中的付费物品,in-game accessories 【词汇积累】

double its revenues in each of the past three years :: 在过去的三年中收入每年都翻了一番 【地道表达】

支付游戏内附属品和订阅费的用户比例从2018年的3.9%上升到2020年的8.0%。这些来源的收入帮助Bilibili在过去三年中每年的收入翻了一番,到2020年达到120亿元人民币(合17亿美元)。它也在部分平台上销售广告,但这些广告所占的份额还不到其销售额的四分之一。

5

All this has yet to make any money . Last year Bilibili reported an operating loss of 3bn yuan, double the  shortfall  in 2019. Profits may remain elusive; the company must invest to maintain a pipeline of addictive games and  pays top dollar  to  outbid  big streamers like iQiyi  for  the rights to popular movies and shows its  nascent subscription business needs.

All this has yet to make any money : 然而这还没有赚到一分钱

Shortfall : 亏空,缺口 【词汇积累】

pays top dollar : 付高价 【词汇积累】

outbid sb for sth : 出价高于某人 【词组积累】

nascent : 新生的,萌芽的 【词汇积累】

然而所有这些都还没有赚到钱。去年,Bilibili公布了30亿元的经营亏损,是2019年亏损额的两倍。利润可能仍然难以捉摸;该公司必须通过投资维持游戏渠道,并支付高价,以超过爱奇艺等大型流媒体,获得热门电影的版权,并展示其新生的订阅业务需求。

6

Bilibili’s executives are  sanguine . “As our net revenues continue to grow, we do not expect our total content costs as a percentage of total revenue to  substantially  increase,” they wrote in the prospectus  for the firm’s Hong Kong listing. Its share price, down by a third since its February peak, suggests investors want finally to see some proof.

Sanguine : 充满信心的,乐观的 【词汇积累】

Substantially : 除了基本上,总体来说,还有大大地,大幅地 【熟词僻义】

Prospectus : 招股书

Bilibili的高管们很乐观。“随着我们的净收入继续增长,我们不希望我们的总内容成本占总收入的百分比大幅增加,”他们写道,在该公司的香港上市的招股书。该公司股价自2月份高点以来下跌了三分之一,这表明投资者终于希望看到一些证据。

总结

mission statement : 宗旨说明,英文:an official statement of the aims of a company or an organization,即一家公司或组织的目标 【词汇积累】

dubbed : dub,称作,起绰号,A is dubbed被动形式表示……被称作 【词汇积累】

user figures : 用户数据 【词汇积累】

Launch : 上市。除了发射(火箭)外,还有上市的意思,launched in 2009 于2009年上市。下文中的 list  in New York中的list也有上市的意思 【词汇积累】

clutter : ~ sth (up) (with sth/sb) 凌乱地塞满;乱堆放to fill a place with too many things, so that it is untidy。文中指的是bilibili不会在用户上传的视频中,随意添加广告:clutter user-generated videos with adverts 【词汇积累】

accessory : 配件、附属品,文中指游戏中的付费物品,in-game accessories 【词汇积累】

Shortfall : 亏空,缺口 【词汇积累】

pays top dollar : 付高价 【词汇积累】

nascent : 新生的,萌芽的 【词汇积累】

Sanguine : 充满信心的,乐观的 【词汇积累】

stand out for sth : 以……脱颖而出,引人注目 【词组积累】

aspire to do or sth : 立志于做某事 【词组积累】

shot up by half from a year earlier : shot up表示激增,猛涨,by half表示增长的量,表示比一年前猛增了一半 【词组积累】

evolved into : 进化成为 【词组积累】

rush to set up Bilibili accounts : rush to do争先箜篌地做某事,set up …… accounts

则表示开设创建……的账号 【词组积累】

Between  ……  and  ……: 表示在……和……之间,可以为两个时间段之间 【词组积累】

outbid sb for sth : 出价高于某人 【词组积累】

put off by : 被……推迟,这里指的是bilibili运用不放广告的理念吸引那些被广告阻碍看视频的用户 【词组积累】

Substantially : 除了基本上,总体来说,还有大大地,大幅地 【熟词僻义】

self­help lectures : self-help表示自助的,可以表示自主学习课程 【地道表达】

1.2 bn daily views : 12亿每日观看次数 【地道表达】

double its revenues in each of the past three years :: 在过去的三年中收入每年都翻了一番 【地道表达】

急!谁能帮我在龙源期刊网找篇文章 2009年第4期《东南学术》 题目是“论新媒体时代传者与受者的身份趋同”

论新媒体时代传者与受者的身份趋同字数

东南学术 2009年4期

摘要:新媒体环境下,受众向内容制作者转变,分析关于这一现象的若干研究案例及其研究方法之优劣,不难看出:“使用与满足”学说已经无法适应当前的实际研究需求;在进一步的研究不应忽略资本和政治经济权力对新生的互动媒体所产生的影响;把传受过程结合在一起的“Produsage”,也许是能更好地理解传受趋同现象的一种研究路径。

关键词:用户自创内容;user generated content(UGC);主动受众;新媒体;研究方法

中图分类号:G206 文献标识码:A 文章编号:1008—1569(2009)04—0166—03

一、研究缘起和文献综述

近年来,受众研究领域的许多成果已经表明,观众(audienecs)或参与者(participants)不仅仅是被动地接收信息,他们开始用不同的手段创建媒体内容(Blog博客、YouTube视频、nickr图片)并通过各种社交软件与他人共享,形成自己的传播渠道。在当前web2.0的传播环境下,这种实质意义上的双向传播不仅挑战了传统媒体的操作模式,也对民主社会、经济和法律框架有着深刻的影响。

目前国内外对于受者变身传者(adicnces as producers)的研究所关注的焦点是用户自创内容(UGC—user generated content),也被称作消费者自创内容。遗憾的是,尽管各种形式的UGC最初总是出自于免费分享的目的,但是一旦它们在新媒体中吸引了眼球,就会迅速被商业渗透,成为新的谋利平台。为了扩大受众群,适应用户的多样性,像英国广播公司(BBC)这样的媒体巨头也在寻求建立这一平台,以服务现有观众并吸引潜在观众。业界的需求呼唤能够充分解释UGC行为的有力研究,但实际上大部分研究都只是应用传统媒体工业时代的分析框架,鲜有引发深思的批判视角。

现有的uGC研究主要集中在使用者创造媒体产品的行为特征、这些产品带来的经济效应以及对形成网络公共领域所产生的影响等。本文旨在提供针对UGC主体研究的概述,并批判地分析各研究中使用的方法,例如使用与满足理论(Li,2005),修正的自我表露理论(Fung,2006),或“produsage”——这个由布伦斯(Brans,2007)自造的词用“produce”+“usage”(生产与使用合二为一)来表明同时性生产和使用的混合形态。限于篇幅,本文只能集中讨论此主题的热点问题,评述相关研究的优劣,探寻比较科学的研究方法。

二、关于UGC的四个研究案例

根据每日更新的全球点击量最大的网站排行榜,Youtube和Wikipedia(维基百科)名列第三和第七。这些提供用户自创内容(UGC)的免费网站为什么能够吸引这么多人呢?关于UGC的研究力图解释这一新媒体环境下的重要现象,以下将重点概述其中四个研究案例。

案例1:德国学者Stoeckl(et al.2007)和他的同事们试图找出博客及视频制作者与那些不生产内容的“纯用户”之间的区别。他们认为UGC最让人振奋的特点就是:“消费者现在成为了制作者”、“创造并不是为了马上获利”、“UGC最终还是面向大众的”。

此研究应用“使用与满足”学说作为理论基础。这个学说假定人们是根据自己的需求而主动、有目标地使用媒介的(Katz and Blumler,1974)。此研究发出的在线调查被792人下载,其中489人完成了问卷。通过质化和量化的研究,发现博客和视频制作者谈到创作动机时最经常使用三个原因:纪录生活,娱乐,自我表达。相反,那些专业“潜水员”不生产内容的原因是:不愿付出机会成本和时间成本,以及担心隐私可能被侵犯。

案例2:同样,Li(2005)所做的研究也是立足于使用与满足框架上的。博主认同的开博动机包括:自我纪录、提高写作水平、自我表达、媒介诉求、获取信息、社交需求。

和第一个案例相似,Li的研究得到了60%的答复率。某些动机与特定的使用博客的方式有强关联。出于自我纪录动机的人倾向于设置反馈管理、使用鲜明个性的表达,以及期望读者量;而那些想要提高写作技能的人的博客就没有那么强的互动;寻求自我表达的博主甚至会在博客中加入设计的元素;强调信息诉求的博主往往添加超链接等。此研究还发现,博客中存在较强的性别差异,男性更倾向于信息诉求,而女性更多选择自我纪录、自我表达以及消磨时间;而年龄与自我纪录、自我表达和消磨时间的动机成负相关。

案例3:与上述两个案例不同,Fung在2006年所做的研究采用了“修正的自我表露”(re-vised self—disclosure)(WheeIess and Grots,1976)理论,调查了545个香港本地的博客。使用博客的满足感实际上标明了多种维度的自我表露,特别是自我满足和自我表达。研究表明。经常使用博客的人倾向于表露私密和个人事务。年轻女性拥有更长的博客经验。

案例4:任职于澳大利亚昆士兰科技大学的阿克塞尔·布伦斯(Axel Bruns)在2007年提出的“Produsage”模式在本领域中得到了广泛的关注。在Produsage模式下,所谓“产品”(pro-duction)已经不是工业时代的那种具体的完成品了,而是动态的produsage过程中一个临时的作品:就像维基百科(Wikipedia)某词条最新编辑过的一个页面、由开源软件设计者刚刚发出来的一个软件包、创作共用(Creative Commons)授权框架下的一组原创设计,这些都不是传统意义上规模化生产的“产品”,而是网络用户随用随创的“作品”,创作目的和作品形态的不同所带来的观念上的转变必须引起研究者的注意。

三、对于案例的分析

在数字媒体时代,受众拥有独特的解读媒体内容的方式。随着互联网的全球性普及,探寻传受互动中受者向传者转变的本质已成为受众研究的新热点。以上案例都是在规范的研究框架下通过翔实调查得出的审慎结论,但是,在样本选取、方法使用、理论运用等方面,显然还存在着一些不足之处。

样本选取方面,Stoeckl等人的调查所选取的样本是隶属于传统媒体的电子平台,如英国较保守的《卫报》(Guardian)网站,以及德国杂志Neon的网站。就像世界上许多其他传统媒体一样,网站上的内容其实还是由编辑人员选取和审查的,就算你能在网站上发表文章,但这些文章在原报或原刊上得以发布的机会也是微乎其微的。在中国情况也是如此,新闻线索往往是在传统媒体的追踪下被放大的,所以从这个意义上说,使用者变身媒体生产者,是限于一定的活动范围之内的(网络中),其影响力要扩散,还需要特殊的催化条件。

研究方法上,问卷可信度及统计上的抽样偏差依然存在。UGC领域的研究对象集中于年轻人身上,因为他们更精通新媒体的技巧,并有更积极的参与意识。新媒体环境下的传播技能的复杂性限制了积极参与者的数量和年龄,大部分公众还是通过报纸、广播、电视来获取信息。因此,除了尽可能减少统计软件的误差,更重要的任务是改进研究方法,尽可能设定合理的抽样范围,力求得到更加客观的结论。

这些研究还有一个共同的缺陷,就是对于管理层权力的忽视。众所周知,大众传播还是处于一些政治经济力量实体的控制之下的。拉扎斯菲尔德和默顿(Lazarsfeld&Merton,1948)认为,社会和心理机制决定了受众对媒体的需求和使用⒀。戴维·莫利(Morley,1985)指出:“观众诠释意义的能力,和中央集权的媒体机构建构文本的力量相比,简直是不值一提。”在当今新媒体受众研究的语境下,要完全抛开行政管理方面的力量,还为时尚早。

从理论框架上来看,应用“使用与满足”学说并非不妥,然而,如果用它来检验从受者到传者的角色转变,就显出不足来——由于此理论最初是用来考量二战期间美国日间广播系列剧对于受众的影响的,其出发点是媒介强效果论,现在看来,已经有些过时了。

研究新媒体时代的受众,理解受者向传者的过渡,还应从Produsage开始。正如上文所概括的那样,Produsage克服了“内容生产”这个概念从工业时代到信息时代转变的过程中所无法解决的制度性问题。它为理解数字环境下的“协同内容创新”(collaborative content creation)及其发展实践提供了一条新的研究道路。

当然,现在就认为新媒体能够完全颠覆传统意义上的传者和受众的关系还为时尚早,看看以下几个例子:鲁伯特·默多克的新闻集团收购了最成功的社交网站MySpace,流量最大的图片分享网站Flickr被雅虎并购,极富创新意识的视频分享网站Youtube也拱手出让给谷歌……技术和创新在资本的威力面前纷纷缴械,这是信息时代还未进化完全的悲哀吗?传者和受者之间那道看似无法逾越的鸿沟,会被用户之间的免费分享特性所弥补吗?这些都是开放的命题,在web2.0时代,没有人敢预言5年以后会发生什么,雨后春笋般的媒体现象,正是激发学者研究热情的源泉所在。

Youtube DNN经典论文

最近在看王喆的知乎专栏,第三、四、十三篇都是Youtube的经典论文DNN:    

跟着大佬又回顾了一下,发现之前真的只能算是一知半解,趁着这次把对这篇论文的新的理解记录一下,可能还会有一些错误。

论文讲解了在召回和精排两个阶段的模型:

召回:

先从特征说起:用户观看过的video的embedding,用户搜索词的embedding,用户的地理位置、年龄等side_infomation,还有exampl_age这个需要解释的特征

然后是模型:三层DNN

最后是training的loss:softmax做分类

serving的方式:nearest neighbor

里面其实有很多疑点:

1.example_age是什么

这个点专栏里说是训练时间 - 得到这条样本的时间(视频点击时间),但是我觉得这样表达不出“新视频”这个概念,也不知道用当前时间去减是啥意思,label是点击那一刻打上去的,又不是训练的时候;

所以我觉得这个example age应该是点击时间-上架时间,表示用户对新上架视频的偏好,用这个特征去捕获这个偏好了,在serve的时候全都置为0就可以消除这个偏好,毕竟这是召回阶段,可以多召回些东西。(这样就是消除用户对新视频的偏好了?)

2.为什么要做多分类,而不是预测分,多分类的话有海量视频,性能怎么保证

为什么要做多分类,而不是把样本的embedding也给到网络里做打分,这一点我是真的没弄明白;

海量视频的多分类性能的提升是用到了sampled softmax,可以参考   总的来说就是通过Q(y|x)采样出一个子集,对子集计算logits,然后用计算结果F(x,y)-log(Q(y|x))可以表示原数据集上的logits

3.serving阶段为什么不做多分类了,而是做nearest neighbor

这里首先要弄明白serving阶段的user embedding和video embedding是什么,user_embedding是最后一层relu之后的结果,比如是一个d维的向量;然后要得到一个几百万维(用d_N表示)的向量,需要过一个d*d_N维的矩阵,这个矩阵的每一列训练完之后就是video embedding;如果是serving的阶段依然是和每一列相乘,再算一个softmax,既然分母是一样的,取指数的操作也是一样的,那么就直接做点积就好了。

排序:

先从特征说起:当前排序的video的embedding,用户观看过的video的embedding,用户和video的语言embedding,time since last watch是自上次观看同channel视频的时间,previous impressions是该视频已经被曝光给该用户的次数(这里已经引入了负反馈的思路)

然后是模型:三层DNN

最后是training的loss:weighted logistic

serving的方式:e^(Wx+b)

这里面也有一些疑点:

1.training时候的weighted logistic是什么,为什么serving的时候用的是e^(Wx+b)

这个点是我重读的时候最没理解的地方,先尝试写一下,这里首先要搞清楚weighted logitstic是什么,那先回顾一下LR的公式的由来是log(odds) = w*x;这里的odds=p/(1-p)表示正样本发生的概率/负样本发生的概率;在weighted LR里面这个odds要变成W*p/(1-p)这里的W就是给正样本加的权重,至于为什么是这样有一种解释是用正负样本比去解释的,我觉得不是很合理 ;但是如果能够接受这个odds的话,那么log(odds) = w*x就可以得到odds = e^(wx),后者就是serving的目标;

再说W*p/(1-p)是什么,这里W权重是这条视频的时长T,那么sum(Ti*pi)就是E(T)即时长的期望,E(T)/(1-p)泰勒展开就是E(T)*(1+p)这里的p很小的话其实就是E(T)也就是说serving的时候其实得到的就是观看时长的期望,这里如果用到电商里用price去加权,得到的应该也是对price的预估。

还是非常建议多去看一下十大工程问题那篇专栏,讲到了更多,比如对每个用户提取等数量的训练样本、把大量长尾video的embedding置0这些方法的出发点。

关于youtube新传的论文(转载youtube要和原作者说嘛) 第1张

关于YouTube推荐系统的论文学习

本文是2010年发表在RecSys上的文章。本文主要介绍的是YouTube的个性化推荐的相关内容。

用户使用YouTube一般有三个原因:

--看他们在其他地方找到的单一视频(直接导航);

--围绕某个主题(搜索和目标导向浏览)查看特定视频;

--受他们感兴趣内容的吸引。

推荐系统主要是针对第三点,目的是帮助用户发现他们感兴趣的高质量视频,并且推荐结果应该随时间和用户最近的行为更新。

在YouTube的推荐应用中,面临以下挑战:

--用户上传的视频的元信息非常少;

--视频时长比较短(一般小于10分钟);

--用户行为短暂、多变而且噪声很多;

--视频生命周期短。

这是YouTube的推荐和普通视频网站推荐不同的地方,这些挑战也是现在很多短视频公司关注的问题。

推荐系统算法应该保持时效性和新鲜性,另外,用户必须了解为什么向他们推荐视频,这样可以帮助用户根据自己的喜好改善推荐引擎。推荐的视频是通过用户的行为来生成的,用户的行为包括观看、收藏、喜欢等来作为种子视频,然后使用各种相关性和多样性的 signals 对视频集进行排序。推荐系统的工程设计方面,保持各个模块的独立性,并且还需要对故障具有恢复能力,并在出现部分故障时适度降级。

这里有2种数据可以考虑:

1)是内容数据视频流、视频元信息(标题,标签等);

2)用户行为数据,包括显性和隐性数据。前者是指用户评分、明确表示喜欢、不喜欢等行为,后者是浏览、观看等行为。

原始数据中还含有非常多的噪声,很多不可控因素会影响原始数据的质量。

作者将相关视频定义为用户在观看给定的种子视频 v 之后可能会观看的视频,使用关联规则挖掘技术来确定视频间的相关性。视频i和j的相关性定义为:

将用户观看过的视频、喜欢过的视频、收藏过的视频等等作为种子集合,对它们进行N级的级联扩展,也就是YouTube选择召回的不是1步相关视频,而是n-步相关视频,即种子视频迭代n次后得到的相关视频集合,产生广阔和多样的候选结果。

在生成一组候选视频后,需要对这些相关视频进行排序。

用于排序的数据主要包括:

--视频质量:包括观看次数、视频评分、评论、收视和上传时间等;

--用户特征:考虑用户观看历史记录中种子视频的属性,例如观看次数和观看时间等;

--多样性:要在被推荐的视频集合的类别中做一个平衡,以保持结果的多样性。

这些数据最终被线性组合起来,得到ranking的评分。

本文虽然是2010年发表的,近年来有很多内容升级复杂化了,但是作为初学者,本文的知识点和整体思路是非常值得学习的。当时的YouTube推荐系统的核心算法就是基于Item的协同过滤算法,也就是对于一个用户当前场景下和历史兴趣中喜欢的视频,找出它们相关的视频,并从这些视频中过滤掉已经看过的,剩下就是可以用户极有可能喜欢看的视频。

本文是Google的YouTube团队在推荐系统上DNN方面的尝试,发表在16年9月的RecSys会议。本文第1节介绍了YouTube推荐系统主要面临的挑战。第2节介绍了一个简要的系统概述。第3节更详细地描述了候选集生成模型,包括如何对其进行训练并用于提供推荐服务;实验结果显示模型添加特征和DNN深度后可以显著提升预测效果。第4节详细说明了排序模型,包括使用加权逻辑回归技术以训练预测预期观察时间的模型;实验结果表明,增加隐层网络宽度和深度都能提升模型效果。 最后,第5节做了总结。

-规模大:用户和视频的数量都很大,传统适合小规模的算法无法满足;

-新鲜度:要求对新视频作出及时和合适的反馈;

-噪音:YouTube上的历史用户行为由于稀疏性和各种不可观察的外部因素而不可预测。 我们很少能获得基本真实的用户满意度,更多的是隐式反馈噪声信号。

推荐系统的整体结构如图所示:

该系统由两个神经网络组成:一个用于候选集的生成,一个用于排序。候选集生成网络将用户的Youtube活动历史记录作为输入,然后从海量视频集中筛选出一小部分(数百个)以高精度与用户相关的视频。排序网络负责基于更加精细的特征对候选集进行排序,最后将最高得分的视频呈现给用户(按它们的得分排名)。

该模型把这个推荐问题转化成极端多分类问题:对于用户U和上下文C,把语料库V中的数百万个视频(分类)i,在时间t处做准确的分类,如下所示:

其中u为用户U的embedding表示,vi 代表各个候选视频的embedding。embedding是指稀疏实体(单个视频,用户等)到实数密集向量的映射;DNN的目标就是在用户信息和上下文信息为输入条件下学习用户的embedding向量u,这对于用softmax分类器来区分视频是有用的。

整个模型架构是包含三层全连接层,使用relu激活函数。把用户观看历史数据、搜索数据做一个embedding,加上age、gender等特征作为DNN的输入;输出分线上和离线训练两个部分。训练阶段使用softmax输出概率,在服务期间则直接使用接近最近邻搜索来进行生产候选的N个视频。

1)把用户观看过的视频id列表做embedding,并对所有历史观看视频ID的embedding做平均,得到观看embedding向量。

2)同时把用户搜索过的视频id列表也做如上的embedding,得到搜索embedding向量。

3)用户的人口统计学属性做embedding得到特征向量。

4)简单的二值和连续特征,例如用户的性别,登录状态和年龄作为归一化为[0,1]的实数值直接输入到网络中。

5)example age:机器学习系统总是利用历史的例子去预测未来,所以对过去总会有一个隐含的偏差。为了矫正偏差,YouTube把训练样本的年龄当作一个特征。

1.训练样本要用youtube上的所有视频观看记录,而不只是我们的推荐的视频的观看记录。

2.为每个用户生产固定数量的训练样本。

3.丢弃搜索信息的顺序,用无序的词袋表示搜索查询。

4.如下图,图(a)从历史观看记录中随机拿出来一个作为正样本来预测它,其余的历史观看记录作为上下文;这样其实泄露了未来的信息,并且忽略了任何非对称的消费模式。相反,图(b)是从用户的历史视频观看记录中随机拿出来一个作为正样本,然后只用这个视频之前的历史观看记录作为输入;这样的预测效果好得多。

– 深度为0:这时网络就是一个把连接起来的输入层转换一下,和softmax的256维输出对应起来

– 深度为1:第一层 256个节点,激活函数 是ReLU (rectified linear units 修正线性单元)

– 深度为2:第一层512个节点,第二层256个节点,激活函数都是ReLU

– 深度为3:第一层1024个节点,第二层512个节点,第三层256个节点,激活函数都是ReLU

– 深度为4:第一层2048个节点,第二层1024个节点,第三层512个节点,第四层256个节点,激活函数都是ReLU

实验结果如下图所示:

可以看出,特征选取较多时,并且模型深度在四层时,可以得到较好的结果。

排序阶段最重要的任务就是精准的预估用户对视频的喜好程度。在排序阶段面对的数据集比较小,因此会采用更多的特征来计算。

作者在排序阶段所设计的DNN和上文的DNN的结构是类似的,但在训练阶段对视频的打分函数不再是softmax,而是采用的逻辑回归。如下图所示:

1)特征工程

尽管神经网络能够减轻人工特征工程的负担,但是我们依然需要花费精力将用户及视频数据转化为有效的特征。其主要的挑战在于如何表示用户动作的时间序列以及这些动作如何与正被评分的视频展现相关。但是通过对用户和物品之间的交互行为,我们能提取出一些有用信息,比如: 用户从这个频道里看过多少视频,用户上次观看这个主题的视频是什么时候等。

2)embedding 离散特征

每个维度都有独立的embedding空间,实际并非为所有的id进行embedding,比如视频id,只需要按照点击排序,选择top N视频进行embedding,其余置为0向量;而当多值离散特征映射成embedding之后,像在候选集生成阶段一样,在输入网络之前需要做一下加权平均。另外一个值得注意的是,离散特征对应的ID一样的时候,他们的底层embedding也是共享的,其优势在于提升泛化能力、加速训练、减小内存占用等。

3)连续特征归一化

对连续值类的特征进行归一化,作者设计一种积分函数将特征映射为一个服从[0,1]分布的变量;还可以对某些特征进行取根号、取对数和取平方的相关操作,使得网络有更强的表达能力。

给定正负样本,正样本为有点击视频,负样本为无点击视频;用观看时长对正样本做了加权,负样本都用单位权重(即不加权);采用的是基于交叉熵损失函数的逻辑回归模型训练的。

上表显示了在保留数据集上用不同的隐层配置得到的结果,这些结果表明增加隐层的宽度提升了效果,增加深度也是一样。

本文内容方面,介绍了YouTube基于深度学习的推荐系统,先用视频和用户的主要信息通过深度候选生成模型从百万级视频中找出数百个相关的视频,再用视频和用户的其他信息通过深度排序模型从数百个视频中找出几十个最有可能受用户欢迎的视频给用户。这样使得推荐系统对用户喜好的刻画能力大大增强,刻画的范围更加广泛。

本文结构方面,从推荐系统的整体结构讲起,划分为候选集生成和排序两个阶段,然后对每个阶段详细地展开讲解。整体过程条理清晰,逻辑严密,值得我们学习。

上一篇:youtube去广告插件(youtube客户端去广告)

下一篇:如何找到自己的G.点(如何找到自己的G点)

猜你喜欢