YouTubeup主论文带读（youtubeup主推荐）

最新知识客服VX（coolfensi）2023-01-24 01:05:1384

4个高效阅读论文的技巧总结

这篇谈论阅读论文的技巧是我在B站上看到一个视频的总结。

联系方式：微信：coolfensi
（使用浏览器扫码进入在线客服窗口）
复制联系方式

首先要搞清论文的基本结构论文的基本结构包括摘要、引言、相关工作/研究现状、主体章节、讨论、结论、参考文献、附录这八个环节。通过了解论文的基本结构，可以把控制论文的核心内容，可以对自己精读还是泛读论文的内容便于很快找到相应的部分。

因为up主本身是学理科的，所以它对理工科与文科加以的基本区别，其实理工科主要侧重于试验，而文科侧重于对材料的分析和把控。

当然了，阅读论文还要依据自己的目的。并不是所有的论文都是需要泛读，也不是所有的论文都是需要精读。依据自己的情况做出决断，提高效率又节省时间。

如果本身已经有研究方向，或者是想要做的实验，那么所要找到的论文需要精读一遍以上，不仅要明白其中的内涵，更要解剖麻雀般的阅读搞清其中里面的结构。

如果仅仅是出于拓展自己的知识面，那么文献的阅读只是需要在贩毒的基础上，在有选择的进行精读即可。

还有一种情况，如果是出于写文献综述，查找相应的资料，这个时候如果精读消耗精力，阅读量又特别大，我们只是需要阅读，其中的摘要结论筛选出自己想要的内容即可，其实通过阅读这些部分就可以把握论文的主体意识，也能够找到自己所需的部分。

对于文献阅读up主总结出了‘读三遍’法——文献泛读、略读、精读。

第一遍阅读进行文献泛读，目的是为了解核心思想，判断是否有需要自己的论文。这一步做的工作是搜索工作，阅读一篇文献论文，通过花费5到10分钟的时间阅读相应的标题、摘要、结论部分，快速的扫阅参考文献，勾出相关的文章。

第二遍阅读是文献略读，目的是能自己总结论文的部分，与前任相关的工作联系起来。这个时候需要阅读相应的引言以及相关的工作部分，把时间控制在半个小时之内，阅读相应的表格，特别是总体架构图如果是文科论文，可以阅读相应的标题部分已经每段的第一句把控整体结构。

第三遍阅读是文献精读，通过前两遍已经找到自己所需要的论文，这次阅读的目的是能够总结文献的优势和不足，从别人的论文中找到启发自己研究工作的创新点。这个论文阅读的时间取决于文献长短及阅读的次数，因为是精读，质量放在最紧要的位置。带着问题去阅读，想一想作者为什么要做这个工作？也要深入理解文章各部分详细的内容，以及之间的相互联系。

当然了，阅读文献也要摆正心态可以设定一个相应的时间，也可以找到一个小伙伴。因为阅读文献是自己的研究和工作所需，而论文本身，由于其学术性的要求往往是很枯燥的。

最后总结一下，掌握阅读论文的方法，控制阅读论文的时间，摆正阅读论文的心态。如果真的要把一篇论文精益求精般的掌握住，核心要旨，还需要反复多读细加揣摩方得其精要。

我大学期间写过很多论文，但是很多论文基本上都不叫论文，最多算是读书报告，或者是作业。如果就我来说，真正称得上论文的事，我大学毕业所写的论文。工作之后也阅读了不少论文，但是对于论文怎么阅读也一直在思考的问题，也一直在不断的向别人学习阅读的方式和方法。分享给大家，作为参考。做一份总结也是对自己阅读论文方法的提升。

Youtube DNN经典论文

最近在看王喆的知乎专栏，第三、四、十三篇都是Youtube的经典论文DNN：

跟着大佬又回顾了一下，发现之前真的只能算是一知半解，趁着这次把对这篇论文的新的理解记录一下，可能还会有一些错误。

论文讲解了在召回和精排两个阶段的模型：

召回：

先从特征说起：用户观看过的video的embedding，用户搜索词的embedding，用户的地理位置、年龄等side_infomation，还有exampl_age这个需要解释的特征

然后是模型：三层DNN

最后是training的loss：softmax做分类

serving的方式：nearest neighbor

里面其实有很多疑点：

1.example_age是什么

这个点专栏里说是训练时间 - 得到这条样本的时间（视频点击时间），但是我觉得这样表达不出“新视频”这个概念，也不知道用当前时间去减是啥意思，label是点击那一刻打上去的，又不是训练的时候；

所以我觉得这个example age应该是点击时间-上架时间，表示用户对新上架视频的偏好，用这个特征去捕获这个偏好了，在serve的时候全都置为0就可以消除这个偏好，毕竟这是召回阶段，可以多召回些东西。（这样就是消除用户对新视频的偏好了？）

2.为什么要做多分类，而不是预测分，多分类的话有海量视频，性能怎么保证

为什么要做多分类，而不是把样本的embedding也给到网络里做打分，这一点我是真的没弄明白；

海量视频的多分类性能的提升是用到了sampled softmax，可以参考总的来说就是通过Q(y|x)采样出一个子集，对子集计算logits，然后用计算结果F(x,y)-log(Q(y|x))可以表示原数据集上的logits

3.serving阶段为什么不做多分类了，而是做nearest neighbor

这里首先要弄明白serving阶段的user embedding和video embedding是什么，user_embedding是最后一层relu之后的结果，比如是一个d维的向量；然后要得到一个几百万维(用d_N表示)的向量，需要过一个d*d_N维的矩阵，这个矩阵的每一列训练完之后就是video embedding；如果是serving的阶段依然是和每一列相乘，再算一个softmax，既然分母是一样的，取指数的操作也是一样的，那么就直接做点积就好了。

排序：

先从特征说起：当前排序的video的embedding，用户观看过的video的embedding，用户和video的语言embedding，time since last watch是自上次观看同channel视频的时间，previous impressions是该视频已经被曝光给该用户的次数（这里已经引入了负反馈的思路）

然后是模型：三层DNN

最后是training的loss：weighted logistic

serving的方式：e^(Wx+b)

这里面也有一些疑点：

1.training时候的weighted logistic是什么，为什么serving的时候用的是e^(Wx+b)

这个点是我重读的时候最没理解的地方，先尝试写一下，这里首先要搞清楚weighted logitstic是什么，那先回顾一下LR的公式的由来是log(odds) = w*x；这里的odds=p/(1-p)表示正样本发生的概率/负样本发生的概率；在weighted LR里面这个odds要变成W*p/(1-p)这里的W就是给正样本加的权重，至于为什么是这样有一种解释是用正负样本比去解释的，我觉得不是很合理；但是如果能够接受这个odds的话，那么log(odds) = w*x就可以得到odds = e^(wx)，后者就是serving的目标；

再说W*p/(1-p)是什么，这里W权重是这条视频的时长T，那么sum(Ti*pi)就是E(T)即时长的期望，E(T)/(1-p)泰勒展开就是E(T)*(1+p)这里的p很小的话其实就是E(T)也就是说serving的时候其实得到的就是观看时长的期望，这里如果用到电商里用price去加权，得到的应该也是对price的预估。

还是非常建议多去看一下十大工程问题那篇专栏，讲到了更多，比如对每个用户提取等数量的训练样本、把大量长尾video的embedding置0这些方法的出发点。

YouTube上的“知识盛宴” | 读书笔记

这本书2018年就出版了，不得不说，中文译名着实有点“标题党”，仿佛读完就能从中得到一套打造爆款视频的秘籍心法。然鹅，正如很多人读后对本书发出的戏谑评价，这本书更像是一本《YouTube热门视频简介》或者《油管发展史/故事会/观光指南》一类。

所以读这本书前，不妨就带着看科普的心态，了解油管历史上都有过哪些爆款视频，以及这些爆款视频是如何流行的。同时，本书的作者凯文 · 阿洛卡是YouTube文化和流行趋势部门的负责人，从平台（局内人）视角提供的一些洞察，尤其是关于教育类视频的分享，是非常有意思的。

几点洞察：

• 依托于人类旺盛的好奇心，how to（如何...）类视频通过强目的性的搜索入口源源不断的获得消费关注；

• 而另一种好奇心衍生物——解释类（科普）视频，如果是发问式的标题，如果还做的特别生动有趣，对人亦有难以抗拒的吸引力；

• 病毒视频往往与创意或内容品质无关，制造互动（评论、分享和模仿）才是。如何制造有意义的互动点，是视频创作者必须掌握的一项必备技能。

1、How to 类视频不可忽视的流量源泉：搜索

一个叫布伊的人凭借一条《如何打领带——双温莎结》在油管上竟然可以达到日均4万次的浏览量。背后的原因是，超过一半的浏览量都是使用关键词搜索的用户贡献。

什么是How to （如何...）类视频？简单的说就是方法类、教程类视频。而且这类视频半衰期极长，即使过去很长时间，依然能维持较高的热度，甚至是逆袭式的消费曲线。何谓半衰期？指我们所获得的收益随时间衰减的速度，半衰期长的事件，其影响会持续较久。

凯文说，YouTube上用户花在“教育”类视频的时间是“宠物和动物”的10倍。这个数据似乎有点反常识，这背后体现出，那些能帮助人们解决生活中一些反复出现的最基本问题的视频，其实有着非常大的消费潜力和生命力。每天数以百万计的YouTube搜索关键词当中包含了“如何”。

这些用户自发的行为也让YouTube不单单是消遣娱乐，同时变成了获取知识的资源库。结果是，“每当我们需要帮助，每当我们在生活中遇到搞不定的事，总有一款YouTube视频适合你。”

而国内目前承担相同功能角色的产品，哔哩哔哩、知乎、小红书各自都能满足部分，但是还没有一个足够丰富的视频网站，哔哩哔哩有最大的可能性。当然，在看到消费的趋势之后，视频平台显然已经在拥抱多元化，针对教育类视频开发特色的产品功能，创作者也迎来了前所未有的机会。

那么How to类视频，如何从众多同质视频中脱颖而出，获取流量青睐呢？这便非常考验创作者的脚本能力，能否在短短的几分钟内控制好视频节奏，用户看一遍就能学会。当然，标题要包含用户想要查找的核心关键词，为了在搜索排序上占优势，封面也要做的漂亮，让人有点击欲望。

2、解释类视频作者的本质：常识魔术师

除了教程类视频，还有一种和好奇心紧密相关的教育视频类型——解释类视频（或者叫做科普类视频）。如果说前者回答的是一个具体场景的具体问题，提问者带着强目的性而来，希望在短时间内得到解决，不达目的不罢休；后者回答的则是一些关乎身边常识的直观表达，这些主题可能没那么急迫需要得到解答，但也让人们深陷其中，难以摆脱对答案“一窥究竟”的心理。

“布朗和莫菲特与我们生命中遇到的好老师具备相同的素质：他们让学习基本抽象概念的过程变得生动有趣。”

向波老师，四川省广元中学高中化学老师，也是抖音知识类作者，2018年在抖音上传《恋爱中的化学》即获超2000万播放量，在短时间内，向波老师抖音粉丝上涨至600万。他讲化学的角度独特，不是一上来就讲知识，而是先从生活找到和化学的连接点，恋爱、护肤、手机、放屁，用这些勾起学生的兴趣，再恰到好处的引出化学知识，引得满堂哄笑，讲课风格深受学生欢迎。

和“科学来了”频道非常相似的一个国内的短视频IP、抖音知名科普达人“地球村讲解员”，科普关于地球的一切。在抖音上已经坐拥1205w粉丝。第一条视频《现行的世界地图有太多假象》 2018年7月一经发出就成了爆款，获得180w点赞，借助三维动画形式，颠覆常识，让人看完发出一声“原来如此”。后面的内容大多也都是一些自然、地理、人文冷知识，什么《海底藏着什么》，《金字塔怎么造》，看似无用，选题却正好卡在好奇点上。很多人在评论区留言从第一条一口气刷到最后。

19年6月突然火起来的B站up主我是何同学一条《5G到底有多快？》，成为红极一时的现象级视频。今年疫情期间，回形针PaperClip发布了一条视频《关于新冠肺炎的一切》，用10分18秒解释了这场打乱了数十亿人正常生活的新型冠状病毒肺炎，究竟是如何发生、传播和感染的，在抖音获得了282w点赞。还有已经今年B站火起来的半佛仙人，巫师财经都是一种定位。

---

当然，凯文也指出，解释类视频之所以成功，并不只是因为揭开了某个谜题，而在于为观众创造了一次互动机会。观众不仅喜欢包含谜题、视觉或听觉测试的视频，还喜欢能够制造互动的视频，如流行文化事件（比如，裙子的颜色），或者令人讶异的科学事实。

3、如何制造有意义的互动点，成为创作者

并不是说一个视频浏览量足够大，就能称之为病毒视频。病毒视频的特征在于，它必须是通过偶然的、无组织的人际或者网际网络，在很短的时间内达到流行的视频。

短时间内达到流行的关键，往往与创意或内容品质无关，而在于它是否能够最大限度地激发观众参与互动（评论、分享、模仿等等），可以说，在视频时代，制造互动，才能创造潮流。

如今，视频制作技术已经很发达了，一个视频的价值不再取决于它的技术含量，而是它能对我们的生活产生什么样的影响，让观众之间产生什么程度的互动。在制作视频时，创作者首先要考虑的便是如何鼓励观众之间进行互动，其他因素都得往后靠。

那么什么样的内容能引发用户的互动？表达自我个性、传递复杂情感、建立社会联系、加入互联网新潮流，都有这个可能。

再提最近大火的罗翔老师，罗翔老师的B站走红，就是表达一种对老师上课风格的喜爱。所谓 “快速破圈的神话” 实际上并不存在，冰冻三尺非一日之寒，所有的轻而易举实际上都是蛰伏蓄力已久。事实上，在平台一夜成名之前，就有大量的UGC作者把罗翔老师的课程片段剪辑搬运到了B站，讲课风格圈粉已久。

而罗翔老师“虽迟但到”的铁粉——法外狂徒张三，则更是成了B站用户们自娱自乐的素材起点。不仅有大量以张三名字注册的账号，还衍生出了“三三来迟、开门见三、好惨一张三……”等社区语言，成为一种B站独特的草根文化。

在有392万播放量的“张三史上最惨的一集”中，B站网友“迫害张三”模仿周星驰《唐伯虎点秋香》中的名对，总结了张三悲惨遭遇的冰山一角：一日二狗咬张三四五六口送去医院竟打七八九针假疫苗十分悲惨。

有时，视频内容引发的观众与观众之间、观众与创作者之间的互动，比视频的内容本身更重要。

YouTubeup主论文带读（youtubeup主推荐）第1张

怎样通过youtube学习？了解更大的世界

有些朋友无法访问 YouTube ，可以在网易公开课和 B 站上通过搜索关键字来观看这些视频。

昨晚大家都是怎么过的圣诞节

分享一些我订阅的频道吧，如果墙内有搬运就尽量也附上。YouTube真的是一座知识的无尽宝库，还没遇到对哪个领域里的好奇心是它满足不了的。

Crash Course

10分钟速成课。虽然已经有人推荐过了，但是还是忍不住要再推荐一次的良心频道。不是真的只有10分钟速成，而是每段视频十分钟，语速很快内容充实，一个系列课程多的有几十段组成。涉及领域包罗万千，哲学、心理学、历史、经济、政治、文学、艺术、工程、物理、化学、生物……应有尽有，虽然不能说内容有多深入，但能让你在几小时的时间里对某个领域有系统而粗略的了解。

墙内搬运很多，个人最推荐B站Up主白花恋诗·彩：

3Blue1Brown

数学为主。画面制作精良，声音婉转动听，叙述深入浅出，娓娓道来。从最基本的微积分、线性代数到复分析、拓扑学、深度学习，内容丰富，简洁而细致。最关键普通高中毕业生都能看懂的水平。

B站有官方账号：

MIT OpenCourseWare

顾名思义就是MIT的公开课了，内容当然主要来自麻省理工学院，各个科目都有，包罗万千。不过MIT公开课也有个官网：

墙内方面，近些年很多国内网站也有翻译和搬运，比如网易公开课。就不赘述了。

Yale Course

耶鲁的公开课。也有个官网，不过感觉访问没有YouTube顺滑。

墙内搬运同样集中于网易公开课。

Khan Academy

留学党的佛脚。和公开课性质有点类似，各种大学本科水平的课程，但个前两个不同，并非属于某个大学，而是由孟加拉裔美国人萨尔曼·可汗创立的教育性非营利组织。学课种类也很多，详见下图。有官方网站：

墙内：网易公开课_可汗学院

Vsauce、Vsauce2、Vsauce3

分别是Michael Stevens的各种有趣的科学视频、Kevin Lieber的各种有趣的科学视频、Jake Roper的各种关于科幻的视频。其中第一个是我推荐这些频道里唯一订阅数高达一千万以上的。这仨哥们可能有毒，整出来的视频让人上瘾。

B站：Vsauce科普小讲堂

;seid=5109786074142359192

SciShow

和上面那个不同，这个是三五分钟的短视频为主，最长也很少超过十分钟。内容更加大众化。

经评论热心网友提醒，B站红烧牛肉字幕组有搬运：

Kurzgesagt

Videos explaining things with optimistic nihilism. 官方简介的一句话感觉很妙，直接照抄过来，最后一个词的意思是虚无主义。简介还说是一个德国人的小团队用AE和AI做的，真的很精良质量很高。

很多大字幕组都有搬运 - 在B站搜索下关键字就能找到

MinuteEarth

分钟地球，每个视频几分钟的关于地球的一些知识。和Scishow类似。什么有些动物为什么吃屎，人类能活多久，河流为什么弯曲等等奇奇怪怪的问题都有，既有趣味性又有科学性。

B站搬运一搜一大把

minutephysics

分钟物理。几分钟的物理学视频。你可能觉得不可思议，在这个频道两分钟就可以简单的推导出公式E=mc²。

B站搬运一搜一大把

CGP Grey

来自评论的推荐，简单看了一下，连简介也没写…那就看下图：这个频道的视频按最热门排列。和下面几个频道有点类似。

B站有不少搬运

RealLifeLore

内容比较丰富，主要在历史、地理、经济、科学话题，简介：“Answers to questions that you've never asked. Mostly over topics like history, geography, economics and science. The world is an exciting place and there is so much to know.”

B站有一些搬运：- 搜索关键字

Vox

照搬官方简介：Vox helps you cut through the noise and understand what's driving events in the headlines and in our lives, on everything from Taxes to Terrorism to Taylor Swift. 超音速客机和谐为什么失败？中东问题是咋回事？香港住人的鸽子笼长啥样？为什么在古巴开出租比医生挣得多？这些问题在这里都能找到一个解释。

B站有一些搬运

Wendover Productions

“explaining how our world works”，其实和上面紧挨着那两个频道很相似。但是风格又有不同。我在这个频道看到了很多关于地理和交通的视频，比如美国的火车为什么差劲，空军一号每分钟烧钱两千多美元的原因，为什么飞机不飞得更快，各国的地理问题等等。

B站有一些搬运：

The School of Life

前面推荐的多是学习知识、增长见识，这个则是关于学习我们自己的，关于我们的心理健康，与别人的交往，恋爱中与恋人的关系。恋人关系如何能持续？什么是有意义的工作？如何冷静下来？甚至谁发起性行为，在这里都是被关注的话题。

B站有大量搬运

daily dictation

虽然YouTube的视频墙内很多有搬运，但有的搬运不完整不及时，很多人也更喜欢原汁原味，那听不懂怎么办？在这个频道练练听力吧。制作者Shane 是一个现居韩国的美国人，做这个“每日听写”已经六七年了。

使用方法很简单：每期会有一段来自电影、电视剧或电视节目等的听写素材，下一期会有答案、讲解，以及新一期的听写。（这是最开始两百多个视频的模式，后来也有变化）如此循环往复。亲测对提升听力水平效果很显著。

当然，这么优秀的学习材料有搬运：

先介绍这么多吧，其实还有不少，我目前订阅的一百多个频道至少有两成我都觉得非常值得推荐（其他大多数一般值得推荐），有时间再补充。

2018.11.12补充：MinuteEarth、minutephysics

2018.11.15补充：CGP Grey（来自评论推荐）、Vox、RealLifeLore、Wendover Productions 、The School of Life

2018.11.18补充：可汗学院（来自评论推荐）

你有什么觉得不错的 YouTube 频道可以在评论里推荐一下。

关于YouTube推荐系统的论文学习

本文是2010年发表在RecSys上的文章。本文主要介绍的是YouTube的个性化推荐的相关内容。

用户使用YouTube一般有三个原因：

--看他们在其他地方找到的单一视频（直接导航）；

--围绕某个主题（搜索和目标导向浏览）查看特定视频；

--受他们感兴趣内容的吸引。

推荐系统主要是针对第三点，目的是帮助用户发现他们感兴趣的高质量视频，并且推荐结果应该随时间和用户最近的行为更新。

在YouTube的推荐应用中，面临以下挑战：

--用户上传的视频的元信息非常少；

--视频时长比较短（一般小于10分钟）；

--用户行为短暂、多变而且噪声很多；

--视频生命周期短。

这是YouTube的推荐和普通视频网站推荐不同的地方，这些挑战也是现在很多短视频公司关注的问题。

推荐系统算法应该保持时效性和新鲜性，另外，用户必须了解为什么向他们推荐视频，这样可以帮助用户根据自己的喜好改善推荐引擎。推荐的视频是通过用户的行为来生成的，用户的行为包括观看、收藏、喜欢等来作为种子视频，然后使用各种相关性和多样性的 signals 对视频集进行排序。推荐系统的工程设计方面，保持各个模块的独立性，并且还需要对故障具有恢复能力，并在出现部分故障时适度降级。

这里有2种数据可以考虑：

1）是内容数据视频流、视频元信息（标题，标签等）；

2）用户行为数据，包括显性和隐性数据。前者是指用户评分、明确表示喜欢、不喜欢等行为，后者是浏览、观看等行为。

原始数据中还含有非常多的噪声，很多不可控因素会影响原始数据的质量。

作者将相关视频定义为用户在观看给定的种子视频 v 之后可能会观看的视频，使用关联规则挖掘技术来确定视频间的相关性。视频i和j的相关性定义为：

将用户观看过的视频、喜欢过的视频、收藏过的视频等等作为种子集合，对它们进行N级的级联扩展，也就是YouTube选择召回的不是1步相关视频，而是n-步相关视频，即种子视频迭代n次后得到的相关视频集合，产生广阔和多样的候选结果。

在生成一组候选视频后，需要对这些相关视频进行排序。

用于排序的数据主要包括：

--视频质量：包括观看次数、视频评分、评论、收视和上传时间等；

--用户特征：考虑用户观看历史记录中种子视频的属性，例如观看次数和观看时间等；

--多样性：要在被推荐的视频集合的类别中做一个平衡，以保持结果的多样性。

这些数据最终被线性组合起来，得到ranking的评分。

本文虽然是2010年发表的，近年来有很多内容升级复杂化了，但是作为初学者，本文的知识点和整体思路是非常值得学习的。当时的YouTube推荐系统的核心算法就是基于Item的协同过滤算法，也就是对于一个用户当前场景下和历史兴趣中喜欢的视频，找出它们相关的视频，并从这些视频中过滤掉已经看过的，剩下就是可以用户极有可能喜欢看的视频。

本文是Google的YouTube团队在推荐系统上DNN方面的尝试，发表在16年9月的RecSys会议。本文第1节介绍了YouTube推荐系统主要面临的挑战。第2节介绍了一个简要的系统概述。第3节更详细地描述了候选集生成模型，包括如何对其进行训练并用于提供推荐服务；实验结果显示模型添加特征和DNN深度后可以显著提升预测效果。第4节详细说明了排序模型，包括使用加权逻辑回归技术以训练预测预期观察时间的模型；实验结果表明，增加隐层网络宽度和深度都能提升模型效果。最后，第5节做了总结。

-规模大：用户和视频的数量都很大，传统适合小规模的算法无法满足；

-新鲜度：要求对新视频作出及时和合适的反馈；

-噪音：YouTube上的历史用户行为由于稀疏性和各种不可观察的外部因素而不可预测。我们很少能获得基本真实的用户满意度，更多的是隐式反馈噪声信号。

推荐系统的整体结构如图所示：

该系统由两个神经网络组成：一个用于候选集的生成，一个用于排序。候选集生成网络将用户的Youtube活动历史记录作为输入，然后从海量视频集中筛选出一小部分（数百个）以高精度与用户相关的视频。排序网络负责基于更加精细的特征对候选集进行排序，最后将最高得分的视频呈现给用户（按它们的得分排名）。

该模型把这个推荐问题转化成极端多分类问题：对于用户U和上下文C，把语料库V中的数百万个视频（分类）i，在时间t处做准确的分类，如下所示：

其中u为用户U的embedding表示，vi 代表各个候选视频的embedding。embedding是指稀疏实体（单个视频，用户等）到实数密集向量的映射；DNN的目标就是在用户信息和上下文信息为输入条件下学习用户的embedding向量u，这对于用softmax分类器来区分视频是有用的。

整个模型架构是包含三层全连接层，使用relu激活函数。把用户观看历史数据、搜索数据做一个embedding，加上age、gender等特征作为DNN的输入；输出分线上和离线训练两个部分。训练阶段使用softmax输出概率，在服务期间则直接使用接近最近邻搜索来进行生产候选的N个视频。

1）把用户观看过的视频id列表做embedding，并对所有历史观看视频ID的embedding做平均，得到观看embedding向量。

2）同时把用户搜索过的视频id列表也做如上的embedding，得到搜索embedding向量。

3）用户的人口统计学属性做embedding得到特征向量。

4）简单的二值和连续特征，例如用户的性别，登录状态和年龄作为归一化为[0,1]的实数值直接输入到网络中。

5）example age：机器学习系统总是利用历史的例子去预测未来，所以对过去总会有一个隐含的偏差。为了矫正偏差，YouTube把训练样本的年龄当作一个特征。

1.训练样本要用youtube上的所有视频观看记录，而不只是我们的推荐的视频的观看记录。

2.为每个用户生产固定数量的训练样本。

3.丢弃搜索信息的顺序，用无序的词袋表示搜索查询。

4.如下图，图(a)从历史观看记录中随机拿出来一个作为正样本来预测它，其余的历史观看记录作为上下文；这样其实泄露了未来的信息，并且忽略了任何非对称的消费模式。相反，图(b)是从用户的历史视频观看记录中随机拿出来一个作为正样本，然后只用这个视频之前的历史观看记录作为输入；这样的预测效果好得多。

– 深度为0：这时网络就是一个把连接起来的输入层转换一下，和softmax的256维输出对应起来

– 深度为1：第一层 256个节点，激活函数是ReLU （rectified linear units 修正线性单元）

– 深度为2：第一层512个节点，第二层256个节点，激活函数都是ReLU

– 深度为3：第一层1024个节点，第二层512个节点，第三层256个节点，激活函数都是ReLU

– 深度为4：第一层2048个节点，第二层1024个节点，第三层512个节点，第四层256个节点，激活函数都是ReLU

实验结果如下图所示：

可以看出，特征选取较多时，并且模型深度在四层时，可以得到较好的结果。

排序阶段最重要的任务就是精准的预估用户对视频的喜好程度。在排序阶段面对的数据集比较小，因此会采用更多的特征来计算。

作者在排序阶段所设计的DNN和上文的DNN的结构是类似的，但在训练阶段对视频的打分函数不再是softmax，而是采用的逻辑回归。如下图所示：

1）特征工程

尽管神经网络能够减轻人工特征工程的负担，但是我们依然需要花费精力将用户及视频数据转化为有效的特征。其主要的挑战在于如何表示用户动作的时间序列以及这些动作如何与正被评分的视频展现相关。但是通过对用户和物品之间的交互行为，我们能提取出一些有用信息，比如：用户从这个频道里看过多少视频，用户上次观看这个主题的视频是什么时候等。

2）embedding 离散特征

每个维度都有独立的embedding空间，实际并非为所有的id进行embedding，比如视频id，只需要按照点击排序，选择top N视频进行embedding，其余置为0向量；而当多值离散特征映射成embedding之后，像在候选集生成阶段一样，在输入网络之前需要做一下加权平均。另外一个值得注意的是，离散特征对应的ID一样的时候，他们的底层embedding也是共享的，其优势在于提升泛化能力、加速训练、减小内存占用等。

3）连续特征归一化

对连续值类的特征进行归一化，作者设计一种积分函数将特征映射为一个服从[0,1]分布的变量；还可以对某些特征进行取根号、取对数和取平方的相关操作，使得网络有更强的表达能力。

给定正负样本，正样本为有点击视频，负样本为无点击视频；用观看时长对正样本做了加权，负样本都用单位权重（即不加权）；采用的是基于交叉熵损失函数的逻辑回归模型训练的。

上表显示了在保留数据集上用不同的隐层配置得到的结果，这些结果表明增加隐层的宽度提升了效果，增加深度也是一样。

本文内容方面，介绍了YouTube基于深度学习的推荐系统，先用视频和用户的主要信息通过深度候选生成模型从百万级视频中找出数百个相关的视频，再用视频和用户的其他信息通过深度排序模型从数百个视频中找出几十个最有可能受用户欢迎的视频给用户。这样使得推荐系统对用户喜好的刻画能力大大增强，刻画的范围更加广泛。

本文结构方面，从推荐系统的整体结构讲起，划分为候选集生成和排序两个阶段，然后对每个阶段详细地展开讲解。整体过程条理清晰，逻辑严密，值得我们学习。