关于youtube主题的论文（youtube自媒体）

最新知识客服VX（coolfensi）2023-01-26 00:45:19135

Youtube DNN经典论文

最近在看王喆的知乎专栏，第三、四、十三篇都是Youtube的经典论文DNN：

联系方式：微信：coolfensi
（使用浏览器扫码进入在线客服窗口）
复制联系方式

跟着大佬又回顾了一下，发现之前真的只能算是一知半解，趁着这次把对这篇论文的新的理解记录一下，可能还会有一些错误。

论文讲解了在召回和精排两个阶段的模型：

召回：

先从特征说起：用户观看过的video的embedding，用户搜索词的embedding，用户的地理位置、年龄等side_infomation，还有exampl_age这个需要解释的特征

然后是模型：三层DNN

最后是training的loss：softmax做分类

serving的方式：nearest neighbor

里面其实有很多疑点：

1.example_age是什么

这个点专栏里说是训练时间 - 得到这条样本的时间（视频点击时间），但是我觉得这样表达不出“新视频”这个概念，也不知道用当前时间去减是啥意思，label是点击那一刻打上去的，又不是训练的时候；

所以我觉得这个example age应该是点击时间-上架时间，表示用户对新上架视频的偏好，用这个特征去捕获这个偏好了，在serve的时候全都置为0就可以消除这个偏好，毕竟这是召回阶段，可以多召回些东西。（这样就是消除用户对新视频的偏好了？）

2.为什么要做多分类，而不是预测分，多分类的话有海量视频，性能怎么保证

为什么要做多分类，而不是把样本的embedding也给到网络里做打分，这一点我是真的没弄明白；

海量视频的多分类性能的提升是用到了sampled softmax，可以参考总的来说就是通过Q(y|x)采样出一个子集，对子集计算logits，然后用计算结果F(x,y)-log(Q(y|x))可以表示原数据集上的logits

3.serving阶段为什么不做多分类了，而是做nearest neighbor

这里首先要弄明白serving阶段的user embedding和video embedding是什么，user_embedding是最后一层relu之后的结果，比如是一个d维的向量；然后要得到一个几百万维(用d_N表示)的向量，需要过一个d*d_N维的矩阵，这个矩阵的每一列训练完之后就是video embedding；如果是serving的阶段依然是和每一列相乘，再算一个softmax，既然分母是一样的，取指数的操作也是一样的，那么就直接做点积就好了。

排序：

先从特征说起：当前排序的video的embedding，用户观看过的video的embedding，用户和video的语言embedding，time since last watch是自上次观看同channel视频的时间，previous impressions是该视频已经被曝光给该用户的次数（这里已经引入了负反馈的思路）

然后是模型：三层DNN

最后是training的loss：weighted logistic

serving的方式：e^(Wx+b)

这里面也有一些疑点：

1.training时候的weighted logistic是什么，为什么serving的时候用的是e^(Wx+b)

这个点是我重读的时候最没理解的地方，先尝试写一下，这里首先要搞清楚weighted logitstic是什么，那先回顾一下LR的公式的由来是log(odds) = w*x；这里的odds=p/(1-p)表示正样本发生的概率/负样本发生的概率；在weighted LR里面这个odds要变成W*p/(1-p)这里的W就是给正样本加的权重，至于为什么是这样有一种解释是用正负样本比去解释的，我觉得不是很合理；但是如果能够接受这个odds的话，那么log(odds) = w*x就可以得到odds = e^(wx)，后者就是serving的目标；

再说W*p/(1-p)是什么，这里W权重是这条视频的时长T，那么sum(Ti*pi)就是E(T)即时长的期望，E(T)/(1-p)泰勒展开就是E(T)*(1+p)这里的p很小的话其实就是E(T)也就是说serving的时候其实得到的就是观看时长的期望，这里如果用到电商里用price去加权，得到的应该也是对price的预估。

还是非常建议多去看一下十大工程问题那篇专栏，讲到了更多，比如对每个用户提取等数量的训练样本、把大量长尾video的embedding置0这些方法的出发点。

关于youtube主题的论文（youtube自媒体）第1张

论文笔记 | RecSys2019 | Recommending what video to watch next: a multitask ranking system

论文地址：

看完MMoE后接着看这一篇，进一步加深对MMoE的理解

2020.2.18 9次。从19年9月出来后，不到半年能引用9次，算是相当不错了

同样没往arXiv上挂，中了19年9月的RecSys。同样是G家出品，来自YouTube那边，10个作者中英混合。一作赵哲 PHD毕业于密歇根大学，和MMoE的一作马家祺一个学校的，本文是赵哲最近在google任research scientist完成的。

本文应用于YouTube的多目标排序系统。主要面对两个问题，第一个就是存在多个相互竞争的排序目标，第二个就是用户反馈中隐含了选择偏见。为了解决这些问题，本文用MMoE优化多目标排序，用WD减轻选择偏见。

现实世界的大规模视频推荐系统存在的挑战，包括：

1 不同的有时甚至相互冲突的优化目标。例如除了观看之外，还希望推荐用户评价高并与朋友分享的视频。

2 系统中的隐式偏见。例如用户点击并播放一个视频可能是因为其排序靠前而不是用户真的最喜欢它。因此使用从当前系统生成的数据训练模型将产生偏差，从而导致反馈循环效应。

为了解决这些挑战，本文提出的模型如图1所示。它继承自Wide Deep，采用了MMoE进行多任务学习。此外，还引入了一个浅层塔来消除选择偏差。

具体来说，首先将多个目标分为两组：1）互动目标，例如点击，与推荐视频的参与程度 2）满意度目标，例如点赞，评分。使用MMoE来学习多目标，混合专家架构将输入层模块化为专家，每一个聚焦于输入的不同方面。这提升了从多种模态生成的复杂特征空间学习到的表示。接着利用多门网络，每个目标选择专家来决定是否与其他专家共享。

为了消除偏差，提出了如图1左侧所示的浅层塔结构，它以与选择偏差相关的特征作为输入，例如排序顺序。输出是一个标量，作为主模型最终预测的一个偏置项。

本文主要贡献如下：

工业推荐系统的主要挑战是可扩展性。主要依赖隐式反馈。

举个例子，一个用故可能点击了一个item，最终却不喜欢它。用户仅仅对点击过或有交互过的item才能进行评分。

用户和当前系统会有选择偏差，例如，一个用户点击过一个item只是因为它被当前系统选出来了，即使它不是整个库中最有用的一个。因此，基于当前系统生成的数据来训练新模型会导致偏向当前系统，引起反馈循环效应。

《Evaluating the accuracy of implicit feedback from clicks and query reformulations in web search》这篇07年的文章最先分析了隐式反馈中的位置偏差和展现偏差。

一个最常用的实践是在训练时将位置作为模型的输入特征，在预测时将其移除。

除了之前提到的挑战，现实世界的大规模推荐系统还有如下因素需考虑：

采用多种候选生成算法，每一种作为查询视频和候选视频之间相似度的一方面。

排序系统学习两种类型的用户反馈：1）交互行为，例如点击和观看。2）满意度行为，例如点赞和退出。将排序问题建模为多目标分类问题和回归问题的组合。本文采用point-wise的方法，主要是出于性能的考虑，pair-wise和list-wise限制了系统的可扩展性。

为了描述方便，本文将所有目标分为两类：互动目标和满意度满标。互动目标包括点击和观看，将点击定义为二分类任务，将观看时长定义为回归任务。类似的，对于满意度目标，将是否喜欢视频定义为二分类任务，将打分定义为回归任务。分类任务用交叉熵损失，回归任务用平方损失。

对于每个候选，使用加权乘法形式的组合函数输出组合分数，这些权重是在考虑最佳用户互动和用户满意度之上手动调节的。

MMoE是一种软参数共享模型，其核心理念是用MoE层替代共享ReLu层，同时为每个任务增加一个单独的门网络。

本文提出增加的专家位于共享隐层之上，如图2b所示，这是因为MoE层能从输入中学习到模块化信息。当直接在输入层或较低的隐层使用时，可以更好地模拟多模态特征空间。然而，直接应用MoE层在输入层将显著增加模型的训练和预测成本，这通常是因为输入层的维度远高于隐层的维度。

公式这里基本上就照搬MMoE原作的公式了，值得注意的是，与Hilton等人在17年提出的稀疏门控网络（在该网络中，专家的数量可能很多，并且每个训练样本仅利用顶级专家）相反，本文使用的专家相对较少。这是因为为了鼓励通过多个门控网络来共享专家并提升训练效率。

在YouTube的排序系统中，查询是当前观看的视频，候选是相关的视频，用户通常会倾向点击并播放展示位于前列的视频，而忽略了他们本身真正的偏好，无论是与观看视频的相关性还是用户偏好来说都是这样。建模并消除选择偏差可以提升模型质量，并打破选择偏差带来的反馈循环问题。

本文模型采用类似Wide Deep架构，将模型分为两个部分，主塔的用户效用部分和浅层塔的偏差部分。具体来说，用诸如位置特征等偏差特征训练浅层网络，之后将其与主模型相加作为最终的logit，如图3所示。

训练时，所有曝光位置的都使用，用10%的丢弃率丢弃改特征，以防止模型过度依赖位置特征。在serving时，位置特征被视为缺失。将位置特征与设备特征交叉的原因是，在不同类型的设备上观察到不同的位置偏差。

对于本文模型和基线模型，训练都是一直持续的。离线实验监控的指标是AUC和平方损失。在线实验做A/B测试，同时考虑serving时的性能开销。

如图2a所示，出于性能考虑，本文的MMoE层共享一个底层隐藏层，而不是直接共享输入层。

如表1所示。

如图5所示，绘制了每个任务每个专家在softmax门网络上的累积概率。可以看到一些互动任务同其他共享任务共享多个专家。而满意度任务倾向于共享一个小子集上的专家。

另外，本文也验证了直接在输入层上使用MMoE，发现在线实验结果与图2b相比并没有显著差异。

这一节介绍了MMoE的一个坑，hinton等人在17年的《Outrageously large neural networks: The sparsely-gated mixture-of-experts layer》指出softmax门网络会有不平衡的专家分布问题，即门网络闭合时专家上的多数值都为0。本文发现有20%的几率会出现这种极化现象。为解决该问题，在门网络上使用dropout，通过以10%的几率将专家的利用率设置为0并重新归一化softmax输出，本文消除了们门网络的极化问题。

如图6所示，位置越前CTR越高。在更前面更高的CTR综合了item是更相关的以及位置偏差的影响。

方法A：直接使用位置特征作为输入

方法B：对抗学习

本文感觉行文有点啰嗦，许多相同的话在不少地方重复。读这篇前一定要先读MMoE的原作，因为这篇基本上就是MMoE的应用，加了个偏置网络用来消除偏置，如果只有MMoE，这篇文章铁定发不出去。另外本文有不少小trick可以借鉴，比如MMoE的专家不能从太底层开始，比如训练时丢弃10%的偏差特征，比如用设备与位置做特征交叉等等。另外，从实验上来看，指标的相对提升也没有特别明显。

YouTube排序系统中的多目标问题和训练数据偏置问题

应用MMoE，和偏置网络分别解决，最后融合在一起

只在YouTube自己的数据上做了实验，给出的提升是相对提升，感觉不是很大

最后多目标分数的融合还是根据经验手调的

拿来主义，工程应用论文

MMoE论文笔记

「干货」YouTube 基于深度神经网络推荐系统剖析

YouTube推荐系统的三大难点：

· 一是规模太大，简单的推荐算法在如此大规模数据量上可能是失效的；

· 二是实效性，即新数据不断产生，需要将其良好的呈现给用户，以平衡旧有的好内容以及新内容；

· 三是噪音问题，用户行为与视频描述均有噪音，并且只能获得充满噪音的用户隐含反馈，而不能直接获取用户满意度。

图1.YouTube基于深度学习推荐系统架构图

本文呈现的推荐系统解决方案分为两个部分:

· 一个是备选生成（Candidate Generation），其目标是初选结果，从海量数据中选择出符合其个人需求偏好的百级别数据;

· 一个则是排序（Ranking），通过更加丰富的用户，视频乃至场景信息，对结果进行精细化排序，得到呈现给用户的备选。

备选生成阶段，将推荐系统定义为一个多分类器，其职责是确定某个用户，在某个场景与时间下，将从系统的视频中选择消费哪一个视频。具体的方法是，将用户与视频全部转化为Embedding描述，即一个向量，最终用户消费某个视频的概率通过如下方式计算得到：

而构建用户与视频的Embedding，则是通过训练而来。将用户观看视频/搜索记录/其它信息如年龄性别等作为输入特征，部分稀疏特征首先进行Embedding化，中间为数层ReLU，最终一层用SoftMax进行分类。换句话讲，是将用户与场景信息作为输入，预估用户下一个要看的视频，也就是将用户分到具体某一个视频作为其类别。用户与视频的Eembedding，则是神经网络最后一层的对应矩阵。这种方法除了能利用用户行为信息外，其它信息例如设备，地理位置，性别等也可以作为输入，这是神经网络相对于普通MF类算法的优势之一。

图2.YouTube推荐备选生成阶段架构

备选生成的下一个阶段是排序。其网络结构跟备选生成阶段类似，将所有排序模型中的信息输入后，进入多层ReLU，最终进行优化的是一个加权逻辑回归损失函数，观看时间作为阳性样本权重。在这一层，也可以看到其推荐“代理问题”的转化：由点击行为预估转为了以观看时长为权重的点击行为预估，这样更佳贴近Youtube的产品优化方向。与备选生成阶段另一个不同在于，排序模块需要考量的特征要多得多:

· “场景”类特征，例如用户可能在某个地方某个时间愿意观看某一条视频，但是在别的地方别的时间则不会；

· 曝光信息：用户观看了某界面，但是并未在其上进行操作，那么随之应进行已呈现内容降级；

· 备选生成层输出：排序需要将各种备选结果联合起来；

· 更丰富的用户信息：例如用户最近的一次搜索词，用户最近观看的同一个主题下的视频数量，用户上一次观看同主题视频的时间，用户所使用的语言等；

图3.YouTube推荐排序阶段架构

除了整体设计与系统架构以外，本篇论文中陈述了很多“选择”，这些选择更多的是“艺术”而不完全属于技术范畴。这些选择往往是很多技术人员关注不多的点，但在笔者看来，这些都蕴含着YouTube技术与产品人员深入的思考与判断。

“Example Age” 特征

对于YouTube产品层来讲，鼓励内容产生毫无疑问是至关重要的，所以推荐系统也希望对用户上传的新内容的有所偏好。然而幸运的是，即使损失一部分相关性，视频的消费者也偏好新内容。也就是说，新内容的价值可以良好的通过其带来的吸引力呈现出来，并不需要平台刻意而为之。

由于系统使用一个时间窗口的训练样本进行训练，如果没有视频的上传时间信息，那么模型会认为这个时间窗口内用户对视频的偏好是稳定的，然而事实远非如此。将视频的上传时间加入到特征集合后，预估更加准确，尤其是视频刚上传阶段的强烈便好被成功捕捉到。

图4.无时间特征预估/有时间特征预估/真实情况三者对比

优化目标选择

图5.优化对象的选择

算法系统的设计首先要明确优化对象，这不仅仅涉及到损失函数的形式，同样也是评判系统成功与否的标准。YouTube是视频平台，更是富含“价值”的长视频平台，其观看行为比点击行为意义更大。（当然，笔者认为没有任何一个简单指标可以完全代表一个产品）

“正样本”定义

图6.何为正样本的设计选择

训练数据来源

图7.关于训练数据来源的设计抉择

训练数据应该只来源于推荐界面的曝光吗？YouTube认为不然。如果只考虑推荐界面曝光，则无法对用户便好进行探索，更加无法捕捉用户偏好的变化，因为用户偏好的变化往往首先会对应着搜索与浏览行为。所以YouTube将各个界面例如搜索，导航等用户行为全部纳入其中。

训练数据窗口

图8. 训练数据收集方式的设计选择

Youtube将所有用户等而视之，每个用户收集一定量的样本。而不是惯常可见的直接收集一个时间窗口内的所有用户行为，作为训练样本。这样的好处是避免系统收到少数行为过多用户的影响，使得系统更多的为大众设计。这样的设计理念与近期阿里Gai Kun的论文中评测方法(用户AUC)设计有异曲同工之妙。

用户行为序列处理

图9.用户行为序列信息处理的设计选择

在系统中，用户往往会顺着一个检索结果页或者用户发布者浏览页进行顺序观看，如果系统捕捉到了用户看了检索界面的前三个结果，那么预估用户将看第四个结果就会很容易。但是这样真的好吗？将检索结果页面或者用户发布视频界面直接作为推荐结果呈现给用户是并不友好的--抢了别的界面应该干的活嘛。所以此处YouTube对用户行为序列做了处理，在模型输入中选择放弃用户行为的序列信息，将其打散成词袋Embedding，即使这样的信息有利于模型的离线训练效果。

预估对象的选择

图10.关于预估对象的设计选择

用户的行为往往是有顺序的，用户在系统中“热身”后，在一个频道下面，往往先看大众喜欢的热门，然后逐步找到自己的兴趣点，聚焦看一块内容。那么，训练数据则应该收集用户前段时间行为，预估此后的行为。而不是收集时间前后段的行为，预估中间时间段的用户行为。这样模型更加接近用户习惯。

除此之外，Youtube根据系统设计了对应的实验，结果非常简单：深度网络层数越高，效果越好。

YouTube的推荐系统，已经为其贡献了70%的用户播放时长，搜索与导航在PC时代的主导地位在移动时代已经完全被颠覆掉。希望大家在其中学到一些东西。笔者水平所限，若有错误不当之处，敬请指正。

另外，个人用TensorFlow模拟Youtube的推荐系统，做了一个简单实现。其实就是一个多分类器外加一个单分类器，远谈不上成熟，可以供大家参考。

——END——

哪位英雄能给帮忙整个论文的提纲~

互联网（INTERNET,又译因特网、网际网）,即广域网、局域网及单机按照一定的通讯协议组成的国际计算机网发送邮件、共同完成一项工作、共同娱乐。

1995年10月24日，“联合网络委员会”（FNC：TheFederalNetworkingCouncil）通过了一项关于“互联网定义”的决议：“联合网络委员会认为，下述语言反映了对‘互联网’这个词的定义。

‘互联网’指的是全球性的信息系统：

1.通过全球唯一的网络逻辑地址在网络媒介基础之上逻辑的链接在一起。这个地址是建立在‘互联网‘互联网协议’（TCP/IP），或者今后其它接替的协议或与‘互联网协议’（IP）兼容的协议来进行通信。

3.以让公共用户或者私人用户享受现代计算机信息技术带来的高水平、全方位的服务。这种服务是建立在上述通信及相关的基础设施之上的。”

这当然是从技术的角度来定义互联网。这个定义至少揭示了三个方面的内容：首先，互联网是全球性的；其次，互联网上的每一台主机都需要有“地址”；最后，这些主机必须按照共同的规则（协议）连接在一起。

[编辑本段]历程

互联网始于1969年，是在ARPA（美国国防部研究计划署）制定的协定下将美国西南部的大学UCLA(加利四台主要的计算机连接起来。这个协定有剑桥大学的BBN和MA执行，在1969年12月开始联机。到1970年6月，MIT(麻省理工学院)、Harvard(哈佛大学)、BBN和SystemsDevelopmentCorpinSantaMonica(加州圣达莫尼卡系统发展公司)加入进来。

1968年，当参议员TedKennedy(特德.肯尼迪)听说BBN赢得了ARPA协定作为内部消息处理器（IMP）”，他向BBN发送贺电祝贺他们在赢得“内部消息处理器”协议中表现出的精神。

互联网最初设计是为了能提供一个通讯网络，即使一些地点被核武器摧毁也能正常工作。如果大部分的直接通道不通，路由器就会指引通信信息经由中间路由器在网络中传播。

最初的网络是给计算机专家、工程师和科学家用的。当时一点也不友好。那个时候还没有家庭和办公计算机，并且任何一个用它的人，无论是计算机专家、工程师还是科学家都不得不学习非常复杂的系统。

由于TCP/IP体系结构的十年代的其他人进一步发展完善。八十年代，DefenseDepartment(美国国防部)采用了这个结构，到1983年，整个世界普遍采用了这个体系结构。

来。新闻组（集中某一主题的讨论组）紧跟着发展起来，并且很多互联网站点都充分地利用新闻组。新闻组是网络世界发展中的非常重大的一部分。

同样地，BITNET（一种连接世界教育单位的计算机网络）连接到世界教育组织的IBM的大型机上，同时，1981年开始提供邮件服务。

当e-mail(电子邮件殊领域里确实极大地推广了互联网的应用。其它的部门，包括计算机、物理和工程技术部门，也发现了利用互联网好处的方法，即与世界各地的大学通讯和共享文件和资源。图书馆，也向前走了一步，使他们的检索目录面向全世界。

第一个检索互联网的成就是在1989年发明出来，是由PeterDeutsch和他的全体成员在Montreal的性地到达所有开放的文件下载站点，列出他们的文件并且建立一个可以检索的软件索引。检索Archie命令是UNIX命令，所以只有利用UNIX知识才能充分利用他的性能。

McFill大学，拥有第一个Archie的大学，发现每天中从美国到加拿大的通讯中有一半的通信量访问Archie。学校关心的是管理程序能否支持这么大的通讯流量，因此只好关闭外部的访问。幸运的是当时有很多很多的Archie可以利用。

大约在同一时期，同有很多版本，但最简单的可以让网上的任何人可以利用。在它的高峰期，智能计算机公司维护着在全世界范围内能被WAIS检索的超过600个数据库的线索。

1991年，第一个连接互联网的友好接口在Minnesota大学开发出来。当时学校只是想开发一个简单的菜单系统可以通过局域网访问学校校园网上的文件和信息。客户-服务器体系结构和计算机体系结构的知识。在一个Gopher里，你只需要敲入一个数字选择你想要的菜单选项即可。今天你可以用theUofMinnesotagopher选择全世界范围内的所有Gopher系统。

当UniversityofNevada(Gopher的可用性大大加强了。它被称为VeryEasyRodent-OrientedNetwideIndextoComputerizedArchives的首字母简称。遍布世界的gopher象网一样搜集网络连接和索引。它如此的受欢迎，以致很难连接上他们，但尽管如此，为了减轻负荷大量的VERONICA被开发出来。类似的单用户的索引软件也被开发出来，称做JUGHEAD（JonaysUniversalGopherHierachyExcavationAndDisplay）.

Archie的发明人PeterDeutsch,一直坚持Archie是Archier的简称。当VERONICA和JUGHEAD出现的时候，表示出非常的厌恶。

1989年，在普及互联。这个协议，1991年后称为WorldWideWeb，基于超文本协议――在一个文字中嵌入另一段文字的-连接的系统，当你阅读这些页面的时候，你可以随时用他们选择一段文字连接。尽管它出现在gopher之前，但发展十分缓慢。

图形浏览器Mosaic的出现极大的促进了这个协议的发展，这个浏览器是由MarcAndressen和他的投资建设的，所以它最初只是限于研究部门、学校和政府部门使用。除了以直接服务于研究部门和学校的商业应用之外，其它的商业行为是不允许的。

Dephi是最早的为他们的客户提供在线网络服务的国际商业公司。1992年7月开始电子邮件服务，1992年11月开展了全方位的网络服务。在1995年5月，当NFS(国际科学基金会)失去了互联网中枢的地位，在这段时间里由于商业应用的广泛传播和教育机构自力更生，这使得育组织，一方面开始建立K-12和当地公共图书馆建设，另一方面研究提高网络大量高速的连接。

微软全面进入浏览器、服务)在迅速成长的互联网上投资的决心。

过去几年里微软的成功招来了关于他们统治地位的官司。您认为这场争论是在法庭还是会在市场中结束？

关于未来发展的流行趋势是提高网络的连接速度。56k的Modem(调制解调器)和支持它的硬件厂商的迅速发展对于紧接着的发展来说只是走出了一小步。然而新的技术迅速发展，还有保证数据能从信息源高速可靠传输到用户的问题。相信这些问题在不久的将来就能解决。

在互联网迅速发展壮大的时期，商业走进互联网的舞台对于寻找经济规律是不规则的。

免费服务已经把用户的直接费用取消了。Dephi公司，现在提供免费的主页、论坛和信息板。在线销售也迅速的成长，例如书籍、音乐和计算机等等，并且价格比较来说他们的利润是非常少的，然而公众对于在线销售的安全性仍然不放心。

[编辑本段]互联网影响

互联网是全球性的。这就意味着我们目前使用的这个网络，不管是谁发明了它，是属于全人类的。这种“全球性”并不是一个空洞的政治口号，而是有其技术保证的。正如我们在本书第二章中已经看到的那样，互联网的结构是按照“包交换”的方式连接的分布式网络。反过来，也无法把互联网封闭在一个国家之内-除非建立的不是互联网。

然而，与此同时，这样一个全球性的网络，必须要有某种方式来确定联入其中的每一台主机。在互联网上绝对不能出现类似两个人同名的现象。这样，就要有一个固定的机构来为每一台主机不是电子邮件信息），就是这种机构提供的服务的例证。同样，这种制定共同遵守的“协议”的权力，也不意味着控制的权力。

毫无疑问，互联网的所有这些技术特征都说明对于互联网的管理完完全全与“服务”有关，而与“控制”无关。

事实上，目前的互联网还远远不是我们经常说到的“信息高速公路”。这不仅因为目前互联网的传输速度不够，更重要的是互联网还没有定型，还一直在发展、变化。因此，任何对互联网的技联网的意义、价值和本质提出新的理解。

网络就是传媒

正如我们前面看到的那样，互联网的出现固然是人类通信技术的一次革命，然而，如果仅仅从技术的角度来理解互联网的意义显然远远不够。互联网的发展早已超越了当初ARPANET的军事和技术目的，几乎从一开始就是为人类的交流服务的。

即使是在ARPANET的创建初期，美国国防高级研究计划署指令与控制研究办公室（CCR）主任利克里德尔就已经强调电脑和电脑网络的根本作用是为人们的交流服务，而不单纯是用来计算。

哪里，不能忘记我们给更大的电脑群体带来的巨大变化，也不能忘记我们为将来的变化所拥有的潜力）。

英文的“Communication"是个不太容易翻译的词。当我们谈到消息、新闻的时候，这个词指的是传播和传达；当我们说起运输的时候，这个词指的是交通；而当我们讨论人际关系的时候，这个词又和交往和交流有关。当年利url]克里德尔/url]强调电脑的作用在于“交流”，就是用的就是这个词。

有趣的是，“电脑”（Computer）和“交流”（Communication），都有一个共同的词根：“com”（共、全、合、与等等）。古英语的“Communicate”，就有“参与”的意思。

互联网就是能够相互交流，相互沟通，相互参与的互动平台。

在美国大学里，一般学习义上，“communicate”与宣传和被宣传无关，而是和大家共同“参与”的“交流”紧密相关。我在这里强调“网络就是传媒”，也是为了强调网络在人类交流和传播中的重要作用。

互联网迄今为网页就是出版物

如果理解了“网络就是传媒”，就很容易理解作为互联网的功能之一的环球网的网页实质上就是出版物，它具有印刷出版物所应具有的几乎所有功能。几年来环球网发展的事实，证明了这一点。

事实上，有相当数量的环球网用户直接把环球网当作出版物。根据NetSmart的统计，50%的用户阅读在线的杂志，48%的用户阅读在线报纸（）。

即使不通过环球网阅读报刊，环球网的网页本身也起到了出版物的作用。

环球网的发明者伯纳斯利在他关于环球网的宣言（）中，明确指出：“环球网在本质上是使个人和机构可以通过分享信息来进行通信的一个平台。

当把信息提供到环球网上的时候，也就被认为是出版在环球网上了。在环球网上出版只需要‘出版者’有一台电脑和互联网相连并且运行环球网的服务器软件。就象印刷出版物一样，环球多特点。

首先，网页的成本非常便宜由于网页使用的是超文本文件格式，可以通过链接的方式指向互联网上所还是在于反馈。印刷出版物的反馈渠道往往还是印刷，在许多情况下，得到反馈是非常难得的。而对一个网页提出不同的看法就非常容易。

正是由于作为一种出版物的这些特性，环球网正越来越受到广大用户的青睐。

根据PC-Meter1996年的调查，平均每个互联网用户每次访问的环球网的网站有5.6个，每次察看的网页有20.8个，而平均阅读每一个网页所需要的时间大约1.4分钟，平均每次上网阅读环球网页的时间大约28分钟。（url].和第一个全球性论坛。任何人，无论来自世界的任何地方，在任何时候，他（她）都可以参加，互联网永远不会关闭。而且，无论你是谁，你永远是受欢迎的。你不会由于不同的肤色、不同的穿戴、不同的宗教信仰而被排互相传送经验与知识，发表意见和见解。

互联网是人类历史发展中的一个伟大的里程碑，它正在对人类社会的文明悄悄地起着越来越大的作用。也许会像瓦特发明的蒸汽机导致了一场工业革命一样，互联网将会极大地促进人类社会的进步和发展。

[编辑本段]未来十年全球互联网发展的趋势以及预测

我们能期待在未来10年或现在以下的10个（或者更多）网络发展趋势中，同时还将有一些非常流行的网络技术是我们现在所无法预测的。者象Berners-Lee描述的那样，计算机“在网络中分析所有的数据—内容，链接以及人机之间的交易处理”。在另一个时候，Berners-Lee把它描述为“为数据设计的似网程序”，如对信息再利用的

因此，什么时候语义网时代才会到来呢？创建语义网的组件已经出现：RDF，OWL，这些微格式只是众多组件之一.但是，Alex在他文章中指出，将需要一些时间来诠释世界的信息，然后再以某种合适的方式来捕获个人信息。一些公司，如Hakia，Powerset以及Alex自己的adaptive blue都正在积极的实现语义网，因此，未来我们将变得关系更亲密，但是我们还得等上好些年，才能看到语义网的设想实现。

2.人工智能

能就成为计算机科学家们的梦想，

在接下来的网络发展中，人工智能使得机器更加智能化。在这个意义上来看，这和语义网在某些方面有些相同。

我们已经开始在一些网看起来已经有相当部分的人光顾这里。但是，在我们1月份对它进行报道的时候，它看起来当时的用户并没有刚刚建立起来时候那么多。

尽管如此，人工智能还是赋予了网络很多的承诺。人工智能技术现在正被用于一些象Hakia，Powerset 这样的“搜索2.0”公司。Numenta是Tech legend公司的Jeff Hawkins(掌上型电脑发明者)创立的味着Numenta正试图用电脑来解决一些对我们来说很容易的问题，比如识别人脸，或者感受音乐中的式样。由于电脑的计算速度远远超过人类，我们希望新的疆界将被打破，使我们能够解决一些以前无法解决的问题.

3 .虚拟世界

作为将来的网络系统，第二生命（second life）得到了很多主流媒体的关注。但在最近一次Sean AmmiratiI参加的超新列图形是一个很好的概括：

以韩国为例，随着“青年一代“的成长和基础设施（网络）建设，未来10年，虚拟世界将会成为全世界范围内一个有活力的市场。

它不仅涉及数字生活更多的定位感知服务可通过移动设备来实现，例如当你逛当地商场时候，会收到很多你定制的购物优的时候收到玩乐信息。我们也期待大型的互联网公司如，YAHOO，GOOGLE成为主要的移动门户网站，还有移动电话运营商。

象NOKIA，SONY-ERICSSON，PALM，BLACKBERRY以及MICROSOFT这些公司都已经涉足移动网络好几年了，但是移动网络的一个主要问题就是用户的使用便捷性。Iphone有一个创新性的界面，使用户能更轻松的利用缩放以及其他方法来浏览网络。此外，ALEX ISKOLD也指出，这款iphone是一种策略，扩大了苹果的影响力范围，从网络浏览到社区化网络，甚至有可能是搜索领域。

虽然iphone在美国（或者其他当iphone投放到其他国家后）进行了大肆宣传， iphone至少会存在10年，直到移动网络设备取得重大突破。

5 .注意力经济

注意力经济是一个市场，在那里消注意力经济表示消费者拥有选择权，他们可以选择在什么地方'消费'他们的关注。另一个关键因素是注意力是有关联性的，只要消费者看到相关的内容，他/她会继续集中注意力关注，那样就会创造更多的机会来出售。

期望在未来十年看到这个概念在互联网经济中变得更加重要。我们已经看到像AMAZON和netflix这样的公司，但是还有很多机会有待新的创业者发掘。

6 .提供网络服务的网站是一个问题，问题是何时开始及怎么做。

这种转变将会以下两种方式中一种发生。有些网站会效仿AMAZON和del.icio.us以及flickr网站，并通过一个REST

但是它将通过mashups来创建可用的服务，如DAPPER ，TEQLO，以及YAHOO PIPE。

实际的结果将是非结构化信息将让路给结构化信息，这将为更多的智能化铺平道路。

注意了，我们也可以看到目前这一趋势正在从一些小的地方显示出来，特别是2007 年的facebook网站。也许在未来10年的时间，网络服务的景观将更加开阔，因为在2007年“围墙花园”仍然制约着我们（

7 .在线视频/网络电视

这个趋势已经在网络上爆炸般显现，但是你感觉它仍有很多未待开发的，还有很广阔的前景。

2006年10月，GOOGLE获得了这个地球上最完全不一样。更高的画面质量，更强大的流媒体，个性化，共享以及更多优点，都将在接下来的10年里实现，或许一个大问题是“现在主流的电视网（全国广播公司，有线电视新闻网等）怎么适应？”

8 .富互联网应用程序（RIA）

随着目前混合网络/桌面应用程序发展趋势的继续，我们将能期望看到RIA（丰富互联网应用程序）在使用和功能上的继续完善是，AJAX（一种交互程序语言）也被认为是一种富互联网应用程序（RIA），这还需要去看AJAX将能持续多久，或者还是会有“2.0”。

RYAN STEWART 在2006年4月（之前，他在adobe公司）在读写网中谈到“富互联网应用程序允许那些对能保持用户参与很重要的先进效果和转化”，这意味着，那些开发者将把网站惊人的变化认为是理所当然，并将着力为用户提供完美的体验。这对任何参与兴建新的网络的人都将是一个激动人心的时刻，因为网络界面终于赶上内容。

过去的一年里，随着adobe和微软对富互联网

9 .国际网络）而言，美国市场组成了它们超过50%的用户。确实，comscore在2006年11月份的报告显示，顶级网站3/4的网络流量是来自国际用户。Comscore还显示，美国25家大网站里面，有14家吸引的国际用户比本土更多，包括前5位的网站—YAHOO，时代华纳，微软，GOOGLE，EBAY。

但是，现在还是刚刚开始，国际网络市场的收入在现在还不是很大。在未来10年的时间里，国际互联网的收入将会增加。

10 .个性化

在未来十年，我们可以预期什么呢？最近，我们访问了在谷歌做个性化开发的首席软件工程师SEP kamvar ，在将来是否有将个性化的“网页级别”制度（注：PageRank (网页级别) 是Google 搜索引擎用于评测一个网页“重要性”的一种方法）？，你的搜索结果也越来让你满意“

在未来几年内，看看谷歌如何开发利用个性化，以及它如何处理隐私问题，将是很吸引力的一件事情。

[编辑本段]互联网的命名

互联网、因特网、万维网三者的关系是：互联网包含因特网包含万维网。

凡是能彼此通信的设备组成的网络就叫互联网。所以，即使仅有两台机器，不论用何种技术使其彼此通信，也叫互联网。国际标准的互联网写法是internet，字母i一定要小写！跨国性的超大互联网不仅有因特网，还有惠多网。

因特网是互联网的一种。因特网可不是仅有两台机器组成的互联网，它是由上千万台设备组成的互联网。因特网使用TCP/IP协议让不同的设备可以彼此通信。但使用TCP/IP协议的网络并不一定是因特网，一个局域网也可以使用TCP/IP协议。判断自己是否接入的是因特网，首先是看自写！

因特网是基于TCP/IP协议实现的，TCP/IP，随网民规模与结构特征着上网设备成本的下降和居民收入水平的提高，互联网正逐步走进千家万户。截至2008年6月底，中国互联网普及率达到19.1%，目前仍只有不到1/5的中国居民是网民。这一普及率略低于全球21.1%的平均互联网普及率。目前全球互联网普及率最高的国家是冰岛，已经有85.4%的居民是网民。中国的邻国韩国、日本的普及率分别为71.2%和68.4%。与中国经济发展历程有相似性的俄罗斯互联网普及率则是20.8%。一方面，中国互联网与互联网发达国家还存在较大的发展差距，中国整体经济水平、居民文化水平再上一个台阶，才能够更快地促进中国互联网的发展；另一方面，这种互联网普及状况说明，中国的互联网处在发展的上升阶段，发展潜力[编辑本段]十大未来互联网趋势

1、语义互联网

说来，语义互联网就是关于机器和机器通话。关于使互联网更加的‘智能’，或者像Berners-Lee他自己描述的：电脑“分析网络上的所有数据－内容，链接，然后在人和电脑之间相互影响。”在其他的时候，Berners-Lee 曾经这样描述这它“对数据像互联网那样设计的应用程序”－比如对信息的再利用设计。

像 Alex Iskold 在 The Road to the Semantic Web 中写的那样，语义互联网的核心思想是建立meta资料（后分析数据？）来描述数据，它会使电脑可以处理事物的含意。一旦电脑具备了语义功能，它们就有能力解决复杂的语义最优化问题。

那么语义互联网什么时候到来呢？积木已经在这在努力去实现语义互联网。我们正在接近，但在语义互联网这个大承诺履行之前我们可能也完蛋了有些日子了。

语义互联网图片 by dullhunk

2、人工智能通的东西。

我们只是开始在网络上想象人工智能的外表。 Amazon.com 已经开始尝试通过 Mechanical Turk ，他们的任务管理服务，向人们介绍人工智能的样子。它能使电脑程序协调使用人的智能去执行那些电脑不能做到的任务。从2005年11月2日它投放市场以来，Mechanical Turk已经逐渐的建立起一批追随者－－有一个专门为“Turkers”建立的论坛叫Turker Nation，它看起来拥有轻到中等程度的赞助。无论如何，我们一月份报导的 Mturk 没诺。人工智能技术在像 Hakia and Powerset 这样的“搜索 2.0”公司投入使用。Numenta 是一家由技术传奇人物 Jeff Hawkins 创建的令人兴奋的新公司，它试图通过神经网络和细胞自动控制建立一个新的，类人脑的范例。这意味着 Numenta 试图让电脑去处理一些对人来说很简单的问题，比如识别面部或者在音乐中领会模式。但是因为电脑比人类快很多倍，当计算时，我们希望它突破新的界限－－可以解决我们以前不能达到的问题。

3、虚拟世界

第二人生以一个未来网络系统的身份引者在一个星期五的晚上与你的朋友联结。寻找一家像Yahoo和Google这样大的网络公司作为移动关键词入口，会有移动操作员在旁边。

Nokia, Sony-Ericsson, Palm, Blackberry 和 Microsoft 这些公司已经在移动网络活跃多年，但是主要移动网络的一个发布已经可以使用。iPhone具有一个革命性的用户界面，它使用图像缩放，收聚和其它的方法，使用户浏览网络更加容易。同样，像 Alex Iskold 提到的那样，iPhone是一个可能扩大苹果公司影响力领域的策略，从网络浏览到社交网络甚至可能是搜索。

所以即使不管iPhone的宣传，至少在美国（也可能是它抵达的其它国家），十年之内iPhone都可能会被看为是移动网中的关键因素是关联。在消费者看到关联内容的时 An Overview, by Alex Iskold

6、网站即服务

Alex Iskold 在三月写过：随着越来越多的网络可再混合，整个系统正在变成既是一个平台和又是一个数据库。主要的网站正在转化成为提供网络服务－－这会更有效的向世界传播它们的信息。这种转化从来都不是平滑的－－举例来说，可行性是一个大问题，还有法律方面从来都不是简单的。但是，Alex 说过，这不是网站是否变成网络服务的问题，而是何时和如何的问题。

转化会以两种方式中的一种来发生。一些网站会跟随Amazon的方式，del.icio.us 和 Flickr 会通过REST API提供他们的信息。其它的则保持他们的信息专有，但是它会建立像Dapper, Teqlo 和 Yahoo! Pipes这样的应用服务，通过mashups开放。网络效应将会使非结构化信息让路给结构化信息－－为更智能的计算铺平道路。

注意到当前我们也能看到这个趋势和widgets特别是Facebook在2007年兴起。或许在接下来十年时间里网络服务的年，YouTube持续保持优势，同时网络电视服务也慢慢取得进展。

我们的网络博客 last100 在 8个网络电视应用的浏览这篇文章中对现在网络电视的前景有一个很好的概述。Read/WriteWeb 的 Josh Catone 也看了3个－－Joost, Babelgum, Zattoo。

视会和今天有彻底的区别。更高质量的图像，更强大的流量，个性化，分享，还有更多－－他们都将在接下来的十年到来。或许现在最大的问题是：现在的主流电视网络（NBC，CNN等）如何适应这股潮流？

8、丰富互联网应用

在当前网络／桌面应用混合趋势持续的Windows Presentation Foundation，混种的Laszlo和它的开源OpenLaszlo platform，还有很多其它的启动提供RIA平台服务。我们不要忘了Ajax通常也被认为是一个RIA－－它能持续多久，或者它是否是一个‘2.0’还尚们的RIA技术。还有更多的改革就要发生了，所以在十年时间内，我都等不急想看到什么地方能放下RIA的位置！

在2007年，美国仍旧是互联网的主要市场。但是十年之内，事情将会有很大的改变。中国一直被吹捧为一个增长的市场，但是其他有着巨大人口的国家也会同样增长－－比如印度和非洲一大票国家。

对大多数Web 2.0程序和网站（包括 R／WW），美国市场占50 ％以上的用户。当然，comScore 2006年11月报道3／4流量最高的网站是国际性的。comScore 说25个流量最高的美国网站中的14个在美国之外吸引的访问者比国内多。这其中包括了最有钱的5个美国财团－－Yahoo! 网站, Time Warner Network, Microsoft, Google 网站, 和 eBay.

然而，现在仍然为时过早，在国际互联网上这点的收入仍然不大。在未来的十年时间里，收会从

关于YouTube推荐系统的论文学习

本文是2010年发表在RecSys上的文章。本文主要介绍的是YouTube的个性化推荐的相关内容。

用户使用YouTube一般有三个原因：

--看他们在其他地方找到的单一视频（直接导航）；

--围绕某个主题（搜索和目标导向浏览）查看特定视频；

--受他们感兴趣内容的吸引。

推荐系统主要是针对第三点，目的是帮助用户发现他们感兴趣的高质量视频，并且推荐结果应该随时间和用户最近的行为更新。

在YouTube的推荐应用中，面临以下挑战：

--用户上传的视频的元信息非常少；

--视频时长比较短（一般小于10分钟）；

--用户行为短暂、多变而且噪声很多；

--视频生命周期短。

这是YouTube的推荐和普通视频网站推荐不同的地方，这些挑战也是现在很多短视频公司关注的问题。

推荐系统算法应该保持时效性和新鲜性，另外，用户必须了解为什么向他们推荐视频，这样可以帮助用户根据自己的喜好改善推荐引擎。推荐的视频是通过用户的行为来生成的，用户的行为包括观看、收藏、喜欢等来作为种子视频，然后使用各种相关性和多样性的 signals 对视频集进行排序。推荐系统的工程设计方面，保持各个模块的独立性，并且还需要对故障具有恢复能力，并在出现部分故障时适度降级。

这里有2种数据可以考虑：

1）是内容数据视频流、视频元信息（标题，标签等）；

2）用户行为数据，包括显性和隐性数据。前者是指用户评分、明确表示喜欢、不喜欢等行为，后者是浏览、观看等行为。

原始数据中还含有非常多的噪声，很多不可控因素会影响原始数据的质量。

作者将相关视频定义为用户在观看给定的种子视频 v 之后可能会观看的视频，使用关联规则挖掘技术来确定视频间的相关性。视频i和j的相关性定义为：

将用户观看过的视频、喜欢过的视频、收藏过的视频等等作为种子集合，对它们进行N级的级联扩展，也就是YouTube选择召回的不是1步相关视频，而是n-步相关视频，即种子视频迭代n次后得到的相关视频集合，产生广阔和多样的候选结果。

在生成一组候选视频后，需要对这些相关视频进行排序。

用于排序的数据主要包括：

--视频质量：包括观看次数、视频评分、评论、收视和上传时间等；

--用户特征：考虑用户观看历史记录中种子视频的属性，例如观看次数和观看时间等；

--多样性：要在被推荐的视频集合的类别中做一个平衡，以保持结果的多样性。

这些数据最终被线性组合起来，得到ranking的评分。

本文虽然是2010年发表的，近年来有很多内容升级复杂化了，但是作为初学者，本文的知识点和整体思路是非常值得学习的。当时的YouTube推荐系统的核心算法就是基于Item的协同过滤算法，也就是对于一个用户当前场景下和历史兴趣中喜欢的视频，找出它们相关的视频，并从这些视频中过滤掉已经看过的，剩下就是可以用户极有可能喜欢看的视频。

本文是Google的YouTube团队在推荐系统上DNN方面的尝试，发表在16年9月的RecSys会议。本文第1节介绍了YouTube推荐系统主要面临的挑战。第2节介绍了一个简要的系统概述。第3节更详细地描述了候选集生成模型，包括如何对其进行训练并用于提供推荐服务；实验结果显示模型添加特征和DNN深度后可以显著提升预测效果。第4节详细说明了排序模型，包括使用加权逻辑回归技术以训练预测预期观察时间的模型；实验结果表明，增加隐层网络宽度和深度都能提升模型效果。最后，第5节做了总结。

-规模大：用户和视频的数量都很大，传统适合小规模的算法无法满足；

-新鲜度：要求对新视频作出及时和合适的反馈；

-噪音：YouTube上的历史用户行为由于稀疏性和各种不可观察的外部因素而不可预测。我们很少能获得基本真实的用户满意度，更多的是隐式反馈噪声信号。

推荐系统的整体结构如图所示：

该系统由两个神经网络组成：一个用于候选集的生成，一个用于排序。候选集生成网络将用户的Youtube活动历史记录作为输入，然后从海量视频集中筛选出一小部分（数百个）以高精度与用户相关的视频。排序网络负责基于更加精细的特征对候选集进行排序，最后将最高得分的视频呈现给用户（按它们的得分排名）。

该模型把这个推荐问题转化成极端多分类问题：对于用户U和上下文C，把语料库V中的数百万个视频（分类）i，在时间t处做准确的分类，如下所示：

其中u为用户U的embedding表示，vi 代表各个候选视频的embedding。embedding是指稀疏实体（单个视频，用户等）到实数密集向量的映射；DNN的目标就是在用户信息和上下文信息为输入条件下学习用户的embedding向量u，这对于用softmax分类器来区分视频是有用的。

整个模型架构是包含三层全连接层，使用relu激活函数。把用户观看历史数据、搜索数据做一个embedding，加上age、gender等特征作为DNN的输入；输出分线上和离线训练两个部分。训练阶段使用softmax输出概率，在服务期间则直接使用接近最近邻搜索来进行生产候选的N个视频。

1）把用户观看过的视频id列表做embedding，并对所有历史观看视频ID的embedding做平均，得到观看embedding向量。

2）同时把用户搜索过的视频id列表也做如上的embedding，得到搜索embedding向量。

3）用户的人口统计学属性做embedding得到特征向量。

4）简单的二值和连续特征，例如用户的性别，登录状态和年龄作为归一化为[0,1]的实数值直接输入到网络中。

5）example age：机器学习系统总是利用历史的例子去预测未来，所以对过去总会有一个隐含的偏差。为了矫正偏差，YouTube把训练样本的年龄当作一个特征。

1.训练样本要用youtube上的所有视频观看记录，而不只是我们的推荐的视频的观看记录。

2.为每个用户生产固定数量的训练样本。

3.丢弃搜索信息的顺序，用无序的词袋表示搜索查询。

4.如下图，图(a)从历史观看记录中随机拿出来一个作为正样本来预测它，其余的历史观看记录作为上下文；这样其实泄露了未来的信息，并且忽略了任何非对称的消费模式。相反，图(b)是从用户的历史视频观看记录中随机拿出来一个作为正样本，然后只用这个视频之前的历史观看记录作为输入；这样的预测效果好得多。

– 深度为0：这时网络就是一个把连接起来的输入层转换一下，和softmax的256维输出对应起来

– 深度为1：第一层 256个节点，激活函数是ReLU （rectified linear units 修正线性单元）

– 深度为2：第一层512个节点，第二层256个节点，激活函数都是ReLU

– 深度为3：第一层1024个节点，第二层512个节点，第三层256个节点，激活函数都是ReLU

– 深度为4：第一层2048个节点，第二层1024个节点，第三层512个节点，第四层256个节点，激活函数都是ReLU

实验结果如下图所示：

可以看出，特征选取较多时，并且模型深度在四层时，可以得到较好的结果。

排序阶段最重要的任务就是精准的预估用户对视频的喜好程度。在排序阶段面对的数据集比较小，因此会采用更多的特征来计算。

作者在排序阶段所设计的DNN和上文的DNN的结构是类似的，但在训练阶段对视频的打分函数不再是softmax，而是采用的逻辑回归。如下图所示：

1）特征工程

尽管神经网络能够减轻人工特征工程的负担，但是我们依然需要花费精力将用户及视频数据转化为有效的特征。其主要的挑战在于如何表示用户动作的时间序列以及这些动作如何与正被评分的视频展现相关。但是通过对用户和物品之间的交互行为，我们能提取出一些有用信息，比如：用户从这个频道里看过多少视频，用户上次观看这个主题的视频是什么时候等。

2）embedding 离散特征

每个维度都有独立的embedding空间，实际并非为所有的id进行embedding，比如视频id，只需要按照点击排序，选择top N视频进行embedding，其余置为0向量；而当多值离散特征映射成embedding之后，像在候选集生成阶段一样，在输入网络之前需要做一下加权平均。另外一个值得注意的是，离散特征对应的ID一样的时候，他们的底层embedding也是共享的，其优势在于提升泛化能力、加速训练、减小内存占用等。

3）连续特征归一化

对连续值类的特征进行归一化，作者设计一种积分函数将特征映射为一个服从[0,1]分布的变量；还可以对某些特征进行取根号、取对数和取平方的相关操作，使得网络有更强的表达能力。

给定正负样本，正样本为有点击视频，负样本为无点击视频；用观看时长对正样本做了加权，负样本都用单位权重（即不加权）；采用的是基于交叉熵损失函数的逻辑回归模型训练的。

上表显示了在保留数据集上用不同的隐层配置得到的结果，这些结果表明增加隐层的宽度提升了效果，增加深度也是一样。

本文内容方面，介绍了YouTube基于深度学习的推荐系统，先用视频和用户的主要信息通过深度候选生成模型从百万级视频中找出数百个相关的视频，再用视频和用户的其他信息通过深度排序模型从数百个视频中找出几十个最有可能受用户欢迎的视频给用户。这样使得推荐系统对用户喜好的刻画能力大大增强，刻画的范围更加广泛。

本文结构方面，从推荐系统的整体结构讲起，划分为候选集生成和排序两个阶段，然后对每个阶段详细地展开讲解。整体过程条理清晰，逻辑严密，值得我们学习。

【Paper Reading】VideoBERT: A Joint Model for Videoand Language Representation Learning

数据准备：

New_HOI

New_verb

New_object

Paper reading：

Title: VideoBERT: A Joint Model for Videoand Language Representation Learning

Author: Chen Sun, Austin Myers, CarlVondrick, Kevin Murphy, and Cordelia Schmid

摘要：

Self-supervised learning has becomeincreasingly important to leverage the abundance of unlabeled data available on platforms likeYouTube. Whereas most existing approaches learn low-level representations, wepropose a joint visual-linguistic model to learn high-level features withoutany explicit supervision. In particular, inspired by its recent success inlanguage modeling, we build upon the BERT model to learn bidirectional jointdistributions over sequences of visual and linguistic tokens, derived fromvector quantization of video data and off-the-shelf speech recognition outputs,respectively. We use VideoBERT in numerous tasks, including actionclassification and video captioning. We show that it can be applied directly toopenvocabulary classification, and confirm that large amounts of training dataand cross-modal information are critical to performance. Furthermore, weoutperform the state-of-theart on video captioning, and quantitative resultsverify that the model learns high-level semantic features.

为了利用YouTube等平台上大量未标记的数据，自我监督学习变得越来越重要。现有的方法大多是学习低层表示，而我们提出了一种联合的视觉语言模型来学习高层特征，不需要任何明确的监督。特别是，受其最近在语言建模方面的成功启发，我们在BERT模型的基础上，学习了视觉和语言标记序列上的双向联合分布，它们分别来自视频数据的矢量量化和现成的语音识别输出。我们在许多任务中使用VideoBERT，包括动作分类和视频字幕。我们证明它可以直接应用于开放词汇表分类，并证实大量的训练数据和跨模式信息对性能至关重要。此外，我们在视频字幕方面的表现也超过了现有的技术水平，定量结果验证了该模型能够学习高级语义特征。

要点

摘要：

1. Youtube上存在大量的视频数据，没有标记，给自监督学习提供了大量的数据来源。（视频有语音）

2. 目前存在的方法都是低层次的特征表示。本文提出的视频-语义联合模型在没有显式监督的情况下学习到了高层次的特征信息。

3. 在BERT的基础上，学习视觉-语义的标记序列的双向联合分布，序列分别来自视频数据的向量量化，和现成的语音识别输出。

4. 这个VideoBERT模型用于动作分类和视频字幕。

5. 可以直接用于开放词汇表分类

6. 实验证实了大量的训练数据和多模态对性能至关重要。数据越多效果越好，用了多模态比不是多模态的要好

7. VideoBERT在视频字幕任务上超过了state-of-the-art.

8. 定量结果验证了该模型能够学习高级语义特征。

Introduction：

1. 深度学习可以从标记数据中学习到内容，但标记数据很难大规模获取。

2. 这些方法大多侧重于低层次的特征(如纹理)和短时间尺度(如持续时间不超过一秒的运动模式)。

3. 我们感兴趣的是发现高层次的语义特征，这些特征对应于在更长的时间尺度(如分钟)内展开的动作和事件，因为这样的表示对于各种视频理解任务是有用的。

4. 特别地，我们提出了一种简单的方法来建模视觉域和语言域之间的关系，结合三种现成的方法:自动语音识别系统(ASR)将语音转换成文本;矢量量化(VQ)在低水平时空视觉特征中的应用以及最近提出的用于学习离散标记序列上联合分布的BERT模型。

5. 我们可以执行文本 - 视频的预测，它可以用来自动演示一组指令(比如菜谱)，如图1和图2的顶部示例所示。

6. 我们还可以执行更传统的视频 - 文本的任务，即对[10]进行密集的视频字幕，如图6所示。

7. 我们的视频字幕方法在YouCook II数据集上达到state-of-the-art

8. 该模型可以在比其他深度生成模型更高的抽象级别上生成可信的猜测，它倾向于预测场景低层次方面的细微变化，比如少量对象的位置或姿态。

9. 我们在这篇论文的主要贡献是一个简单的方法来学习高层次的视频表示，捕获语义上有意义和长时间序列结构。

Related Work

1. 有监督学习：有很多视频表征学习的方法利用已有大量的标记数据集训练卷积神经网络达到视频分类的目的。但是这些方法需要大量的数据；数据集涉及动词和名词范围很小；目前的方法被设计出来用于表示短的视频序列，典型的就只有几秒钟。

2. 相比之下，提出的方法可以关注更长的时间序列；同时不需要利用手工标记

3. 无监督学习：RNN，VAE-style loss, GAN-style loss, SV2P, SVGLP, SAVP, MoCoGAN. 基于gan的方法。

4. 我们与无监督学习的不同之处在于，我们使用BERT模型，没有任何显式的随机潜在变量，应用于从视频中导出的视觉标记。

5. 我们的模型不是像素的生成模型，而是像素衍生出来的特征的生成模型

6. 自监督学习: 避免学习的困难联合模型p (x1: T),它已成为流行的学习条件的模型形式p (xt + 1: T jx1: T) 我们的信号分割成两个或多个块,如灰度、颜色、或前一帧和下一个帧

7. 我们的方法是类似的，除了我们使用量化的视觉文字而不是像素。

8. 此外，虽然我们学习了一个集合条件分布，我们的模型是一个适当的联合生成模型

Cross-modal learning.

9. 视频的多模态特性也成为监督学习视频表示的广泛来源，我们的论文就是建立在这个基础上的。

10. 由于大多数视频包含同步的音频和视觉信号，这两种模式可以互相监督，以学习强大的自我监督视频表示。

11. 在这项工作中，我们使用语音(由ASR提供接口把声音转成文字)而不是低层次声音作为跨模态监控的来源。

Natural language models

12. 我们以最近在NLP社区的进展为基础，在那里，大型语言模型如ELMO[22]和BERT[6]已经为各种NLP任务显示了最先进的结果，包括单词级(例如词性标记)和句子级(例如语义分类)。

13. 然后将BERT模型扩展到多语言数据的预训练

14. 我们的论文建立在BERT模型的基础上，以捕获语言和视觉领域的结构。

Image and video captioning.

15. 最近有很多关于图像字幕的工作(例如，[11,8,15])，这是一个形式p(y|x)的模型，其中y是手动提供的字幕，x是图像。

16. 也有一些工作在视频字幕，使用手动提供的时间分割或估计分段

17. 我们用关节p(x|y)建模并将其应用于视频字幕，并达到最先进的结果

Instructional videos.

18. 各种各样的论文(例如，[16,2,10,38,39])都训练了模型来分析教学视频，比如烹饪。

19. 我们不同于这项工作，我们不使用任何手动标记，我们学习了一个大规模生成模型的文字和(离散化)视觉信号。

Model

1. 为了获取语序信息，我们可以给每个单词加上它在句子中的位置。

2. BERT模型学习每个单词标记和这些标记的嵌入，然后对嵌入向量求和，以获得每个标记的连续表示。

3. 在实践中，我们可以通过采样位置和训练语句随机优化logloss(根据f函数预测的softmax计算)

4. 我们通常不仅简单地建模扩展序列，而且对两个句子之间的关系(是连续的，还是随机选择的两个句子)

5. 通过将两个句子连接在一起，BERT可以被扩展成两个句子的模型。

6. 对应的关节模型可表示为p(x;y;c)，其中x是第一个句子，y是第二个句子，c = {0,1}是一个标签，指示源文档中的句子是独立的还是连续的。

7. 为了与原文保持一致，我们还在序列的末尾添加了一个[SEP]标记，尽管它并不是严格需要的。

8. 本例中对应的类标签是c = 1，表示x和y是连续的。

The VideoBERT model

1. 为了将BERT扩展到视频，我们仍然可以利用预先训练好的语言模型和可扩展的实现来进行推理和学习，我们决定进行最小的更改，并将原始的可视数据转换为离散的令牌序列。

2. 为此，我们建议使用一个预先训练的模型，对来自视频的特征应用分层向量量化来生成一个“视觉词汇”序列。

3. 除了简单之外，这种方法还鼓励模型在视频中关注高级语义和更长期的时间动态。

4. 这与大多数现有的视频表示学习的自我监督方法形成了对比，后者学习低水平的属性，如局部纹理和动作

5. 我们可以将语言语句(来自ASR视频)与视觉语句结合起来生成数据

6. 虽然这个完形填空任务很自然地扩展到语言和视觉标记序列，但是应用下一个句子预测任务(如BERT所使用的)就不那么直接了。

7. 我们提出了一个语言-视觉对齐任务，其中我们使用[CLS]标记的最终隐藏状态来预测语言句子是否与视觉句子在时间上对齐。

8. 请注意，这是语义关联的一个嘈杂指标，因为即使在教学视频中，说话者可能指的是一些视觉上不存在的东西。

9. 为了解决这个问题，我们首先将相邻的句子随机连接成一个长句子，这样即使两个句子在时间上没有很好的对齐，模型也可以学习语义对应。

10. 其次，因为即使是相同的动作，不同视频之间的状态转换速度也会有很大的差异，所以我们对视频标记随机选取1到5步的次采样率。

11. 这不仅有助于模型对视频速度的变化更加健壮，而且还允许模型捕获更大时间范围内的时间动态，并学习更长期的状态转换。

12. 我们把对视频和文本结合的其他方式的研究留给未来的工作。

13. 总的来说，我们有三种对应于不同输入数据模式的训练机制:纯文本、纯视频和纯视频文本。

14. 对于纯文本和纯视频，标准的掩码完成目标用于训练模型。

15. 对于文本-视频，我们使用前面描述的语言-视觉对齐分类目标。

16. 总体培训目标是个体目标的加权和。

17. 文本目标迫使VideoBERT做好语言建模;视频目标迫使其学习“视频语言模型”，该模型可用于学习动态和预测;而文本-视频的客观要求它学习这两个领域之间的对应关系。

18. 一旦我们训练了这个模型，我们就可以在各种下游任务中使用它，在这项工作中，我们定量地评估两个应用程序。

19. 在第一个应用程序中，我们将其视为概率模型，并要求它预测或输入被掩盖的符号。

20. 我们在4.4节中对此进行了说明，在这里我们执行“零镜头”分类。

21. 在第二个应用程序中，我们提取了[CLS]令牌的预测表示(来自模型的内部激活)，并使用该密集向量表示整个输入。

22. 这可以与其他特征相结合，这些特征来自于下游监督学习任务的输入。

Experiments and Analysis

1. 在语言和视觉领域的深度学习模型，在不断增长的大型数据集中，一直显示出显著的性能提升。

2. 例如，“大”BERT模型(我们使用的)是在BooksCorpus(8亿字)和英语维基百科(2500亿字)的连接上预先训练的。

3. wefocus on cooking videos specifically

4. 不幸的是，这样的数据集相对较小，所以我们转向 YouTube 来收集大规模的视频数据集进行训练。

5. 我们使用YouTube视频注释系统从YouTube上提取了一组公开的烹饪视频，检索与“烹饪”和“食谱”相关的主题的视频。

6. 收集的视频中，删除了15分钟以上视频。最终得到213K个视频。该数据集的总持续时间为23186小时，大约966天。已有YouCook II 要大两个数量级，YouCook II 是由2K个视频组成，总时长为176个小时

7. 为了从视频中获取文本，我们使用YouTube Data API[1]提供的YouTube自动语音识别(ASR)工具包来检索带有时间戳的语音信息。API返回单词序列和预测的语言类型。在312K的视频中，有180K是可以通过API检索到的ASR，预计有120K是英文的。在我们的实验中，虽然我们将所有的视频都用于纯 - 视频目的，但我们只将来自英语 ASR 的文本用于 VideoBERT 的纯 - 文本和视频 - 文本目的。

8. 我们在YouCook II数据集[38]上评估了VideoBERT，它包含了2000个YouTube视频，平均时长5.26分钟，总共176个小时。

9. 我们使用提供的数据集分割，其中1333个视频用于培训，457个用于验证。

Video and Language Preprocessing

1. 对于每个输入的视频，我们以每秒20帧的速度采样，并在视频上创建30帧(1.5秒)不重叠窗口的剪辑。

2. 对于每个30帧的剪辑，我们应用一个预先训练的视频卷积网络来提取其特征。

3. 在这项工作中，我们使用了S3D[34]，它将可分离的时域卷积添加到Inception网络[25]骨干网中。

4. 我们在最终的线性分类器之前进行特征激活，然后应用3D平均池得到一个1024维的特征向量。

5. 我们在动力学[9]数据集上对S3D网络进行了预培训，该数据集涵盖了来自YouTube视频的广泛操作，并作为每个单独片段的通用表示。

6. 我们用层次知识表示视觉特征。我们通过可视化地检查集群的一致性和代表性来调整层次级别d的数量和每级别k的集群数量。我们设置d=4, k = 12，得到124 = 20736个簇。图4说明了这个“矢量量化”过程的结果

7. 对于每个ASR单词序列，我们使用一个现成的基于lstm的语言模型添加标点符号，从而将单词流分解为句子。对于每个句子，我们遵循BERT[6]中的标准文本预处理步骤，并将文本标记为单词[33]。我们使用BERT的作者提供的相同词汇表，其中包含30,000个令牌

8. 不像语言可以自然地分解成句子，它不清楚如何将视频分解成语义连贯的片段。我们使用一个简单的启发式方法来解决这个问题:当一个ASR语句可用时，它与开始和结束时间戳相关联，并且我们将属于那个时间段的视频标记作为一个片段。当ASR不可用时，我们简单地将16个令牌视为一个段。

Model Pre-training

1. 我们从文本预先训练的checkpoint 初始化BERT权重。具体来说，我们使用由[6]的作者发布的BERTLARGE模型，使用相同的主干架构:它有24层Transformer块，每个Transformer块有1024个隐藏单元和16个self-attention

head。

2. 我们为每个新的“可视单词”在单词嵌入查找表中添加了20736个条目，从而增加了对视频标记的支持。我们使用S3D特性从相应的簇中心初始化这些条目。输入嵌入在训练前被冻结。

3. 我们的模型训练过程在很大程度上遵循BERT的设置:我们在Pod配置中使用了4个Cloud

TPUs，总批处理大小为128，我们训练了50万个迭代，或大约8个epoch的模型。我们使用Adam优化器，初始学习率为1e-5，线性衰减学习率计划。培训过程大约需要2天。

Zero-shot action classification

1. 一旦pretrained, VideoBERT模型可以用于“zero-shot”分类新数据集,如YouCook

II(通过“zero-shot”我们指的是模型不是对准YouCook II具有相同标签的数据也没有本体用于YouCook II)。更确切地说,我们要计算p (y|x)其中x是视觉符号序列,y是一个序列的单词。由于模型被训练来预测句子，我们将y定义为固定的句子，“现在让我向您展示如何[屏蔽][屏蔽]”，并分别从第一个和第二个屏蔽槽中预测的标记中提取动词和名词标签。

2. 为了进行定量评估，我们使用了YouCook II数据集。在[37]中，作者为YouCook II的验证集收集了63个最常见对象的ground truth边界框。然而，对于行为没有ground truth标签，许多其他常见对象也没有标签。因此，我们收集来自ground truth标题的动作和对象标签来解决这个缺点。我们在ground truth标题上运行一个现成的词性标记来检索100个最常见的名词和45个最常见的动词，并使用它们来派生ground truth标签。虽然VideoBERT的词块词汇表为它提供了有效执行开放词汇表分类的能力，但它因此更有可能做出语义上正确的预测，而这些预测并不完全符合更有限的ground true。因此，我们报告了排名前1和前5的分类准确性指标，后者旨在缓解这个问题，我们将更复杂的评估技术留给未来的工作。最后，如果有一个以上的动词或名词与一个视频片段相关联，我们认为预测是正确的，如果它符合其中任何一个。我们报告了YouCook II验证集的性能

3. 我们也使用来自文本BERT模型的先验语言，这在烹饪视频中没有得到很好的调整。我们可以看到VideoBERT比两个基线都好得多。正如所料，VideoBERT的语言先验适用于烹饪句子，并且优于vanilla BERT模型。

4. 然后，我们与使用YouCook II的训练分割训练的完全监督分类器进行比较。我们使用预先计算好的S3D特性(与VideoBERT的输入相同)，随着时间的推移应用平均池，然后使用线性分类器。表1显示了结果。正如我们所看到的，supervised framework在动词准确性方面超过了VideoBERT，这并不奇怪，因为VideoBERT拥有一个非常开放的词汇表。(有关操作标签的模糊性，请参见图5。)然而，排名前5的精度指标显示，VideoBERT在没有使用任何来自YouCook II的监督的情况下，实现了与完全监督的S3D基线相当的性能，这表明该模型能够在这种“0次学习”设置下进行竞争。

Benefits of large training sets

1. 我们还研究了训练前数据集大小的影响。在这个实验中，我们从训练前的视频集中随机选取10K、50K和100K的子集，使用与上面相同的设置，对相同的epoch进行训练前的VideoBERT。表2显示了性能。我们可以看到，准确性随着数据量的增加而单调增加，没有饱和的迹象。这表明VideoBERT可能会受益于更大的训练前数据集。

Transfer learning for captioning

1. 我们进一步证明了VideoBERT作为特征提取器的有效性。

2. 我们使用与他们相同的模型，即变压器编码器-解码器，但我们将编码器的输入替换为上面描述的VideoBERT派生的特性。

3. 我们还将视频沙漠功能与平均汇集的S3D功能连接起来;作为基准，我们也考虑只使用S3D功能而不使用VideoBERT。

4. 我们设置transformer层数为2，隐藏单元大小为128，dropout

rate为0.4。我们在训练分割上使用5倍交叉验证来设置超参数，并在验证集上报告性能。我们训练了批大小为128的40K迭代的模型。我们使用相同的亚当优化在VideoBERT前训练，并设置初始学习率为1e-3与线性衰减时间表。

Discussion and conclusion

1. 使用空间细粒度的视觉表示非常重要，而不是只在框架或剪辑级别工作，这样我们就可以区分单个对象及其属性。

2. 我们计划在其他视频理解任务和烹饪之外的其他领域评估我们的方法。