最新知识

介绍youtube的文章(youtube怎么写)

最新知识客服VX(coolfensi)2023-01-21 22:35:1098

谁能详细介绍一下You Tu be?(它的特点,它的营利模式等) ??

YouTube是一个视频网站,2005年2月成立于美国加州。“YouTube”的意思是“你的电视”(美国人称电视为Tube)。自创办以来,就在年轻人当中窜红,现在YouTube拥有视频节目超过1亿部,今年8月,这家网站吸引的访问者高达7200万人次,占了网上短片分享网站的46%的市场。

联系方式:微信:coolfensi
(使用浏览器扫码进入在线客服窗口)
复制联系方式

在YouTube上你能找到大众关注的焦点事件,还有知名的娱乐片段以及网民自娱自乐自拍的视频短片等。如今在美国,当人们想如看电视那样上网观看视频画面时,他(她)会说:“YouTube一下”。

这家由三位PayPal前员工创建的成立只有20个月的视频网站,在2006年占据了全球互联网视频领域46%的份额。据统计,YouTube世界范围的流量平均达620万人次/天;而在美国就拥有160万人次/天的平均流量。今年10月,搜索之王Google以16.5亿美元的天价将其收购。

作为YouTube的CEO,查德·赫尔利(Chad Hurley)和他的合伙人斯蒂夫·陈(Steve Chen),远没有Google创始人“把世界变得更好”这样的鸿鹄之志。收购当日,这两个20多岁的年轻人将自己摄入镜头,让全世界都看到他们难掩的喜悦。视频画面因手持摄像机而不断摇晃,他们则滔滔不绝地讲着继续为用户“开发最创新的服务”之类的话,也许正是这样的平民性格才会创造出YouTube这样颇受草根大众喜爱的社区性网站。

大众娱乐新方式

如今,许多美国网友每天至少花一个小时泡在YouTube上。在YouTube上面用户可以找到自己期望的一切,简直就是一个视频版的Google,人们在上面通过标签(相当于关键词)可以了解今天和过去发生的一切。

这一切的开始,是在一次PayPal前员工的聚会上。当时,大家在抱怨很难分享自己拍摄的录像,Chad Hurley和Steven Chen以及另一位PayPal的前员工开始留意这个机会,到2005年2月,他们三人创建了YouTube。

深谙技术的Steven Chen和美术科班出身、富有创造性的Chad Hurley真是完美的组合。其前任雇主PayPal的斯托普尔曼评价道:“这种组合使他们既具备比较软性的元素,如迎合网上人群的喜好,又拥有技术实力。”

创始之初,Chad Hurley和Steven Che的想法是,让大家可以在YouTube上面交换自制的录像。可是从一开始就有人将电视节目和电影的片段贴在上面,YouTube成为了美国免费的录像图书馆,所有的人可以在上面任意选择他的所爱。它尤其吸引了年轻人的眼球,并几乎成为他们表达自己的一种方式。这个网站是允许人把录像上传到网上,交换、欣赏和评论的。纽约的泰勒说,YouTube完全改变了他的娱乐方式。

“便捷”、“好用”赢得消费者

YouTube的“走俏”,还在于该网站的“好用”和“便捷”。作为网站合伙人、同时兼任技术总监的Steve Chen,负责整个网站技术方面的工作。他是一个上手很快、能力很强的程序员,他曾因为解决了YouTube因网络流量急剧增长而导致的网络拥堵问题,并由此而成名。良好的“服务”,为YouTube扩大流量提供了技术保障。

YouTube使用的格式可以用无所不在的Flash播放器播放。此举消除了浏览者因没有最新版微软(Microsoft)、RealNetworks或苹果(Apple)的播放器而遭遇的窘境。这使博客(blogger)和其它人很容易从YouTube上抓取一个视频片段,并放置在自己的网页上,从而扩大了其视频内容的观众圈。

YouTube为网友提供了更好的搜索,他们可以按访问量、评价、播放列表和频道里的搜索量来排序结果;YouTube中有最高评价的和有争议的影片列表,如果知道一个影片有3000人次的访问量,500个绝妙的评价,这种感觉是很让人安心的。

Chad Hurley在YouTube被Google收购之后表示,他们将在Google的帮助下在互联网上建立一个新的视频内容模式和平台,抓住视频导入的联动新技术,而这将为他们赢得未来。

影响及评价

因特网革命:网民变信息提供者

科技发达、宽带和摄影器材的普及令短片资讯大行其道。这令网民由传统的接收资讯者,变成资讯发布者,网民更可成立自已的私人影院、影片发布站、新闻站,取代传统的传播媒体。如一名青年人方颖恒拍下的短片竟能带来如此巨大的回向及点击率,因此巴士阿叔令不少香港创作人意识到因特网世界对传统媒体的冲击。 Getdemocracy.com发言人穆尔说:“电视及影像的传播途径,正由上而下的模式,转变为由下而上。每人都可创立自己的新闻频道,或上载家庭生活短片。与此同时,愈来愈多人欣赏网上短片,令电视的收视逐渐转移至电脑屏幕。”

网上社群

不少网民借自拍短片分享个人珍藏和心得,如一名来自古巴的美国移民埃利亚斯对男人美腿有特殊喜好,遂于YouTube分享其评足心得。后来他发现在Youtube有不少志同道合者,于是成立“男人脚同好”会,3个月内已招收到逾460个会员亦有英国人透过短片教美国人吃以色列雅法橙蛋糕的方法,每天接获约200个电邮。

揭发风气

巴士阿叔事件后,YouTube涌现了不少香港网民透过手机拍摄巴士、小巴、地铁乘客众生相的影片。YouTube亦曾有一段传统名校拔萃男书院学生,以粗口Rap歌羞骂同学的片段,短片迅速在网上流传,传媒广泛报导,那些学生的行为便被批评为影响校誉。因此,youtube这种网站对短片拍摄者,甚至一般在公众场所活动的市民也有影响。

协助破案

《鸭记啊叔偷野实录》: 原载《东方日报》2006年8月31日 一间鸭寮街影音店内闭路电视拍下有人偷窃,事后短片被上载YouTube 任人浏览,有警务人员惊觉片中的主角怀疑是同袍,结果该名即将退休的警察伯伯已经被捕,案件交由深水埗区重案组调查。

侵犯版权

YouTube自成立以来,其短片曾被不少机构和公司批评为侵犯版权,如Saturday Night Live broadcast、NBC Universal、Family Guy videos owners、Turner Media、Sunrise等。

影片白痴主义

PC Magazine发言人称:“沉迷短片很浪费时间。一旦迷上,就会变成iVideots(影片白痴)。这可说是影片白痴主义……YouTube就像吃玉米花,令人欲罢不能”。

鼓吹社会不良风气

2006年6月1日,英国独立电视台(ITV)批评YouTube及近似的网站鼓吹暴力,因为这些网站上传了由手机拍摄的打斗影片。虽然YouTube禁止过份暴力和色情的影片,但ITV指与这些网站沟通时有一定困难。

2006年8月11日至19日,英国极右派团体在YouTube张贴数段恐吓影片,模仿伊斯兰教激进份子“殉道烈士”录像带,每段影片的长度是二至三分钟。影片内容是一群白人男性荷枪实弹,手持刀刃棍棒,仿效恐怖份子蒙面装扮,警告所有穆斯林马上离开英国。影片中,一名操威尔斯口音的男子警告英国穆斯林若不“回家”就会被活活烧死,并说全英国已有许多“同志”受够了穆斯林。英国伊斯兰人权委员会执行长Massoud Shadjareh说,这些影片的出现相当令他忧心。英国反法西斯主义杂志《探照灯》发行人Gerry Gable谴责YouTube容许这类提倡恐怖主义的影片存在。

对于YouTube发展方向的争论暂告结束,而对于视频网站价值的争论和商业模式的探索将会继续下去。

10月9日,视频

共享网站YouTube首页的显著位置上有一段来自创始人查德·赫利(Chad Hurley)和斯蒂夫·陈(Steve Chen)的视频,在这段视频里,两人告诉外界,他们已经将网站出售给了Google(Nasdaq:GOOG)。就在当天Google也正式宣布了这一消息,收购总价为16.5亿美元的Google股票。

由于此前业界对这一收购已经有充分预见,因此收购本身并无太大出人意表之处,一场关于YouTube最终归属和发展方向的争议终于结束了,但是,对于整个的视频互联网行业以及国内外的视频同行来说,在商业模式和发展路径问题上,依旧是悬念重重。

又一个创业传奇

查德·赫利和斯蒂夫·陈让Google的CEO施密特联想起了Google的两位创始人,而塞尔吉·布林自己也表示,在此二人身上看到了创业时的自己。

在创立YouTube之前,29岁的查德·赫利和27岁的斯蒂夫·陈曾经在eBay公司的支付部门Paypal共同工作几年。YouTube的创业灵感来源于在一次聚会上的偶然发现,与朋友在网上分享视频文件或者图片极为不便由此而萌生了做一个视频共享网站的想法。

2005年初,YouTube正式成立,同许多硅谷传奇故事的开头类似,也曾经有过一段“车库里”的经历,但是很快YouTube就走上了一条飞速发展的道路。目前,YouTube已经在视频网站当中占据了绝对领先优势,根据互联网调查公司Hitwise的数据,YouTube占据了互联网视频领域46%的份额,以绝对的优势领先于对手。

在被Google收购之后,YouTube的主要创始人和主要投资人均从这一交易中收获巨大。据估计其最主要的风险投资商红杉资本有可能从中获利4.8亿美元。而其主要创始人也借此跻身亿万富翁的行列。

查德·赫利在不久前曾一直坚持,YouTube是非卖品,在他看来IPO才是可以被接受的选择。在将公司出售之后的电话沟通会上,查德·赫利强调,他此前做出这样的表示,是因为想保持公司的独立发展,而在出售给Google之后,YouTube可以继续保持这样的独立性,而且借助Google的资源,YouTube可以更快地成为一个新的媒体平台。

重塑商业模式

在宣布被Google收购的当天,YouTube同时宣布同索尼新力、华纳音乐集团、环球音乐集团以及哥伦比亚广播公司等内容巨头达成合作,成为这些内容企业的传播渠道。而在此之前,因为版权问题,YouTube一直官司缠身。

虽然贵为互联网视频领域的翘楚,虽然已经积累了足够多的人气,但是在商业模式上,YouTube并没有表现出多少过人之处。此前,《经济学家》曾经撰文对YouTube的模式表示担忧,UGC(user generate content)的内容已经充分证明的确可以迅速吸引来很多的访问量,但是具体能否产生利润却是一个未知数。

“星巴克有舒适的座椅,但是它们并没有因此而向用户收费。”UGC的内容模式让Guba创始人之一的汤姆·迈克纳尼联想到了星巴克咖啡的商业模式。星巴克是以合理的价格,提供了舒适的环境,为此人们才乐意买高价咖啡。而这也正是提供UGC内容模式网站所追求的商业模式。通过提供免费互动的平台,这些网站提供了网上的“舒适座椅”,但问题是,到目前为止那杯能带来利润的“咖啡”还未曾出现。

介绍youtube的文章(youtube怎么写) 第1张

20210329经济学人精读|中国的youtube—哔哩哔哩的发展与盈亏情况

本文节选自《经济学人》2021.3.27期Business版块的一篇文章《China’s YouTube》,简单介绍了bilibili营收及发展情况

本文总共6段,建议大家先自主阅读原文,再学习精读笔记。

文末会总结此次学习写作可以使用的词句,读者也可自己总结。 会定期将内容进行总结,做成word分享,希望大家也能坚持学习

1

The  mission statement  of Bilibili, often  dubbed  “China’s YouTube”, stands out for  its modesty. Instead of promising to change the world, the firm  aspires  merely  to  “enrich the everyday life of young generations in China”. If  user figures  are a guide, the Chinese young feel enriched. In the last quarter of 2020 the number of people who used the service at least once a month  shot up by half from a year earlier , to 202m. Nearly nine in ten were under the age of 35. Videos on the platform, which range from sports highlights to  self­help lectures  and everything in between, attract an average of 1.2bn  daily views .

mission statement : 宗旨说明,英文:an official statement of the aims of a company or an organization,即一家公司或组织的目标 【词汇积累】

dubbed : dub,称作,起绰号,A is dubbed被动形式表示……被称作 【词汇积累】

stand out for sth : 以……脱颖而出,引人注目 【词组积累】

aspire to do or sth : 立志于做某事 【词组积累】

user figures : 用户数据 【词汇积累】

shot up by half from a year earlier : shot up表示激增,猛涨,by half表示增长的量,表示比一年前猛增了一半 【词组积累】

self­help lectures : self-help表示自助的,可以表示自主学习课程 【地道表达】

1.2 bn daily views : 12亿每日观看次数 【地道表达】

 Bilibili,常被称作中国的YouTube,以其谦虚的公司宗旨而引人注目,他并非承诺改变世界,而只是希望“丰富中国年轻一代的日常生活”。如果以用户数据为依据,中国年轻人确实感受到了充实感。在2020年的最后一个季度,每月至少使用这项服务一次的人数比一年前猛增了一半,达到了2.02亿,将近十分之九的人年龄在35岁以下。该平台上的视频,从体育高光时刻到自主学习,以及介于两者之间的一切,平均每天吸引12亿人次观看。

2

Launched  in 2009 as a website for fans of Japanese anime, Bilibili has evolved into  a diversified entertainment group. In recent months even Western musicians (such as Jessie J and Charlie Puth) and Hollywood stars (including Dwayne Johnson) have  rushed to set up Bilibili accounts . Investors, too, have taken notice.  Between  March 2018, when the firm  listed  in New York,  and  February this year its market capitalization rose more than ten­fold, to $41bn. On March 23rd it raised $2.6bn in a secondary listing in Hong Kong.

Launch : 上市。除了发射(火箭)外,还有上市的意思,launched in 2009 于2009年上市。下文中的 list  in New York中的list也有上市的意思 【词汇积累】

evolved into : 进化成为 【词组积累】

rush to set up Bilibili accounts : rush to do争先箜篌地做某事,set up …… accounts则表示开设创建……的账号 【词组积累】

Between  ……  and  ……: 表示在……和……之间,可以为两个时间段之间 【词组积累】

Bilibili于2009年上市,是一家面向日本动漫迷的网站,现已发展成为一家多元化的娱乐集团。近几个月来,甚至连西方音乐家(Jessie J和Charlie Puth)和好莱坞明星(包括Dwayne Johnson)都争先恐后地开设了Bilibili账户。投资者也注意到了这一点。从2018年3月该公司在纽约上市到今年2月,其市值增长了10倍多,达到410亿美元。3月23日,在香港二次上市中筹集了26亿美元。

3

Unlike YouTube, Bilibili refuses to  clutter  user­generated videos with adverts. That way, the thinking goes, it can attract new users  put off by  such interruptions, and convince them to spend more time on the platform. The central aim, as described by executives, is to “convert” this “sticky community” into “paying users”. Bilibili does so in two main ways:  by offering games where   players purchase virtual items to advance to the next level , and access to original and licensed firms and series. This Netflix­like business, launched in 2018, now has 14.5m paying subscribers.

clutter : ~ sth (up) (with sth/sb) 凌乱地塞满;乱堆放to fill a place with too many things, so that it is untidy。文中指的是bilibili不会在用户上传的视频中,随意添加广告:clutter user-generated videos with adverts 【词汇积累】

put off by : 被……推迟,这里指的是bilibili运用不放广告的理念吸引那些被广告阻碍看视频的用户 【词组积累】

by offering games where players purchase virtual items to advance to the next level : 这里的定语从句where后面句子是完整的,不缺成分,where表示玩家在游戏中发生购买行为时的场所,也可以理解为in which

与YouTube不同,Bilibili拒绝在用户自制的视频中添加广告,这样做可以吸引新用户推迟这种中断,并说服他们花更多的时间在平台上。正如高管们所描述的,核心目标是将这个“粘性社区”转化为“付费用户”。Bilibili主要通过两种方式实现这一点:提供玩家购买虚拟物品以提升到下一个级别的游戏,以及访问原始和许可的公司和系列产品。这种类似Netflix的业务于2018年推出,目前拥有1450万付费用户。

4

The share of users who pay for things like in­game  accessories  and subscriptions has risen from 3.9% in 2018 to 8.0% in 2020. Receipts from these sources helped Bilibili nearly to  double its revenues in each of the past three years , to 12bn yuan ($1.7bn) in 2020. It also sells adverts on parts of its platform, but they made up less than fifth of its sales.

accessory : 配件、附属品,文中指游戏中的付费物品,in-game accessories 【词汇积累】

double its revenues in each of the past three years :: 在过去的三年中收入每年都翻了一番 【地道表达】

支付游戏内附属品和订阅费的用户比例从2018年的3.9%上升到2020年的8.0%。这些来源的收入帮助Bilibili在过去三年中每年的收入翻了一番,到2020年达到120亿元人民币(合17亿美元)。它也在部分平台上销售广告,但这些广告所占的份额还不到其销售额的四分之一。

5

All this has yet to make any money . Last year Bilibili reported an operating loss of 3bn yuan, double the  shortfall  in 2019. Profits may remain elusive; the company must invest to maintain a pipeline of addictive games and  pays top dollar  to  outbid  big streamers like iQiyi  for  the rights to popular movies and shows its  nascent subscription business needs.

All this has yet to make any money : 然而这还没有赚到一分钱

Shortfall : 亏空,缺口 【词汇积累】

pays top dollar : 付高价 【词汇积累】

outbid sb for sth : 出价高于某人 【词组积累】

nascent : 新生的,萌芽的 【词汇积累】

然而所有这些都还没有赚到钱。去年,Bilibili公布了30亿元的经营亏损,是2019年亏损额的两倍。利润可能仍然难以捉摸;该公司必须通过投资维持游戏渠道,并支付高价,以超过爱奇艺等大型流媒体,获得热门电影的版权,并展示其新生的订阅业务需求。

6

Bilibili’s executives are  sanguine . “As our net revenues continue to grow, we do not expect our total content costs as a percentage of total revenue to  substantially  increase,” they wrote in the prospectus  for the firm’s Hong Kong listing. Its share price, down by a third since its February peak, suggests investors want finally to see some proof.

Sanguine : 充满信心的,乐观的 【词汇积累】

Substantially : 除了基本上,总体来说,还有大大地,大幅地 【熟词僻义】

Prospectus : 招股书

Bilibili的高管们很乐观。“随着我们的净收入继续增长,我们不希望我们的总内容成本占总收入的百分比大幅增加,”他们写道,在该公司的香港上市的招股书。该公司股价自2月份高点以来下跌了三分之一,这表明投资者终于希望看到一些证据。

总结

mission statement : 宗旨说明,英文:an official statement of the aims of a company or an organization,即一家公司或组织的目标 【词汇积累】

dubbed : dub,称作,起绰号,A is dubbed被动形式表示……被称作 【词汇积累】

user figures : 用户数据 【词汇积累】

Launch : 上市。除了发射(火箭)外,还有上市的意思,launched in 2009 于2009年上市。下文中的 list  in New York中的list也有上市的意思 【词汇积累】

clutter : ~ sth (up) (with sth/sb) 凌乱地塞满;乱堆放to fill a place with too many things, so that it is untidy。文中指的是bilibili不会在用户上传的视频中,随意添加广告:clutter user-generated videos with adverts 【词汇积累】

accessory : 配件、附属品,文中指游戏中的付费物品,in-game accessories 【词汇积累】

Shortfall : 亏空,缺口 【词汇积累】

pays top dollar : 付高价 【词汇积累】

nascent : 新生的,萌芽的 【词汇积累】

Sanguine : 充满信心的,乐观的 【词汇积累】

stand out for sth : 以……脱颖而出,引人注目 【词组积累】

aspire to do or sth : 立志于做某事 【词组积累】

shot up by half from a year earlier : shot up表示激增,猛涨,by half表示增长的量,表示比一年前猛增了一半 【词组积累】

evolved into : 进化成为 【词组积累】

rush to set up Bilibili accounts : rush to do争先箜篌地做某事,set up …… accounts

则表示开设创建……的账号 【词组积累】

Between  ……  and  ……: 表示在……和……之间,可以为两个时间段之间 【词组积累】

outbid sb for sth : 出价高于某人 【词组积累】

put off by : 被……推迟,这里指的是bilibili运用不放广告的理念吸引那些被广告阻碍看视频的用户 【词组积累】

Substantially : 除了基本上,总体来说,还有大大地,大幅地 【熟词僻义】

self­help lectures : self-help表示自助的,可以表示自主学习课程 【地道表达】

1.2 bn daily views : 12亿每日观看次数 【地道表达】

double its revenues in each of the past three years :: 在过去的三年中收入每年都翻了一番 【地道表达】

关于YouTube推荐系统的论文学习

本文是2010年发表在RecSys上的文章。本文主要介绍的是YouTube的个性化推荐的相关内容。

用户使用YouTube一般有三个原因:

--看他们在其他地方找到的单一视频(直接导航);

--围绕某个主题(搜索和目标导向浏览)查看特定视频;

--受他们感兴趣内容的吸引。

推荐系统主要是针对第三点,目的是帮助用户发现他们感兴趣的高质量视频,并且推荐结果应该随时间和用户最近的行为更新。

在YouTube的推荐应用中,面临以下挑战:

--用户上传的视频的元信息非常少;

--视频时长比较短(一般小于10分钟);

--用户行为短暂、多变而且噪声很多;

--视频生命周期短。

这是YouTube的推荐和普通视频网站推荐不同的地方,这些挑战也是现在很多短视频公司关注的问题。

推荐系统算法应该保持时效性和新鲜性,另外,用户必须了解为什么向他们推荐视频,这样可以帮助用户根据自己的喜好改善推荐引擎。推荐的视频是通过用户的行为来生成的,用户的行为包括观看、收藏、喜欢等来作为种子视频,然后使用各种相关性和多样性的 signals 对视频集进行排序。推荐系统的工程设计方面,保持各个模块的独立性,并且还需要对故障具有恢复能力,并在出现部分故障时适度降级。

这里有2种数据可以考虑:

1)是内容数据视频流、视频元信息(标题,标签等);

2)用户行为数据,包括显性和隐性数据。前者是指用户评分、明确表示喜欢、不喜欢等行为,后者是浏览、观看等行为。

原始数据中还含有非常多的噪声,很多不可控因素会影响原始数据的质量。

作者将相关视频定义为用户在观看给定的种子视频 v 之后可能会观看的视频,使用关联规则挖掘技术来确定视频间的相关性。视频i和j的相关性定义为:

将用户观看过的视频、喜欢过的视频、收藏过的视频等等作为种子集合,对它们进行N级的级联扩展,也就是YouTube选择召回的不是1步相关视频,而是n-步相关视频,即种子视频迭代n次后得到的相关视频集合,产生广阔和多样的候选结果。

在生成一组候选视频后,需要对这些相关视频进行排序。

用于排序的数据主要包括:

--视频质量:包括观看次数、视频评分、评论、收视和上传时间等;

--用户特征:考虑用户观看历史记录中种子视频的属性,例如观看次数和观看时间等;

--多样性:要在被推荐的视频集合的类别中做一个平衡,以保持结果的多样性。

这些数据最终被线性组合起来,得到ranking的评分。

本文虽然是2010年发表的,近年来有很多内容升级复杂化了,但是作为初学者,本文的知识点和整体思路是非常值得学习的。当时的YouTube推荐系统的核心算法就是基于Item的协同过滤算法,也就是对于一个用户当前场景下和历史兴趣中喜欢的视频,找出它们相关的视频,并从这些视频中过滤掉已经看过的,剩下就是可以用户极有可能喜欢看的视频。

本文是Google的YouTube团队在推荐系统上DNN方面的尝试,发表在16年9月的RecSys会议。本文第1节介绍了YouTube推荐系统主要面临的挑战。第2节介绍了一个简要的系统概述。第3节更详细地描述了候选集生成模型,包括如何对其进行训练并用于提供推荐服务;实验结果显示模型添加特征和DNN深度后可以显著提升预测效果。第4节详细说明了排序模型,包括使用加权逻辑回归技术以训练预测预期观察时间的模型;实验结果表明,增加隐层网络宽度和深度都能提升模型效果。 最后,第5节做了总结。

-规模大:用户和视频的数量都很大,传统适合小规模的算法无法满足;

-新鲜度:要求对新视频作出及时和合适的反馈;

-噪音:YouTube上的历史用户行为由于稀疏性和各种不可观察的外部因素而不可预测。 我们很少能获得基本真实的用户满意度,更多的是隐式反馈噪声信号。

推荐系统的整体结构如图所示:

该系统由两个神经网络组成:一个用于候选集的生成,一个用于排序。候选集生成网络将用户的Youtube活动历史记录作为输入,然后从海量视频集中筛选出一小部分(数百个)以高精度与用户相关的视频。排序网络负责基于更加精细的特征对候选集进行排序,最后将最高得分的视频呈现给用户(按它们的得分排名)。

该模型把这个推荐问题转化成极端多分类问题:对于用户U和上下文C,把语料库V中的数百万个视频(分类)i,在时间t处做准确的分类,如下所示:

其中u为用户U的embedding表示,vi 代表各个候选视频的embedding。embedding是指稀疏实体(单个视频,用户等)到实数密集向量的映射;DNN的目标就是在用户信息和上下文信息为输入条件下学习用户的embedding向量u,这对于用softmax分类器来区分视频是有用的。

整个模型架构是包含三层全连接层,使用relu激活函数。把用户观看历史数据、搜索数据做一个embedding,加上age、gender等特征作为DNN的输入;输出分线上和离线训练两个部分。训练阶段使用softmax输出概率,在服务期间则直接使用接近最近邻搜索来进行生产候选的N个视频。

1)把用户观看过的视频id列表做embedding,并对所有历史观看视频ID的embedding做平均,得到观看embedding向量。

2)同时把用户搜索过的视频id列表也做如上的embedding,得到搜索embedding向量。

3)用户的人口统计学属性做embedding得到特征向量。

4)简单的二值和连续特征,例如用户的性别,登录状态和年龄作为归一化为[0,1]的实数值直接输入到网络中。

5)example age:机器学习系统总是利用历史的例子去预测未来,所以对过去总会有一个隐含的偏差。为了矫正偏差,YouTube把训练样本的年龄当作一个特征。

1.训练样本要用youtube上的所有视频观看记录,而不只是我们的推荐的视频的观看记录。

2.为每个用户生产固定数量的训练样本。

3.丢弃搜索信息的顺序,用无序的词袋表示搜索查询。

4.如下图,图(a)从历史观看记录中随机拿出来一个作为正样本来预测它,其余的历史观看记录作为上下文;这样其实泄露了未来的信息,并且忽略了任何非对称的消费模式。相反,图(b)是从用户的历史视频观看记录中随机拿出来一个作为正样本,然后只用这个视频之前的历史观看记录作为输入;这样的预测效果好得多。

– 深度为0:这时网络就是一个把连接起来的输入层转换一下,和softmax的256维输出对应起来

– 深度为1:第一层 256个节点,激活函数 是ReLU (rectified linear units 修正线性单元)

– 深度为2:第一层512个节点,第二层256个节点,激活函数都是ReLU

– 深度为3:第一层1024个节点,第二层512个节点,第三层256个节点,激活函数都是ReLU

– 深度为4:第一层2048个节点,第二层1024个节点,第三层512个节点,第四层256个节点,激活函数都是ReLU

实验结果如下图所示:

可以看出,特征选取较多时,并且模型深度在四层时,可以得到较好的结果。

排序阶段最重要的任务就是精准的预估用户对视频的喜好程度。在排序阶段面对的数据集比较小,因此会采用更多的特征来计算。

作者在排序阶段所设计的DNN和上文的DNN的结构是类似的,但在训练阶段对视频的打分函数不再是softmax,而是采用的逻辑回归。如下图所示:

1)特征工程

尽管神经网络能够减轻人工特征工程的负担,但是我们依然需要花费精力将用户及视频数据转化为有效的特征。其主要的挑战在于如何表示用户动作的时间序列以及这些动作如何与正被评分的视频展现相关。但是通过对用户和物品之间的交互行为,我们能提取出一些有用信息,比如: 用户从这个频道里看过多少视频,用户上次观看这个主题的视频是什么时候等。

2)embedding 离散特征

每个维度都有独立的embedding空间,实际并非为所有的id进行embedding,比如视频id,只需要按照点击排序,选择top N视频进行embedding,其余置为0向量;而当多值离散特征映射成embedding之后,像在候选集生成阶段一样,在输入网络之前需要做一下加权平均。另外一个值得注意的是,离散特征对应的ID一样的时候,他们的底层embedding也是共享的,其优势在于提升泛化能力、加速训练、减小内存占用等。

3)连续特征归一化

对连续值类的特征进行归一化,作者设计一种积分函数将特征映射为一个服从[0,1]分布的变量;还可以对某些特征进行取根号、取对数和取平方的相关操作,使得网络有更强的表达能力。

给定正负样本,正样本为有点击视频,负样本为无点击视频;用观看时长对正样本做了加权,负样本都用单位权重(即不加权);采用的是基于交叉熵损失函数的逻辑回归模型训练的。

上表显示了在保留数据集上用不同的隐层配置得到的结果,这些结果表明增加隐层的宽度提升了效果,增加深度也是一样。

本文内容方面,介绍了YouTube基于深度学习的推荐系统,先用视频和用户的主要信息通过深度候选生成模型从百万级视频中找出数百个相关的视频,再用视频和用户的其他信息通过深度排序模型从数百个视频中找出几十个最有可能受用户欢迎的视频给用户。这样使得推荐系统对用户喜好的刻画能力大大增强,刻画的范围更加广泛。

本文结构方面,从推荐系统的整体结构讲起,划分为候选集生成和排序两个阶段,然后对每个阶段详细地展开讲解。整体过程条理清晰,逻辑严密,值得我们学习。

上一篇:youtube这么看直播(youtube怎么看直播节目)

下一篇:youtube官网地址(youtube下载)

猜你喜欢