介绍优酷土豆在大数据方面的管理与运用

发布时间：2023-10-23 13:02:27 所属栏目：大数据来源：

导读：优酷的新首页上线，导航栏中有21个视频分类，提供各种不同类型的内容。为了满足不同用户的需求，可以使用“协同过滤推荐”技术来推荐他们喜欢的视频。

百度百科上这样介绍协同过滤推荐（Collaborative

优酷的新首页上线，导航栏中有21个视频分类，提供各种不同类型的内容。为了满足不同用户的需求，可以使用“协同过滤推荐”技术来推荐他们喜欢的视频。

百度百科上这样介绍协同过滤推荐（Collaborative Filtering recommendation）：“是在信息过滤和信息系统中正迅速成为一项很受欢迎的技术。与传统的基于内容过滤直接分析内容进行推荐不同，协同过滤分析用户兴趣，在用户群中找到指定用户的相似（兴趣）用户，综合这些相似用户对某一信息的评价，形成系统对该指定用户对此信息的喜好程度预测。”

这是亚马逊、谷歌等互联网巨头都在使用的技术。亚马逊会告诉你“买了A商品的顾客也同时购买了B商品”，Youtube上，一个视频播放结束，马上就会出现相关推荐视频。

看上去简单的相关推荐，其实在优酷的视频推荐中涉及上百个参数，每次要调整参数，都要手动调整十几甚至几十个参数，每天推荐视频的数据模型中要涉及的数据高达几十亿。

一次小小的参数调整，带来的后果，可能是当天视频观看带来几百万的增长，也可能是在算法稳定后的未来几周，甚至几个月带来视频观看量的曲线变化。

当然，数字证实，通过这种协同过滤推荐给用户的视频是靠谱的，因为在海量的视频中寻找自己喜欢的视频成本是很高的，推荐视频的打开率也令人满意。

优酷土豆心中的“大数据”

人工智能数据的挖掘、技术分析，用在搜索引擎推荐人工智能视频上，还只是个芝麻绿豆大小的小意思。优酷在2010年推出的“优酷指数”把大数据精神进一步强化，把视频播放周期、用户核心特征、用户播放行为、视频热度排行等数据进行展示。

姚键这样介绍优酷指数诞生的背景：“2010年的时候，优酷在PC互联网时代已经成为最有影响力的视频网站，优酷希望能够在行业内树立一个标杆，在强化优酷品牌的同时，也打造优酷指数这样一个概念。”

今年，优酷指数进而演变成“中国网络视频指数”，加入了土豆网以及移动客户端的视频数据，对数字感兴趣的用户，可以从这个指数里读出很多内容。

作为一款平台化的产品，“中国网络视频指数”在优酷土豆集团中的参考价值无处不在，从广告售卖，到版权购买，再到播放器产品的优化，等等，处处都能够作为指导依据。

据姚键透露，优酷土豆集团推出的数据报告给节目制作方、影视剧公司、第三方分析机构等了解视频节目的播放信息，以及观众人群的分析提供了依据；在广告销售方面，能够为广告主呈现出用户行为特征，提供广告投放价值的分析；在进行版权购买的时候，可以根据指数的走向来帮助决策；公司内部，哪怕是播放器产品的用户体验优化，都可以查看数据分析结果，查看按钮的摆放和使用频率等。

这些价值都是显而易见的，还有我们在表面看不到的，通过数据分析的结果来指导优酷土豆集团的自制内容。

“比如说优酷有很多自制的内容，有很多的微电影、综艺节目等等，这些播放数据可以显示出哪些题材是用户喜欢的，用户看到哪里就看不下去了，在哪里是拖放观看的，一系列的用户行为可以清晰地告诉内容制作人员，应该怎么去剪辑视频，怎么去选择内容题材。”姚键说。

其实这个过程也是对视频质量进行分析的过程，在优酷土豆的搜索、推荐中按照视频质量进行排序，反过来也提高了推荐成功率。

用Spark/Shark完善大数据分析
目前大数据在互联网公司主要应用在广告、报表、推荐系统等业务上。在广告业务方面需要大数据做应用分析、效果分析、定向优化等，在推荐系统方面则需要大数据优化相关排名、个性化推荐以及热点点击分析等。优酷土豆属于典型的互联网公司，目前运用大数据分析平台的主要工作是运营分析、机器学习、广告定向优化、搜索优化等方面。
优酷土豆集团大数据团队技术总监卢学裕表示：“优酷土豆的大数据平台已经用了很多年，突出问题主要包括：第一就是商业智能BI方面，公司的分析师提交任务之后需要等待很久才能得到结果；第二就是大数据量计算，比如进行一些模拟广告投放之时，计算量非常大的同时对效率要求也比较高，用Hadoop消耗资源非常大而且响应比较慢；最后就是机器学习和图计算的迭代运算也是需要耗费大量资源而且速度很慢。”
因此，面对复杂任务、交互式查询以及流在线处理时，Hadoop与MapReduce并不适用。Spark/Shark这种内存型计算框架则比较适合各种迭代算法和交互式数据分析，可每次将弹性分布式数据集（RDD）操作之后的结果存入内存中，下次操作可直接从内存中读取，省去了大量的磁盘IO，效率也随之大幅提升。优酷土豆集团大数据团队大数据平台架构师傅杰表示：“一些应用场景并不适合在MapReduce里面去处理。通过对比，我们发现Spark性能比MapReduce提升很多。”

“比如在图计算方面，视频与视频之间存在的相似关系，这就构成了一个图谱，通过图谱来做聚类，再给用户做视频推荐。” 优酷土豆集团大数据团队技术总监卢学裕表示。

优酷土豆集团大数据团队技术总监卢学裕表示：“我们进行过读计算方面的测试，在4台节点的Spark集群上用时只有5.6分钟，而同规模的数据量，单机实现需要80多分钟，并且内存吃满，单机无法实现Scale-Out，不能计算更大规模数据。”
“在今天，数据处理要求非常快。比如优酷土豆的一些客户、广告商往往临时就需要看一下投放效果。所以在前端应用不变的情况下，如果能更快的响应市场的需要就变得很有竞争力。市场是瞬息万变的，有一些分析结果也需要快速响应成一个产品，Spark集成到数据平台正能发挥这样的效果。” 优酷土豆集团大数据团队大数据平台架构师傅杰补充道。
据了解，优酷土豆采用Spark/Shark大数据计算框架得到了英特尔公司的帮助，起初优酷土豆并不熟悉Spark以及Scala语言，英特尔帮助优酷土豆设计出具体符合业务需求的解决方案，并协助优酷土豆实现了该方案。此外，英特尔还给优酷土豆的大数据团队进行了Scala语言、Spark的培训等。
“优酷土豆作为国内视频行业第一家商用部署Spark/Shark方案的公司，从视频行业的多样化分析角度来看是个非常好的方案。未来，英特尔将会继续与优酷土豆在Spark/Shark进行合作，包括硬件配置的优化以及整体方案的优化等”英特尔（中国）有限公司销售市场部互联网及媒体行业企业客户经理李志辉介绍道。我们希望通过这次合作，为用户提供更好的体验，同时也能够帮助我们的客户在未来的竞争中占据有利位置。

（编辑：马鞍山站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!