从迪士尼到谷歌,他用推荐算法玩儿转数据科学

2018-07-10    来源:raincent

容器云强势上线!快速搭建集群,上万Linux镜像随意使用
鲁颖,曾任美国迪士尼集团首席数据科学家,他领导开发了迪士尼的用户个性化推荐系统,在个性化推荐算法领域有着丰富经历。现任谷歌高级数据科学家,领导 Google Play 数据科学团队。

数据,让一切有迹可循,让一切有源可溯。

小到点外卖、逛淘宝,大至金融风控、智慧城市......如今,我们每个人都是数据的生产者和受益者。在这样的背景下,“数据科学”应运而生。

在数据科学家鲁颖看来,数据科学就是利用大数据的威力,科学系统地解决实际问题的学科。

“一位优秀的数据科学家,必须得是‘多面小能手’,除了过硬的技术、严谨的思维,推理能力和沟通能力也是重中之重,大部分时间还要自己写代码同实际数据打交道。”鲁颖说道,“这需要很强的综合能力。”坐在DT君面前接受采访的他,在说话时,常常稍微抬起手比划着习惯的动作。

鲁颖平时外表沉静,但只要谈及自己的职业,他立刻就会开始变得兴奋,眼里闪烁着光芒。他曾任美国迪士尼集团的首席数据科学家,已经在数据科学行业耕耘多年,现服务于谷歌,任 Google Play 高级数据科学家。

作为统计学出身的博士,鲁颖对机器学习、数据挖掘和人工智能等十分着迷。“我天生喜欢数学,对数字特别敏感,是个有好奇心,并且喜欢钻研。”

玩儿转数据科学

对于鲁颖来说,数据科学的魅力在于解决实际问题,而不是仅仅局限于理论研究。

在迪士尼总部担任首席数据科学家期间,他带领团队进行推荐系统的研发,为迪士尼的网站、手机APP 等面向用户的界面提供个性化推荐服务:使用了包括用户特征、浏览历史记录、浏览内容属性、以及用户在迪士尼其他产品的关联行为等上亿级的数据。

他们尝试了从最基本的协同过滤模型过渡到深度学习模型的算法研发和创新,对诸如点击率、平均分位数排名等指标进行不断的优化,从而在离线和在线测试中,各项指标较最初版均得到了超过百分之三百以上的提升,这让鲁颖直接感受到了数据科学的价值。

“我们团队的研发工作对于业务的帮助是显而易见的。这种感觉很棒!”

鲁颖介绍到,除了推荐系统外,迪士尼已经把数据科学融入到了日常运营的方方面面。“迪士尼有很多事业部门,除了大家熟知的迪士尼乐园部和影视部,它还有商城部、互动媒体部等等,每个部门都有数据科学家团队作为迪士尼的大脑,为业务提供支持和决策。”

以迪士尼乐园部为例,鲁颖提到了其前几年推出的迪士尼手环,游客在游玩项目之前需要扫一下手环,通过对群体手环数据的分析,迪士尼乐园可以知道游客对各个游乐项目的喜好,从而优化派发快速通道卡的方式,精准预测排队等候时间,建议优化的游玩路线等。“谁都不愿意花大把时间在太阳下排队,一个小小的数据手环就能解决这些问题。由此可见,数据科学的确可以给整个乐园的运营效率和游客体验带来提升。”

 

 

(图片说明:迪士尼乐园;图片来源:视觉中国)

离开迪士尼后,鲁颖加入谷歌,负责其应用商城(Google Play)的数据科学部门,团队工作主要包括“基于数据分析的指标设定、实验的科学性设计和实验数据分析、统计算法的研究以及基于机器学习的用户行为分析和预测等,包括用户画像模型,用户流失模型和个性化推荐模型。”

从迪士尼到谷歌,公司环境的改变给他带来了更多的成长空间。以谷歌的超大规模数据作为基础,他再一次尝试通过数据科学的理念研究如何提升用户体验。

“我们应用商城的个性化推荐算法对于优化产品体验有着巨大的帮助”,他介绍道,基于用户的历史浏览记录、用户画像和 APP 画像,个性化推荐算法可以为用户推荐一个他们最有可能点击或者下载的 APP ,应用商城的效率因此比两年前提升了一倍以上。

“数据让事情变得可度量,数据维度能够清晰的描绘事实,且更具说服力。” 数据之于鲁颖,绝非单调的一组组数字排列,他认为,很多时候,新的机会本身就藏在数据里,只是需要数据科学家们进行深度挖掘。

鲁颖曾经所做过的一个用户流失模型,这个模型本身并不复杂,但在具体分析中,要理解哪些用户流失概率高,有何共同点,哪些特征可以刻画该人群等众多问题,就需要对用户进行特征分析和聚类分析,即所谓的用户画像。再往下深挖,对于用户流失的原因和防止流失的解决方案(通过消息触达提供折扣券等),都要从数据中进行因果分析的挖掘和建模。只有真正理解用户的痛点,才能根本地解决流失问题。其中每个环节都需要对实际商业场景和数据有深刻理解。

AI能让人类更聚焦于创新和挑战

对于数据科学,大部分人的认知或许源自 AI 技术,在经典科幻电影《机械公敌》里,以大数据为支撑的机器人在制造过程中,曲解了之前为他们所设定并且保护人类安全的机器人三定律,产生了机器人和人类之间的冲突,而人工智能源于人类制造却高于人类的能力在对抗过程之中带来了巨大优势,人类因此节节败退。

我们目前正在发展的 AI 技术,是否真的会把我们推向影片描绘的将来。

“我觉得 AI 会部分取代人的工作,尤其是那部分繁重、重复、靠大量人力的,并且依赖于经验的工作或者是标准化的任务。”谈及人工智能的未来,鲁颖给出了自己的看法。

对于“ AI 取代人工”说,鲁颖认为,人们正确的应对方式是把注意力放在创新性的任务上,同时科学理性地评判机器可以做到和不可以做到的,不过度夸大或者低估算法的能力,“还有就是开发新的人工智能产品,把机器擅长的工作交给他们去完成。”

“现在利用机器学习在有些场景可以毫秒级得出比人更准确的结果,并且直接带来收入。”在鲁颖看来,目前机器学习在很多领域的技术变革和创新过程中起着主力推动的作用,特别是依靠人力以及经验推断支撑的行业。比如金融风控就是个典型的例子,以前需要人力收集数据,凭经验判断人靠不靠谱,现在机器可以自动打分;生产线上有大量需要产品质检的,现在大部分也可以交给智能摄像头去区分产品是否有缺陷;不少机场还借助人工智能摄像头核对人和护照上的人像是否一致。这些都属于定义很清晰的标准化任务。

 

 

(图片说明:鲁颖在美国谷歌总部)

“我觉得未来我们的生活会越来越方便。随着机器人技术和诸如无人车的研发,很多繁重的、重复性的甚至危险的工作都会让机器去完成。人们的注意力会更多地放在创新和更有挑战的工作上。长期来看这是好事。”鲁颖说道。

聚焦机器学习技术的业界应用,鲁颖的建议是,业界应该把数据驱动作为核心价值观的一部分,保持一种开放的态度,鼓励员工多提问题和解决方案,鼓励数据驱动创新。比如,有没有可能把人的经验用机器学出来,并且自动化和规模化。

“促销投放就是个典型的例子,什么人群对什么促销感兴趣,完全可以以机器学习建模为核心,建立一套自动化的端到端的解决方案。一线的数据科学家和算法工程师在很多时候会在数据分析和挖掘的过程中有着独到的发现和见解,公司应该鼓励和尊重这些,并允许他们花一定的时间去尝试新的想法和一定程度内的试错。”鲁颖说到。

永远对数据保持敬畏

如今,创造、使用大数据已成为日常,可越来越多的滥用用户数据丑闻又不禁让人“谈数色变”。在对话过程中,鲁颖强调最多的一句话就是,“和数据打交道,一定要尊重数据,尊重用户,用严谨的态度去使用数据。”

就近来沸沸扬扬的 Facebook (脸书)泄密门,他也表达了自己的看法,“我举双手支持用户数据保护,5月底刚生效的欧盟‘史上最严’数据保护新规,就是个很好的举措和开端。”他还透露,谷歌很多部门花了近一年时间,对数据的存储和使用规范进行了改进,比如保证用户删除数据后,无法再利用他删除的数据做个性化推荐等。“数据是用户的,他们有权利决定分享与否,我们理应尊重和保护。对数据的使用应该在合理的范围内进行,不能以用户隐私为代价。”

虽然相比美国起步较晚,但中国的数据科学行业正在以前所未有的速度发展。从2017年开始,有越来越多的华人数据科学家选择回国。拥有众多光环加身的鲁颖,最近也在考虑回国,他非常支持数据科学家回国发展。他觉得,在美国的学习和工作经历十分宝贵,如果最终能把这份经验和前沿技术与中国的实际需求场景进行碰撞,对中国的科技发展将会有很大的帮助。

“我希望中国对于数据科学能保持持续的重视,坚信数据驱动价值,给予数据科学家足够的尊重和广阔的平台,让他们发挥才能,解决有意义、有挑战性的问题。”

对话期间,鲁颖多次提及对于数据科学的实用理念,讲述自己从事的工作时也往往告诉我们数据科学能够给我们带来的究竟是什么。对于这一行业,他极力欢迎年轻人在兴趣的基础之上加入。

他告诉我们,如果时间能够再重来一次,他还是会选择数据科学这条道路——在本科数学系毕业之后出国留学,到美国读取一个博士学位,再加入谷歌微软之类的老牌巨头,之后把学到的技术和做事风格和理念带回国内。

也许过程会有不同,但是不变的是对数据科学的追求,对数据驱动价值的信仰。

鲁颖博士,本科毕业于复旦大学数学系,博士毕业于美国明尼苏达大学统计系。曾就职于美国迪士尼集团首席数据科学家,现任谷歌 Google Play 高级数据科学家。他还是《Keras快速上手:基于Python的深度学习实战》一书主要作者之一。

标签: Google 安全 大数据 代码 谷歌 金融 媒体 排名 数据分析

版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点!
本站所提供的图片等素材,版权归原作者所有,如需使用,请与原作者联系。

上一篇:想成为数据科学家,这 4 个坑千万别踩

下一篇:一个Python特征选择工具,助力实现高效机器学习