什么是数据科学?数据科学相关的名词解释

2019-11-01    来源:raincent

容器云强势上线!快速搭建集群,上万Linux镜像随意使用

数据科学是一种将业务数据转换为资产的方法,可帮助组织提高收入、降低成本、抓住商机、改善客户体验等。

 

什么是数据科学?将数据转化为价值
 
数据科学定义

数据科学是一种使用从统计分析到机器学习的方法从结构化和非结构化数据中收集洞察力的方法。对于大多数组织而言,数据科学被用于将数据转化为价值,其形式是改善收入,降低成本,提高业务灵活性,改善客户体验,开发新产品等。

RiskIQ公司首席数据科学家Adam Hunt说,“如果愿意,企业可以获取的数据量是巨大的,但是如果没有做任何事情,把它变成有趣的东西,它有什么用呢?数据科学是关于提供这些数据的目的。”

数据科学与分析

虽然数据分析是紧密相关的,但它是数据科学的一个组成部分,用于了解组织的数据是什么样子的。数据科学利用分析的输出来解决问题。

Hunt说,“数据科学正在得出推动数据向前发展的结论。如果不是采用数据解决问题,如果只是在做调查,那就是分析。如果真的要用结果来解释某些事情,就要从分析到科学。数据科学与实际解决问题的关系比观察、检查、绘制数据更大。”

对于Looker公司首席数据科学家Hillary Green-Lerman来说,数据分析和数据科学之间的区别在于时间尺度。她表示,数据分析描述了当前的现实状况。数据科学使用该数据来预测或了解未来。

Green-Lerman说,“许多人认为数据分析师只是初级数据科学家;有人希望在他们长大后成为数据科学家。有时这是真的,但实际上我发现一个非常优秀的分析师拥有与数据科学家不同的技能。”

数据科学与大数据

数据科学和大数据通常是一致的,但数据科学可以用来从各种规模的数据中提取价值,无论是结构化的、非结构化的还是半结构化的。当然,在许多情况下,大数据对数据科学家很有用,因为企业拥有的数据越多,在给定模型中可以包含的参数就越多。

Hunt说,“有了大数据,企业就不必受制于小数据的维数限制。大数据在某些方面确实有帮助,但更多并不总是更好。如果把股票市场放在合适的位置,它就不会起作用。”

数据科学的商业价值

数据科学的商业价值取决于组织需求。数据科学可以帮助组织构建工具来预测硬件故障,允许组织执行维护,并防止意外停机。它可以帮助预测超市货架上的内容,或者根据产品的属性预测产品的流行程度。

MapR科技公司首席应用架构师Ted Dunning说,“数据科学团队可以拥有的最大价值在于他们与业务团队融为一体。几乎按照定义,寻求新奇的人员,真正创新的人员,将会发现价值或泄漏的价值,而不是人们所预期的。通常他们会让业务人员带来惊喜。价值并不是人们最初认为的那样。”

数据科学团队

数据科学通常是一门团队科学。数据科学家是大多数数据科学团队的前瞻性核心,但从数据转向分析,然后将分析转化为生产价值需要一系列技能和角色。例如,数据分析师应该在将数据呈现给团队,并在维护数据模型之前对其进行调查。数据工程师必须构建数据管道以丰富数据集,并使数据可供公司其他人使用。

eBates公司分析副总裁Mark Stange-Tregear警告不要寻求数据科学“独角兽”,也就是将非线性思维与高级数学和统计知识以及编码能力相结合的人员。

Stange-Tregear解释说,“我不认为数据工程是关键的数据科学家特征,我希望有人真正添加其他内容。如果我可以让某人建立模型,能够评估统计数据,并将该模型的好处传达给业务部门,那么我就可以雇佣足够成熟的数据工程师来采用该模型并实现它。”

数据科学的嵌入式方法

一些组织选择将数据科学家与其他功能混合在一起。例如,Mapr公司的Dunning建议遵循数据操作方法,将数据科学家嵌入到具有业务线职责的DevOps团队中。这些数据运营团队往往是跨职能的和技能的,如运营、软件工程、架构和产品管理,并且可以从头到尾协调数据、工具、代码和环境。数据运营团队倾向于将分析管道视为类似于生产线。

Dunning说,“孤立的数据科学团队可能希望部署最复杂的模型,嵌入式数据科学家将寻找可维护的廉价胜利。他们对于选择的解决方案是务实的。”

数据科学目标和可交付成果

数据科学的目标是构建从数据中提取以业务为中心的见解的方法。这需要理解价值和信息在企业中是如何流动的,并能够利用这种理解来识别业务机会。虽然这可能涉及一次性项目,但更典型的是,数据科学团队寻求识别关键数据资产,这些资产可以转化为数据管道,为可维护工具和解决方案提供支持。例如,银行使用的信用卡欺诈监控解决方案,或用于优化风电场中风力发电机布置的工具。

逐渐地,传达团队所做工作的演示文稿也是重要的可交付成果。Riskq公司的Hunt说,“确保他们将结果传达给公司的其他人是非常重要的,当数据科学团队长时间陷入困境时,它开始陷入困境。产品经理认为工作是理所当然的,除非我们一直在谈论和关注它。”

数据科学过程和方法

生产工程团队在Sprint周期中工作,并且有计划的时间表。Hunt表示,数据科学团队通常很难做到这一点,因为可以提前花很多时间来确定一个项目是否可行。

Hunt说,“很多时候,第一周甚至第一个月都是研究、收集、清理数据。我们能回答这个问题吗?我们能有效地做到吗?我们花费了大量的时间进行设计和调查,远远超过了标准工程团队的表现。”

对于Hunt来说,数据科学应该遵循科学方法,尽管他指出并非总是如此,甚至不可行。

Hunt说,“企业试图从数据中提取一些洞察力。为了反复和自信地做到这一点,必须使用科学方法准确地证明其假设。但我不认为许多数据科学家真正使用任何科学。”

Hunt说,真正的科学需要时间。企业花费时间确认其假设,然后花费很多时间试图反驳自己。

Hunt说,“通过数据科学,企业需要深入研究数据来验证这些假设。我们试图回答的很多问题都是短暂的。例如,在安全方面试图找到解决威胁的办法。”

他表示,因此,数据科学通常意味着采用“足够好”的答案,而不是最佳答案。然而,危险是结果可能成为确认偏见或过度拟合的牺牲品。

他说,“如果这不是真正的科学,也就是说企业用科学的方法来证实一个假设,那么所做的就是向一些算法采用数据来证实自己的假设。”

数据科学工具

数据科学团队使用各种工具,包括SQL、Python、R、Java以及Hive、oozie和TensorFlow等开源项目。这些工具用于各种与数据相关的任务,从提取和清理数据到通过统计方法或机器学习对数据进行算法分析。

通过统计方法或机器学习进行算法分析。

“企业需要良好的可视化工具。在这一点上,编程工具Python是最受欢迎的。企业需要能够构建有趣模型的工具。”MapR公司Dunning说。

Dunning说,当MapR公司调查其客户数据团队时,团队使用的最少数量的建模工具是5个,而且甚至没有进入可视化工具。

“事情变得越来越多,因为人们更加怀疑。这种其他建模技术会产生更好的模型吗?”Dunning说。

数据科学家的薪酬

根据PayScale公司的数据,以下是一些与数据科学相关的最受欢迎的职位和每个职位的平均薪酬:

分析经理:67,000美元至126,000美元

助理数据科学家:58,000美元至101,000美元

商业智能分析师:49,000美元至95,000美元

数据分析师:42,000美元至83,000美元

数据架构师:77,000美元至153,000美元

数据工程师:64,000美元至132,000美元

数据科学家:65,000美元至134,000美元

IT数据科学家:61,000美元至135,000美元

首席数据科学家:95,000美元至172,000美元

研究分析师:4万至7万美元

研究科学家:48,000美元至118,000美元

高级数据科学家:93,000美元至160,000美元

统计学家:50,000美元至108,000美元

数据科学技能

虽然数据科学学位课程的数量正在迅速增加,但它们并不一定是组织在寻找数据科学家时所寻求的。eBates公司Stange-Tregear表示,他寻找具有统计背景的候选人,因此他们知道是否在看实际结果,将结果置于场景中的领域知识;以及使他们能够向业务用户传达结果的沟通技巧。

“如果我有一位可以完成所有这些工作的数据科学家,那么我会担心通过数据工程团队实现这一点。”他说。

RiskIQ公司的Hunt表示,对拥有博士学位的应聘者很感兴趣。Hunt说,“我偏向招聘于拥有博士学位的人,但我不会放弃那些具有丰富经验的人才。博士能够对一个主题进行非常深入的研究,并且能够将这些信息传播给其他人。但是,拥有扎实的背景或个人项目是非常有趣的。”

Hunt说,他特别寻找物理、数学、计算机科学、经济学甚至社会科学的博士学位的人才。他不会对拥有数据科学或分析学位的应聘者另眼相看,但他确实对招聘这些人有所保留。他说,“我的个人经历是,我发现它们非常有用,但他们过于关注模型的操作,而不是思维方式。”

MapR公司的Dunning更关心申请人的个人能力,而不是展示新事物的能力。他说,“我在招聘数据科学家时首先想到的内容是:受访者是否能教会我一些东西?我不想找到指导我怎么做的人,我非常想找到那些可以做我不能做的事情的人才,或者可以教会团队的人才。”

Dunning指出,一些优秀的数据科学家或数据科学领域的领导者都具有非传统背景,并指出,他与之合作过的最好的人员包括曾经做了6年园丁的人,具有美术背景的人,有的甚至拥有法国文学学位,还有一位没有接受计算机培训的新闻系学生。

Dunning说:“想用数据感知来测试人们,而不是用公式。希望有能力看到事物并理解它们。”

数据科学培训

鉴于目前缺乏数据科学人才,许多组织正在制定计划,以培养内部数据科学人才。而培训是另一条快速增长的途径,培训工作人员承担数据科学家的角色。

数据科学学位

根据美国新闻和世界报道,这些是数据科学领域的顶级研究生学位课程:

统计学理学硕士:斯坦福大学的数据科学

信息与数据科学硕士:伯克利信息学院

数据科学理学硕士:哈佛大学约翰保尔森工程与应用科学学院

分析科学硕士:芝加哥大学格雷厄姆学院

计算数据科学硕士:卡内基梅隆大学

数据科学理学硕士:华盛顿大学

跨学科数据科学硕士:杜克大学

应用数据科学硕士:密歇根大学信息学院

数据科学认证

组织需要在数据分析技术方面有专长的数据科学家和分析师。他们还需要大数据架构师将需求转化为系统,需要数据工程师构建和维护数据管道,需要了解Hadoop集群和其他技术的开发人员,还需要系统管理员和管理人员将一切联系在一起。认证是候选人展示他们拥有正确技能的一种方式。

一些顶级大数据和数据分析认证包括:

数据科学专业成就认证

认证分析专业人员

Cloudera认证助理(CCA)数据分析师

EMC经验证的专业数据科学家协会(EMCDSA)

MapR认证数据分析师

Microsoft认证解决方案专家(MCSE):数据管理和分析

使用SAS 9的SAS认证数据科学家

标签: 数据 

版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点!
本站所提供的图片等素材,版权归原作者所有,如需使用,请与原作者联系。

上一篇:拯救数据科学的“半贝叶斯人”

下一篇:超越云计算:对数据库管理系统未来的思考