为什么你的数据科学项目终将失败?

2019-11-01    来源:raincent

容器云强势上线!快速搭建集群,上万Linux镜像随意使用

作者:Daniel Amner 译者:Sambodhi 来源:InfoQ

虽然数据是是推动真正数字转换的关键要素,但组织往往以错误的方式处理数据和分析项目。实际上,很多时候数据科学项目失败的原因,往往是由于人的因素,而非技术因素。技术问题,终将可以通过技术来解决,但人的问题,就没那么容易了。让我们看看数据科学家是怎么看待数据科学项目的成败与人的关系。

你的组织要求你构建一个新的数据平台。这听上去很激动人心,对不对?只是,你失败的可能性要比成功的可能性还大。

据 Gartner 估计,有 60% 的数据项目取得失败,一些分析师认为这一数字是一个保守的估计。

下面是我认为导致数据项目失败的一些原因。

数据的价值没有得到重视

数据已经成为最重要的商业资产之一,但大多数组织并没有重视它的价值。数据常常被视为功能的一个分支,很少有人会去考虑如何利用它来推动组织中的价值。

“数据是新的石油”已经成为描述数据价值的常用语。原油是未经提炼的,虽然它有一些内在价值,但在实现其真正价值之前还需要进一步加工。有太多的组织,只满足于仅仅收集原始数据,而很少考虑将其提炼成有用的产品。

没有组织范围的数据策略

通常应用于软件开发的康威定律(Conway’s law)指出:

“设计系统的架构受制于产生这些设计的组织的沟通结构 。”

这个定理在数据空间中适用,而且可能更加准确。对组织中的每个区域来说,将其数据存储在只适用于其用例的结构和位置,是很常见的做法,而很少会考虑组织的其他区域将如何共享或利用。

如果没有集中职能来定义整个组织的解决方案,很可能会出现数据孤岛:数据存储在不同的数据存储区中。即使在数据存储在集中位置的更好情况下,组织也不会以开放的心态去处理数据结构。这就导致了不那么明显、但同样有问题的数据孤岛。

技术主导的解决方案

不成熟的组织总是将数据视为可以通过技术解决的技术问题,通常认为数据是由技术系统产生并存储在技术解决方案中的。

带来的结果是,数据解决方案是技术团队独立于组织的其他部门来制定的。数据解决方案的架构通常由软件架构师和开发人员执行,但他们却很少了解数据的细微差别,且缺乏上下文或理解。

很自然,这会得到次优解决方案,要么导致交付的平台对大多数最终用户不适用,要么导致大量的重新设计和返工,从而造成交付过程漫长而曲折。

缺乏专注力

组织及其领导者正被数据驱动决策所带来的提高效绩的承诺所诱惑。这会促使高层作出一些陈述,例如:

数据是我们的第一要务。

我们组织的每个区域都必须在决策中利用数据。

在没有捕获数据的情况下,任何新产品或系统都不可交付。

虽然这些听上去像是有用的法令,但它们可能会带来意想不到的后果。它往往会给组织灌输一种“数据狂热”的感觉,从而导致定义不清的需求和数据捕获,而不去考虑如何使用这些数据。

“数据狂热”还可能表现为要求同时处理所有事情,因为需要让人们看到自己正在“处理数据”。这样做的结果就是,在作决策的时候,很少关注这样做对组织有什么好处,而更多的是在复选框中打勾,以确保你不会被指责没有做正确的事情。

忽视技能差距

组织通常已经拥有很长时间的数据存储。数据仓库已经存在很长时间了,它们经常用来交付分析。

然而,用户交付这些数据并分析其中所包含的数据的技能,并不同于构建一个现代数据平台,也不同于从其中所包含的数据中提供深刻和有意义的见解。

大多数组织都没有意识到,向现代数据平台的转型,需要现有劳动力进行大规模的技能转移,并且还难以为弥合这一差距制定计划。

近年来,对高技能数据型人才的需求激增,大多数组织不愿投资招聘这些人才,而是满足于试图利用现有的劳动力。实际上这一做法得不偿失。假设你有一个很棒的数据平台,但没有优秀的人去使用它,那么你就将无法从中获得真正的价值。

结论

数据项目经常因人员问题而失败。至于技术问题,通常可以很容易地解决,但人员是一个非常困难、微妙的问题。

重要的是要认识到,数据项目要取得成功,就必须采取整全观,包括来自组织的所有领域的人员,以开放、协作的心态进行工作。

如果不这样做的话,数据项目将很可能会失败。

作者介绍:Daniel Amner,是一名数据工程师,对所有数据抱有兴趣,重点关注如何利用数据来提高业务价值。

原文链接:https://towardsdatascience.com/why-your-data-projects-will-probably-fail-3dfa6f73761c

标签: 数据 

版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点!
本站所提供的图片等素材,版权归原作者所有,如需使用,请与原作者联系。

上一篇:官宣!开源Delta Lake正式加入Linux基金会,共同打造数据湖开放标准

下一篇:深度分析数据科学流水线和Hadoop生态系统