数据科学正在进入“无代码”的新时代

2019-10-29    来源:raincent

容器云强势上线!快速搭建集群,上万Linux镜像随意使用

作者:Bill Vorhies 译者:刘嘉洋 来源:InfoQ

我们正在踏入数据科学实践的新阶段,“无代码”时代。就像其他重大的变化一样,这个阶段还没有非常成熟,但是改变的脚步却非常清晰。

即使仅仅过去了一周,也有一些我们不知道的新的自动化 / 无代码技术推出。有的是新成立的初创公司带来的整合产品。但更多的是现有的分析平台提供商增加的新功能或模块。

从这些自动化机器学习(AML)平台出现以来,我就一直在关注它们。在 2016 年春天,我第一次写文章讨论这些平台,标题为“到 2025 年,自动化技术会让数据科学家失业!”。

当然,这绝对不是我夸大其词,在过去的两年半内,自动化功能在我们行业中的传播速度是惊人的。

 

 

无代码数据科学

无代码数据科学,或者叫自动化机器学习,或者像 Gartner 所述的那样,“增强版”数据科学提供了一些便捷的工具。包括:

向导平台:提供详细建模步骤的平台(但仍然需要用户来做这些步骤,比如说 BigML、SAS、Alteryx)。该平台是基于经典的拖放平台理念而设计的。

自动化机器学习(AML):全自动化机器学习平台(比如 DataRobot)。

会话分析:在最近的版本中,用户只需要用普通英语提出需要解决的问题,平台就会给出最佳答案,选择数据、功能、建模技术甚至最佳数据可视化。

这个列表还很好地阐述了发展时间表。向导平台已经过时了。AML 平台越来越多,越来越成熟。会话分析刚刚起步。

不仅仅是为了深入分析

工具的智能发展不限于预测 / 规范建模,而是扩展到数据混合和准备阶段,甚至是数据可视化领域。这意味着,传统的 BI 业务分析师,当然还有用户业务线经理(也称为公民数据科学家)都可以使用无代码智能功能。

这种发展的市场驱动是众所周知的。在深入分析和 AI 领域,这和短缺、成本和获得熟练的数据科学家有关。在这个领域,这和时间洞察力、效率和一致性有关。简而言之,就是用更少的资源、更快的速度完成更多的事情。

然而,在数据准备、混合、特征识别领域(这对数据科学家也很重要),真正吸引人的是大许多的数据分析师 / BI 从业者领域。在这个领域,传统静态数据的 ETL 仍然是一个巨大的负担,延误了从 IT 专家功能到自助服务的快速转换。

老树发新芽

在我 2001 年开始进入数据科学领域的时候,SAS 和 SPSS 还占据着主导地位,它们已经从专有代码转型为拖放平台模式,这是最早的自动化模式。

七八年后,学术研究领域更倾向于教学生 R 语言,可能是出于经济考虑,尽管 SAS 和 SPSS 可以让学生免费使用,但它们还是会向导师收费,虽然提供巨大的学术研究折扣,而 R 语言却是免费的。

然后我们又回到了之前的时代,直至今天,数据科学家还是需要写代码。这就是现在的数据科学家所接受的教育,好不意外,他们就是这样做的。

有人认为,拖放系统无法提供代码可以提供的细粒度超参优化,这个认识是错误的。如果你使用过 SAS Enterprise Miner 或其竞争产品,那你知道这是错误的观点,事实上要进行调整是更容易的。

在我看来,回到过去只编写代码的时代是非常糟糕的,这可能导致新的从业者忽视基础内容,而仅仅掌握了另外一门编程语言。因此我非常欢迎并期待无代码在从业者之间的快速推进。

模型质量如何

 

 

我们通常会把模型准确度的提升视为深入分析的“胜利”。有人会认为,使用自动化无代码解决方案就会降低其中的准确度,这是不正确的。

AutoML 平台,比如 DataRobot、 Tazi.ai 和 OneClick.ai ,以及其他很多平台不仅能够并行地运行数百种包括超参变体的模型,而且它们还执行转换、特征选择,甚至一些特征工程。所以你不可能在单纯的准确度上击败这些平台。

需要注意,特征工程的领域知识仍然是我们人类的优势。

可能更重要的是,当我们讨论第二或者是第三个数据点的准确度变化的时候,和 AutoML 平台仅仅几天甚至几小时的工作相比,你耗费的几周开发时间真的值得吗?

无代码更广泛的影响

我认为无代码最大的受益者其实是传统的数据分析师和 LOB 经理,他们最关注 BI 静态数据。单独的数据混合和准备平台对他们来说非常有帮助(对于 IT 人员来说,工作量也减轻许多)。

这些无代码准备平台,比如 ClearStory Data、Paxata 和 Trifacta,正在迅速地整合 ML 功能到它们的过程中,帮助用户选择适合混合的数据源,了解这些数据项的真正含义(在没有很好的数据字典查询功能情况下,了解更多信息,获得更需要的数据资源),甚至扩展到了特征工程和特征选择的领域。

现代化的数据准备平台使用嵌入式 ML,比如说智能自动清理或处理异常值。

刚被 Gartner 评选为“最酷的 5 家公司”之一的 Octopai,通过使用机器学习和模式分析确定不同数据元素的关系,创造数据的上下文环境以及数据的早先使用和转换,帮助用户自动快速地找到可信赖的数据。

这些平台还通过设置权限并保护 PID 和其他类似的敏感数据来实现安全的自助服务。

甚至数据可视化领先者 Tableau 也在使用 NLP 和其他 ML 工具开发会话分析功能,帮助用户使用英语提出问题,并返回最佳可视化结果。

这对数据科学家来说到底意味着什么

Gartner 相信,两年之内,到 2020 年,公民数据科学家将在数量和产生的深入分析价值上压倒数据科学家。他们预测,数据科学家会将重心转移到专门的问题上,并将企业级模型嵌入到应用程序中。

我不同意。这似乎把数据科学家归类到 QA 或者是实施人员中。这不是我们的使命。

我认为,由于小部分数据科学家可以处理更多的项目,这将帮助深入分析越来越多、越来越快地渗透到组织中去。

仅仅一两年时间,数据科学家最重要的技能就已经展现了出来,这包括混合和清理数据,给任务选择恰当的预测算法。这正是增强版 / 自动化无代码工具需要负责的领域。

需要创造、监视并管理成百上千个模型的公司是无代码最早的一批使用者,特别是在保险和金融服务领域。

还剩下什么?还有分析翻译的重要角色。这是 McKinsey 最近发现的任何数据科学方案中最重要的角色。简单来说,分析翻译的工作包括:

负责识别深入分析可能产生的不同机会。
推动优先处理这些机会的过程。
经常在项目中担任项目经理的角色。
积极地采纳跨企业解决方案,提高成本效益。

换句话来说,将业务问题转变成数据科学项目,将不同类型的风险和回报量化,帮助制定项目的优先级。

那 AI 呢?

是的,CNN 和 RNN 最近在图像、文字和语音等方面的进展都在快速推进自动化无代码解决方案。但速度并不是很快,因为缺少具备深度学习技能的数据科学家,甚至比全科医师还要少。

Microsoft 和 Google 去年都推出了自动化深度学习平台。一开始是处理迁移学习,而之后朝着完全 AutoDL 发展。感兴趣的读者可以了解下 Microsoft Custom Vision Services 和 Google 类似的入门级服务 Cloud AutoML。

还有一些初创公司整合了 AutoDL 平台。我们在今年早些时候分析了 OneClick.AI 。它们包含了完全的 AutoML 和 AutoDL 平台。Gartner 最近评选拥有 AutoDL 平台的 DimensionalMechanics 为“最酷的 5 家公司”之一。

有一段时间,我尝试更新无代码 AutoML 和 AutoDL 的提供商名单以及它们提供的功能。但是这个列表更新得实在太快了。

我希望 Gartner 或其他有价值的团队能进行全面的审核,在 2017 年,Gartner 给出了一篇很长的报告“数据和分析领域在未来的增强分析”。这篇报道很好地概括了一些内容,但有很多我知道的提供商没有被提及。

据我了解,还没有一个完整的列表,列出所有提供完全自动化或相当数量的自动化功能的平台。这包括从 IBM 和 SAS 这样的大企业到一些很小的初创公司。

很多提到的内容都来自下面的文章列表。如果你正在以任何方式使用深入分析,或单纯地想让你的传统业务分析功能变得更好,请查看下面文章中提到的解决方案。

有关自动化机器学习、自动化深度学习和其他无代码解决方案的文章

What’s New in Data Prep(September 2018)

Democratizing Deep Learning – The Stanford Dawn Project(September 2018)

Transfer Learning –Deep Learning for Everyone(April 2018)

Automated Deep Learning – So Simple Anyone Can Do It(April 2018)

Next Generation Automated Machine Learning (AML)(April 2018)

More on Fully Automated Machine Learning(August 2017)

Automated Machine Learning for Professionals(July 2017)

Data Scientists Automated and Unemployed by 2025 - Update!(July 2017)

Data Scientists Automated and Unemployed by 2025!(April 2016)

作者介绍:Bill Vorhies 是数据科学中心的主任编辑,从 2001 年开始就在数据科学领域实践。他的邮箱是:Bill@Data-Magnum.com 或 Bill@DataScienceCentral.com

原文链接:https://www.datasciencecentral.com/profiles/blogs/practicing-no-code-data-science

标签: 数据 

版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点!
本站所提供的图片等素材,版权归原作者所有,如需使用,请与原作者联系。

上一篇:数据可视化常见误区

下一篇:深度分析数据科学流水线和Hadoop生态系统