Prashanth Southekal 谈应用机器学习,如何分析各类数据

2019-05-22    来源:raincent

容器云强势上线!快速搭建集群,上万Linux镜像随意使用

DBP 研究所管理负责人 Prashanth Southekal 上月在2019 年企业数据世界大会上举办了一个研讨会,主题是应用机器学习技术以及何时使用不同的 ML 算法。

机器学习(ML)使计算机能够使用大量数据集自动学习和适应。Southekal 谈到了五种主要的分析方法和三种机器学习方法。他还讨论了 ML 算法,如决策树、支持向量机(SVM)、逻辑回归、线性回归和聚类。

我们采访了 Southekal,了解他关于应用机器学习领域的会议环节和数据分析。

问:如何对数据进行分类,对每种类型的数据进行哪种分析?

Prashanth Southekal:广泛的数据,尤其是商业数据,主要可以分为三种类型。首先,从数据存储和处理的角度,可以将业务数据分为结构化数据和非结构化数据。其次,从数据集成的角度来看,业务数据可以是管理类别(如工厂和地理位置)的参考数据,管理业务实体(如供应商和产品)的主数据,以及捕获业务事件(如采购订单和发票)的事务数据。第三,从数据分析的角度来看,业务数据可以分为标定数据(用于管理类别,如产品描述)、有序数据(用于捕获有序数据集,如付款项和交付优先级)和连续数据(用于处理价格和数量)。

现在进入问题的第二部分——对每种类型的数据执行哪种类型的分析。在我看来,分析是基于你的问题使用数据。所以,你问的问题在分析学中非常重要。这些问题的答案来自于算法,算法的选择基于数据类型。例如,如果问题是“货物会按时交货吗?”,答案将会是“Yes/No”,答案将会使用 logistic 回归算法得到。另一方面,如果问题是“货物需要多长时间才能送到?”,答案将是一个数值,该数值可能会使用线性回归算法得到。

问:你能谈谈一些数据质量维度以及它们如何影响数据质量吗?

Southekal:数据质量是对数据在给定上下文中是否适合服务于其目的的评估。在我看来,有 12 个数据质量维度,包括完整性、一致性、有效性、基数性、准确性、正确性、可访问性、安全性、及时性、冗余、覆盖率和完整性。在我的书Data for Business Performance中,我详细解释了这些数据质量维度。然而,数据质量并不意味着所有这 12 个维度都应该一直满足。数据质量维度的选择取决于适用性、目的和上下文。

问:选择 ML 解决方案时需要考虑什么?

Southekal: 在我看来,如果一个解决方案满足四个关键条件,那么就可以认为它是 ML 解决方案:

输出是不断优化的,即数据持续不断地摄入到 ML 算法中。

在获取和应用输出时,很少(甚至没有)人为干预。

输出是概率的形式,因为解决方案是面向未来状态的。

输出主要提供关于事件或事务(实体或类别)的问题的答案。

问:你能谈一下你在研讨会中谈到的四种 ML 算法:回归、分类、聚类和关联吗?

Southekal:ML 算法有数百种,但我选择了这四种类型的 ML 算法,即回归、分类、聚类和关联,因为它们在业务中非常常用。

回归算法基于一组自变量预测因变量的值。

分类算法利用输入的数据对观测结果进行分类。

聚类算法根据一些相似的条件将一组观测值分配到聚簇中。

关联 ML 算法揭示了项之间是如何关联的。

问:对于想学习机器学习技术的数据库专业人士,您有什么建议吗?

Southekal:选择一项你和你的公司都能轻易获得的技术。例如,如果你是一个采购专家,在一家在SAP ERP中完成采购活动的公司工作,那么最好利用 SAP 的分析工具,如BI/BOBJ、Leonardo等。你将有一个良好的开端,因为分析所需的数据已经在你的 SAP 环境中,并且你可以访问 SAP 生态系统。如果你刚刚开始你的职业生涯,可以尝试R或Python,因为它们都是具有大型社区的开源工具。但是,要始终注重应用工具解决问题,而不是学习工具本身。除了在技术方面的技能,还要在统计和线性代数方面培养良好的技能。描述性分析需要统计,而预测分析和 ML 需要线性代数和统计。网上有许多免费的优质资料。在选择昂贵的课程之前,可以先尝试一下它们。

查看英文原文:Prashanth Southekal on Applied Machine Learning

原文:https://www.infoq.com/news/2019/04/southekal-machine-learning

作者:Srini Penchikala

译者:平川

标签: [db:TAGG]

版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点!
本站所提供的图片等素材,版权归原作者所有,如需使用,请与原作者联系。

上一篇:大疆:数据由用户完全掌握

下一篇:十四年的NYU教学精华,开放书《机器学习基础》第二版可以下载啦