图形数据库的优点:更简单的数据建模和分析

2019-02-27    来源:raincent

容器云强势上线!快速搭建集群,上万Linux镜像随意使用

作为咨询公司Booz Allen Hamilton首席数据科学家,Kirk Borne是从数据连接角度来看这个世界。Borne称:“生活是关于,谁连接到谁,什么连接到什么。”他指出图形数据库和图形分析应用程序是利用这种连接的新方法。

这是因为,图形数据库(NoSQL软件的一种形式)记录数据点之间连接的方式与主流关系数据库完全不同。图形系统不是将数据作为表格中的元素,而是作为节点,通过边缘相互链接,其中有一组属性表明节点之间关系。

因此,图形数据库的一个优点是,它们允许数据分析师浏览数据集,而无需创建和运行复杂查询以将表组合在一起,正如在关系模型中那样。

Borne说:“从数据发现的角度来看,图形更具意义”。根据Borne和其他人的说法,当图形算法和分析工具应用于数据集时,基本功能(例如聚类、分区、搜索和估计节点之间的最短路径)会暴露数据中的模式。

图形用例增加

Borne指出,图表方法已成为部分主流在线应用的基础。这包括谷歌搜索引擎及其Knowledge Graph中的页面排名系统,Knowledge Graph汇集来自各种在线资源的事实数据。 Facebook和LinkedIn也在使用图表来映射朋友圈和关系网。此外,图形分析还用于在线推荐引擎。

在这些情况中,这些应用程序都没有部署在图形数据库中;图形可在各种平台中构建、存储和管理,包括关系型平台。供应商和IT团队对图形数据库技术的兴趣日益浓厚,他们主要关注欺诈检测、网络安全、文本分析、数据目录、数据管理以及科学研究等。

同时,大数据的崛起也在促使更多用户考虑图形数据库和图形数据建模方法,Borne称:“现在,图形工具还有更多丰富的数据可供发现。”

例如,德国慕尼黑糖尿病研究中心数据和知识管理负责人Alexander Jarasch指出,Neo4j Inc.的同名图形数据库为他们提供了一个平台,可收集和分享各种基因数据和其他与糖尿病有关的信息。

Jarasch说,该中心以德语缩写DZD被人们所熟知,该中心正在使用Neo4j努力为糖尿病患者创造新疗法并找到预防该疾病的方法。他于2017年4月开始使用图形数据库进行脚本编写和原型设计工作,去年他的另外两名团队成员也加入了这项工作。

图形数据库供应商Neo4j的Bloom数据探索软件创建的可视化突出展现了公司、人员和城市之间的连接。

再见,数据连接

Jarasch从事生物信息学研究长达10多年,他对关系型数据库产生了厌恶,或者说至少对数据连接产生厌恶,这通常是关系查询的核心。他表示:“我讨厌连接,当你的数据分散在表格中,并试图寻找见解时,事情会变得很复杂。”

Jarasch和他的同事正在试图使用Neo4j数据库以便在DZD中更容易地共享各种数据。DZD由很多独立的研究组织组成。根据Jarasch的说法,这些数据来自医院、实验室和其他来源。有些数据是关于人类的,还有的则是关于实验动物。他指出:“每个人都有自己的数据,他们交换数据,但没有任何主要方式来连接数据。”这就是他想通过图形技术实现的目标。

首先的步骤侧重于创建与原始数据相关的元数据,以便研究人员可看到可用于分析的内容。随后再使用图形分析应用程序。Jarasch表示,他预计今年可以为一两个研究项目提供数据,其中包括一个将人类匿名数据与小老鼠和猪数据关联的项目。

尽管部署Neo4j,但Jarasch认为在DZD仍然会需要使用关系数据库。只是说,图形数据库软件为研究科学家提供了“查看其数据的额外层”。

大量图形选项

对于希望获得图形数据库优势的其他用户来说,市面上有各种技术选项。除Neo4j之外,原生图形数据库供应商还包括Cambridge Semantics、Cray、Franz、Ontotext和TigerGraph。云平台市场领导者AWS也提供图形数据库,名为Amazon Neptune,该数据库已于2017年底推出。

其他云提供商也有图形技术。例如微软的Azure Cosmos DB多模型数据库可用于存储和管理图形数据。IBM通过名为Compose for JanusGraph的托管服务在其云端支持JanusGraph开源数据库。

此外,甲骨文数据库和Microsoft SQL Server等关系数据库也可进行图形处理和分析。DataStax、MarkLogic、Redis等其他类型的NoSQL数据库管理系统也支持图形功能。同时,Apache Spark分析引擎支持并行图形计算。

历史上来看,图形数据库分为两类。除那些支持具有节点和边缘的属性图形之外,还有RDF数据库,它是基于Resource Description Framework(资源描述框架),并且关注数据的语义方面,信息存储在包含名词、动词和对象的三元组中。但随着供应商开始支持这两种类型,这种区别正在变得模糊。

通过图形支持电网

刘光懿(Guangyi Liu,音译)目前正在使用TigerGraph的大规模并行处理图形数据库,以构建可实时匹配电力供需的系统。

北美全球能源互联研究所(GEIRINA)首席技术官刘光懿表示,在电力分配中部署实时分析性能一直是公用事业行业的梦想。GEIRINA是位于加利福尼亚州圣何塞的研发中心,隶属于中国国家电网,这是一家位于北京的政府公用事业公司。

刘光懿的团队正在试图在拓扑上进行大规模线性方程处理,该拓扑代表来自电网中数百万传感器、执行器、继电器和开关的信号。该项目始于2015年,他们最初测试了甲骨文的关系数据库软件。但是像Jarasch一样,刘发现了关系方法的缺点。

他表示:“对于甲骨文数据库,你需要将表格转换为数据结构—体现系统拓扑。然而,对于TigerGraph,拓扑就在那里。”刘表示,图形数据库还可以并行运行数据搜索和计算。

Bloor Research公司分析师Philip Howard表示,他预计图形技术的应用将继续扩大范围。特别是对于很多现代应用程序中大规模“谁知道谁?”问题,他指出了图形数据库相对于关系型软件的优势。

然而,图形工具目前主要被用作关系数据库或其他类型的NoSQL系统的附属物。他指出,图形可提供一种更自然的方式来建模和连接数据,但在评估和选择数据管理平台时,IT团队仍然倾向于“在表格内”思考。

标签: 安全 大数据 谷歌 谷歌搜索引擎 脚本 排名 数据分析 数据库 搜索 搜索引擎 网络 网络安全

版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点!
本站所提供的图片等素材,版权归原作者所有,如需使用,请与原作者联系。

上一篇:数据科学太难?这些陷阱请避开,正能量很重要!

下一篇:2019年科技发展预测:云、大数据、AI、物联网和区块链