云存储大数据背景下如何集群存储

2019-02-26    来源:多智时代

容器云强势上线!快速搭建集群,上万Linux镜像随意使用

    云存储和大数据背景下,数据呈现爆炸式增长趋势。根据研究显示,2020年数字宇宙将达到35.2ZB,比2009年的0.8ZB猛增44倍,这其中80%以上为非结构化数据。高性能计算、医学影像、石油和天然气勘探、数字媒体和社会化WEB等大量数据密集型应用导致数据的井喷,不断对存储方法提出新的严峻挑战。集群存储是一种横向扩展(Scale-out)存储架构,具有容量和性能线性扩展的优势,已经得到市场的广泛认可。除了高性能、高扩展特点外,集群存储还应该具备高可用的特征,这对于企业核心业务系统尤为关键,保证关键业务的连续性。

    集群存储高可用性

    高可用性(HA,HighAvailablity)是指通过尽量缩短系统停机时间(因日常的维护操作或突发的系统崩溃等),以提高系统和应用的可用性。企业中的关键应用,如邮件服务、文件服务、数据库服务等,通常会要求7*24小时不间断连续提供服务并且不能表现出故障切换,这就要求承载服务的存储系统能够自动判断故障,并提供故障恢复的能力。集群(Cluster)是由多个节点构成的一种松散耦合的节点集合,协同起来对外提供服务。集群主要分为高性能集群HPC(HighPerformanceCluster)、高可用集群HAC(HighAvailablityCluster)和负载均衡集群 LBC(LoadBalancingCluster)。集群存储系统是指协同多个节点提供高性能、高可用或负载均衡的存储服务系统,消除单点故障和性能瓶问题,并且具有Scale-Out横向高扩展能力,实现容量和性能线性扩展。集群存储现有技术方案主要通过被冗余技术解决可用性问题,包括副本技术、纠删码技术、主备或全活HA技术。

    副本技术通过增加不同数量的副本,可以有效提高数据可用性,但是存储利用率低(为副本数量分之一),并增加了数据管理的复杂度。纠删码通过冗余编码提高存储可用性,并且具备较低的空间复杂度和数据冗余度,存储利用率高,但编码方式复杂,需要大量计算并降低业务性能,且适用集群节点数量较多的情形。主备 (Active/Standby)HA技术同样采用冗余技术获取高可用性,但存储资源浪费严重。全活(Active/Active)HA技术通过监控并将故障节点资源(IP、服务进程、业务数据等)切换至正常节点上,使整个系统连续不间断对外提供服务。这种HA技术不仅能够提高可用性,而且具备负载均衡功能,资源利用率高。 HA技术的主要问题是资源切换期间会导致服务中断,通常只接管IP和服务进程资源,而业务数据或物理存储资源需要由外部系统进行管理。

    副本技术

    副本(Replication)就是对原始数据的完全拷贝。通过为系统中的文件增加各种不同形式的副本,保存冗余的文件数据,可以十分有效地提高文件的可用性,避免在地理上广泛分布的系统节点由网络断开或机器故障等动态不可测因素而引起的数据丢失或不可获取。一般而言,副本数量越多,文件的可靠性就越高,但是如果为所有文件都保存较多的副本数量,将消耗大量的系统存储资源,并增加文件管理的复杂度。副本还可以起到提高系统性能的作用。通过合理的选择存储节点放置副本,并与适当的路由协议配合,可以实现数据的就近访问,减少访问延迟,提高系统性能。另外,通过增加副本数量,将集中地文件访问合理地分布到不同的节点和网络路径,利用其他节点和网络路径平衡节点和网络的负载,可以有效地解决热点问题。对于数据量较大的文件,还可以通过对多个副本的并行读取,进一步分散和平衡节点负载,提高文件读取的效率,提高系统的I/O性能。典型的副本案例包括RAID1、GFS/HDFS副本(默认三个)和Glusterfs复制卷。

在不久的将来,云计算一定会彻底走入我们的生活,有兴趣入行未来前沿产业的朋友,可以收藏云计算,及时获取人工智能、大数据、云计算和物联网的前沿资讯和基础知识,让我们一起携手,引领人工智能的未来!

标签: 大数据 媒体 数据库 网络 云计算

版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点!
本站所提供的图片等素材,版权归原作者所有,如需使用,请与原作者联系。

上一篇:大数据开启梦想之门

下一篇:用API控制你的云端服务器