CreCloud云网管10万台监控创造历史
2018-06-11 来源:
国内加油站点从建立初期发展到目前的好几万家,无论从规模、设备还是服务上看,都发生了很大的变化。这些变化对管理模式和管理手段不断提出新的要求。而某大型石油公司的加油站维护部门作为加油站的管理主体,一直努力因势利导、审时度势、与时俱进,充分挖掘、分析各方需求,逐步建立起一套加油站综合管理系统,并不断根据实际情况进行优化和完善。
加油站监控作为加油站综合管理的重要组成部分,其监控的全面性、准确性和告警及时性不仅对加油站业务会产生直接影响,对该集团形象也会产生重大的影响。所以加油站部门从这一管理实践需求出发,通过试用、比较国内外多款网管产品,发现美信CreCloud云网管在监控规模、产品相应速度和产品稳定性及性能等方面非常符合加油站监控需求。
加油站维护部门通过美信CreCloud云网管产品,引入云计算技术,实现了对加油站的大规模分布式监控、秒级轮询、告警精确管理,并且为未来的发展预留了空间。
大规模分布式监控
加油站的一个显著特点就是量大、分布广,所以我们在产品选择的考虑上,首先就是要求产品能够实现大规模分布式监控。我们试用了几款产品,只有MXsoft的CreCloud云网管完全符合我们的预期。在测试环境下,CreCloud云网管顺利地监测了8千个点,而其他产品监测到3千个点服务器性能就达到极限。
这时候已经临近2010年春节,加油站维护部门果断做出决策,将通过测试的CreCloud云网管部署到真实环境中,以帮助值班人员完成春节期间的监控管理。春节期间,加油站系统发生了2次重大故障,值班人员在CreCloud云网管的协助下,第一次做到有手段地主动发现、了解故障的分布范围、持续时间,并及时解决了故障,保障了春节期间供油的正常运行。
能够主动发现并解决问题,大家都很兴奋。但我们仍面临着更大的难题:8千个点可以完全监测了,但如果上升到2万个点、6万个点、10万个点呢?单台服务器的性能不可能无限的提升,如何能够应付这不断增加的加油站呢?我们是否可以找出一种方案,其监控能力能够根据被监控对象规模的大小而进行调节?我们就这些想法与MXsoft进行了一次讨论,没想到居然与他们设计CreCloud云网管的思路不谋而合。CreCloud云网管的设计原理可以简单概括为:通过虚拟技术,将多台普通监控服务器虚拟为一台计算能力强、运行稳定的大型监控服务器,帮助用户在低成本的情况下,实现对大规模被监控对象的监控;同时可根据被监控对象的变化,动态的增减监控服务器(动态扩、减容)。我们需要一款扩展性好的产品,MXsoft产品需要真实用户环境的验证,这种情况下,双发一拍即合,达成战略合作伙伴关系。
秒级轮询
网络时代,信息化成为每家企业、单位提供服务、获取信息的必要手段,不可避免,这些企业、单位必须同时面临伴随信息化而来的时效性要求和不间断运行要求,也不例外。如果客户在加油站用卡消费,加油站系统经常不能使用或者出现错误,定会带来客户的抱怨和投诉,影响客户对的信任。要避免这种情况发生,我们就必须做到不出故障或者在客户之前先发现并解决故障,那么监控和反馈时效就变得异常重要。
试用CreCloud云网管时,我们分别测试了3个方案:单台服务器10分钟轮询、5分钟轮询和2分钟轮询,测试结果如下:
注:测试服务器配置为至强CPU一颗(双核1.8G),4G内存
这个性能表现比国内其他厂商的同类产品高出3-4倍,创造了国内该领域的最优异记录。升级到CreCloud云网管后,轮询的速度进一步提升,达到秒级,对于关键的设备和应用最快5秒轮询一次。即监测系统只需要5秒就可以把被监测对象都采集数据分析一遍,如果发现异常或故障,立即通过颜色、声音、邮件和手机短信将告警发送到值班人员,有效地保障了业务系统的稳定运行。
告警精确管理
加油站维护部门对监控告警的需求非常明确,要求:
1. 告警按照百分比设置。某地的某1-2个加油站出现故障,由当地的IT运维管理人员负责管理和解决。但如果某个地方的20%以上的加油站出现故障,就非常严重,很可能是链路出现问题,这才是加油站维护部门关心的重点,所以我们需要监控系统按照故障发生的百分比来告警;
2. 告警能够精确指出故障分布。如果知道某地有20%加油站发生故障,但不知道是哪20%,不知道具体分布,那么这种告警是徒劳和无效的,不能帮助我们主动发现和解决问题,所以精确指出故障分布至关重要。
我们将需求梳理后交给MXsoft,指派专人配合MXsoft开发,最终在CreCloud云网管上实现了我们所有的需求。
通过美信CreCloud云网管,我们大幅提升了加油站监控能力,同时大大地延伸了监控系统扩展性,为未来的发展预留了空间。另外,CreCloud云网管提供的各种借口,帮助我们将监控系统与ITIL管理系统和员工身份认证系统等无缝连接起来,真正实现了加油站维护部门办公的信息化和自动化,极大地提升了我们的工作效率。
标签: 服务器 服务器性能 企业 数据分析 网络 问题 信息化 选择 用户 云计算 云计算技术
版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点!
本站所提供的图片等素材,版权归原作者所有,如需使用,请与原作者联系。