数据中心危城抗“疫”——中金武汉超算中心纪实

2020-03-03    来源:

容器云强势上线!快速搭建集群,上万Linux镜像随意使用

武汉,一座正在与新型冠状病毒肺炎做殊死搏斗的“危城”。
 
中金武汉超算中心身处“危城”之中,其建设并运营的武汉市电子政务云为武汉市40多个委办局的140多个业务系统提供了云计算服务,其中,武汉微邻里、长江网武汉城市留言板-在线问诊平台、武汉红十字会网站、武汉市新冠肺炎疫情防控指挥平台、市公安局视频统一应用云平台、市智慧城管的智慧桥梁和智慧燃气等系统和应用连接成武汉抗击疫情的大动脉。
 
“危城”中的数据中心,它如何坚强挺立,它又如何为抗击疫情提供持续、稳定、可靠、安全的后台支撑?
 
数据中心的真正考验来了
 
科技战“疫”,即利用云计算、大数据、人工智能、5G等技术抗“疫”,取得了非常积极的效果,从相关疫情信息的统计、分析和披露,到医院的建设和对病人病情的发现与治疗,再到疫苗和药物的研发等,无不渗透着科技的智慧和力量。而作为这些技术应用的底层基础支撑,数据中心发挥着中流砥柱的作用,为科技战“疫”保驾护航。
 
高力国际近日对105位数据中心资深专业人士进行了一项调研,受访者的普遍共识是,此次疫情对数据中心的长远发展来说是利好的。在抗击疫情的过程中,大数据的助力使得防控措施的实施更精准、更有效,比如数据支撑和辅助决策为国家切实有效地控制疫情蔓延发挥了积极作用;再比如,专业病理大数据分析、促进新冠疫苗研发的大数据云平台等需求激增,这些都对数据中心的平稳安全运行提出了更高的要求。
 
但同时,高力国际通过调研也发现了一些数据中心不得不面对的新挑战,比如疫情可能会导致供应链短缺,一线人员劳动力不足,这意味着数据中心建设周期会更长,总体投资以及运营成本会变高等;另外,复工慢将增加数据中心运维难度,加之需要更加严格的消毒措施,设备的调试与更换也会面临挑战等。
 
除了高力国际的调研所述,笔者认为,此次疫情的发生对数据中心的重大考验还有一项应该引起特别重视,那就是应急响应,以及BCM(业务连续性管理)、BCP(业务连续性计划)的制定与落地执行。以前,我们谈到数据中心业务连续性面临的主要挑战,更多是讲地震、水灾、火灾等自然灾害。但是,从十几年前的SARS到今天的新型冠状病毒肺炎,面对突出其来的疫情,数据中心要如何快速、有效地应对是一个值得深入探讨的新课题。疫情有其特殊性,特别是一些特殊政策和手段的使用可能给数据中心的运维带来很大困难。举例来说,在武汉封城后,公共交通中断,数据中心运维人员如何及时到位并保证7×24小时在线和响应就是一个现实问题。中金武汉超算中心从上到下的快速响应,以及应对之策经受住了考验,值得分享与借鉴。
 
 
打好防疫第一仗,确保人员安全
 
此次疫情袭来,首要的工作就是确保人员的健康和生命安全。中金数谷公司和武汉超算公司在第一时间分别成立了疫情防控领导小组,统一建立了疫情防控应急领导工作微信群,加强沟通协调,统筹部署公司疫情防控工作,做到了“准确预判,提前防控”。举例来说,在武汉地区口罩和消杀物品开始稀缺的情况下,公司紧急购置口罩、消毒液,并安排对位于武汉的数谷、超算、台商、工地等四个办公地点进行消毒。从1月20日开始,执行全员每日安全健康状况跟踪统计和统一报备制度。公司领导直接指挥,针对疫情期间出现的问题,组织相关负责人每日会商研究,高效决策,及时处置,坚决不留隐患。
 
疫情就是命令。1月21日,中金武汉超算中心成立了应急组,包括保障、支援、技术支持等多个小组,许多员工主动报名加入,中金武汉超算基础设施运维弱电工程师夏昕就是其中之一,他主要负责数据中心内设备的监控和运维,以保证数据中心的稳定运行。
 
从1月23日开始,中金武汉超算中心的9名人员三班倒,负责数据中心的整体运维。从1月25日开始,由于武汉封城,很多小区封闭,人员不能随意进出,且公共交通中断,导致原有的9名运维人员减至6人,但大强度的三班倒一直在坚持。听了夏昕的讲述,那种紧迫感,以及在疫情面前的众志成城,让人犹如身临其境,备受感动和鼓舞。
 
零疑似,零确诊,近一个月过去了,中金武汉超算中心仍在延续这一纪录。在保证健康和安全的前提下,执行更严格、更高频次的巡检,保证数据中心的稳定安全运行,这就是一直坚守在岗位上的夏昕和他的同事们做的最有意义的工作。
 
“面对新型冠状病毒肺炎这样低频、高危的‘灾难’,从数据中心运营的角度看,首先要保障人员安全和有效的防护,测量体温、场所消毒等这些基本措施是应急处置预案中的常规内容。我们平时有预案、日常有演练,所以在疫情发生时可以迅速启动预案,并根据疫情变化随时调整,从容应对。”中金数谷投资合作部总监徐飞表示,“另外,应急响应还包括管理流程、应用保障等多个环节的内容,核心是保证人员到位、各司其职、统一协调,现场指挥得当,快速响应,以及适时的人员心理干预和疏导。”
 
简言之,面对突发的疫情,数据中心首先要做好人员自身的防护;其次要想方设法减轻对业务的冲击,保证数据中心稳定持续运行。
 
招之能来,来之能战,战之能胜
 
武汉超算中心是武汉国家网安基地的先导项目和首个建成项目,项目一期数据中心占地4000平方米,采用集装箱数据中心技术建设,是国内已建成的最大集装箱数据中心项目。
 
武汉超算中心承载的最重头的应用就是武汉市电子政务云,目前为武汉市40多个委办局的140多个业务系统提供了云计算服务,包括市长热线、市线上人大、市公安局视频统一云平台、市公安治安局危险品管控平台和积分入户云平台、武汉城市景观智能照明管控平台、市农委肉类蔬菜质量安全追溯体系政务云平台、市法制办执法平台、市质监局智慧电梯、市智慧城管的智慧桥梁和智慧燃气等,涵盖武汉全市委办局和区新增系统的70%,数据量高达60PB。据悉,武汉超算中心目前已处于满负荷运行状态。
 
武汉超算中心不仅要全力保障政务云的高效畅通与7×24小时运维响应,更要随时随地响应武汉市政府有关部门对云、网络带宽、网络安全的开通、扩容、调优、网络安全防护、配合新应用部署和故障处置等方面的需求。在这次抗击疫情的过程中,武汉超算中心的快速响应能力、灵活扩容能力、安全保障能力等经受了一次大考。
 
“武汉微邻里”公众号可自动定位到所属的社区,并可以取得对应社区的联系方式,市民还可以通过公众号进行肺炎自查上报、在线问诊等事项。1月25日晚,因疫情防控措施的加强,“武汉微邻里”系统的访问并发量由平日的几千突增至十几万,云服务器和网络带宽负载巨大,需要紧急扩容服务器及网络带宽资源。
 
中金武汉超算中心的技术工程师按要求对应用服务器配置,包括CPU、内存、磁盘、网络带宽等进行扩容和调优,同时又连夜与各方沟通并制定应用集群负载解决方案,协助应用开发商完成负载均衡部署、应用集群改造和系统测试工作等,确保改造后的应用系统在1月27日正式上线对外提供服务。中金武汉超算中心将带宽从平时的200M扩容到400M,武汉微邻里的最高峰值带宽达到300M,带宽资源游刃有余。
 
市民通过武汉红十字会网站可查看武汉红十字会的捐赠情况和使用情况。疫情期间,武汉红十字会受到了极大关注,从1月31日开始,其业务流量暴增。通过实时监控,中金武汉超算中心的工程师发现,武汉红十字会网站带宽不足,网页无法打开,且在一定程度上面临安全攻击的威胁。中金武汉超算中心为此挑灯夜战,一方面快速新增所需云主机,扩容的同时增加带宽;另一方面,重新设置网络安全策略,对流量进行监控,封堵攻击,确保武汉红十字官网的正常运行。
 
新增云主机、增加带宽资源,这些在平时做来得心应手的工作在疫情中却难度陡增。一个最简单的例子,扩容需要电信运营商的支持,但在封城的情况下,需要用到的材料、工人此时都成了“稀缺”,无法及时到位。就是在这种情况下,中金武汉超算中心在大年初二的晚上,通过种种努力,从武昌调来了材料,只用一晚便完成了扩容。
 
另一个争分夺秒的事件发生在2月10日。这一天,中金武汉超算中心接到武汉市政务服务与大数据管理局的指示,“武汉市社区疫情排查指挥平台”要部署有关疫情数据系统和数据可视化平台,以便协同武汉微邻里平台展开社区数据收集采集工作。中金武汉超算中心立即协调安排系统、网络和安全方面的工程师加班加点,又是一夜未眠,于00:30交付一批云主机及相关安全服务部署需求,确保武汉市社区疫情排查指挥平台早日投产。
 
从1月底开始至今,中金武汉超算中心处置了大大小小多次“战疫”的紧急情况,除了上文介绍的那些案例以外,还有长江网武汉城市留言板上推出的“战疫·在线问诊平台”与微邻里平台对接,部署并上线武汉肺炎疫情实时动态追踪服务,武汉客厅(方舱医院)视频对接东西湖区公安局视频网,武汉桥梁在疫情期间24小时不间断专业“看护”,武汉市新冠肺炎疫情防控指挥平台开通云主机和政务外网,部署疫情防控大数据指挥平台等。这些应用的统一特点是,在最短的时间内上线,同时要保证安全稳定运行。
 
面对这些挑战,中金武汉超算中心做到了及时扩容、快速安全开通云主机,提供切实有效的安全保护策略和措施。徐飞介绍说:“我们成立了应急小组,通过各种平台和渠道与当地政府保持密切沟通,根据相关指示和要求,随时调整部署,沟通效率非常高。接到任务后,通过电话、微信、邮件等方式快速下发,技术人员加班加点,保障所有需求可以在最快的时间得到响应和解决。”
 
功夫在平时 防疫、生产两不误
 
在疫情面前,中金武汉超算中心可以做到协调统一、果断处置,确保员工的人身安全;在接到客户的各种应用需求后,能够及时、高效、安全地响应,并保障数据中心基础设施安全稳定运行。“我们之所以能够从容应对,关键是功夫在平时。”徐飞一语中的。
 
中金数据是一家经验丰富的专业数据中心服务提供商,十余年来服务了政府、金融、央企、互联网等众多各行业客户。数据中心服务的一项核心内容就是为客户提供7×24×365的全天候快速响应及稳定的运行支持。在一切影响业务连续性的情况发生时,比如各类自然灾害、疫情乃至人为误操作,一家专业的数据中心服务商都应该有能力通过各种预案的及时启动,借助专业的技术、人力以及流程和制度,尽量避免给客户的业务和应用带来中断和损失。
 
只有日常的保护工作到位,在面对突发事件时才能泰然处之,应对得当。中金数据就是从日常工作的一点一滴做起,从工作机制、业务流程到数据中心基础,都有全面的安全保护措施,能够保证数据中心的全天候不中断运行。中金数据位于北京、昆山、烟台和武汉四地的数据中心,资源互通、技术与经验共享、人员协同,并且拥有大量处置突发事情的成功经验,所以在此次战“疫”中做到了有备而来,应需而动。
 
通过这几十天的战“疫”,徐飞归纳说,作为专业的数据中心服务商,首先要建立良好的应急机制和储备,应急演练要常态化,制度、流程、人员要规范化。说到底,这需要依靠多年的积累和时刻准备着的态度。其次,平时要不断强化人员及企业的危机意识,训练有素,这样在灾难来临时才能不手忙脚乱。最后考验的是企业的应急响应能力,针对不同问题,灵活应变,同时积极配合政府、客户,进行高效地沟通与协作,才能事半功倍。
 
从目前情况看,这次的抗疫阻击战还要再持续一段时间。当前,中金武汉超算中心6人三班倒的情况要调整和改善,以保证人员身体和心理的健康。徐飞表示:“接下来,我们会对员工进行心理疏导,保证他们以一个健康的心态更好地在高压状态下完成工作。另外,我们还要筹措更多应急物资,并根据上级领导的要求,调整现有的防疫部署,做到防疫、生产两不误。”
 

标签: 疫情 数据中心 

版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点!
本站所提供的图片等素材,版权归原作者所有,如需使用,请与原作者联系。

上一篇:F5发布下一代NGINX控制器3.0,加速现代应用程序交付

下一篇:全民战“疫”,大数据和AI厂商做了什么……