【IDCC2019】腾讯栗权:腾讯智维平台与数据中心运
2019-12-23 来源:天下数据IDC资讯
大数据时代,数据呈现爆炸式的增长,全球掀起了兴建数据中心的热潮。在新时代,未来数据中心如何建设运营,又将呈现出怎样的发展趋势?2019年12月19日,第十四届中国IDC产业年度大典(IDCC2019)第二日精彩继续,行业专家和企业代表云集“IDC建设与发展论坛”,为数据中心未来的建设与发展献计献策。腾讯天津滨海数据中心经理栗权先生在会上为与会者进行了《腾讯智维平台与数据中心运营体系结合》的主题演讲。
腾讯天津滨海数据中心经理栗权
大家上午好,很高兴能够参加今天的分享。我今天分享的主题是腾讯的智维平台是如何实际应用到数据中心的市场运营过程中的。
首先做一下自我介绍。我是来自腾讯按天津滨海数据中心的经理栗权。天津滨海机房是腾讯第一个自建机房,而是腾讯运营中单体体量最大的一个园区。天津滨海这个机房单体服务器数量已经超过10万台,机架数量5400架左右。
我今天分享的主要有三个议题。首先跟大家一起回顾一下腾讯的智维平台发展历程。其次跟大家详细介绍一下腾讯智维平台在日常运营以及数据分析方面对运营过程发挥了哪些作用。三是智维平台的优势和落地的应用。
腾讯2000年建立了自己第一个数据中心,当然那个时候我们是跟深圳电信租赁的一个机房,直到2006年腾讯有了第一个正式算作IT机房的数据中心,在深圳宝安机房。到2011年腾讯有了第一个在天津自建的数据中心,就是我所运营的机房。时间很快,到2013年腾讯发布了第三代以微模块为主导的MDC的数据中心技术。2015年推出了第四代T—BLOCK集装箱式的数据中心。到现在我们已经经历了四代数据中心的发展历程。在这么多年的建设和运营过程中,有一点体会是非常深刻的:一套高效可用的管理平台,对整个数据中心的运营质量和运营效率来说是能够带来指数级的帮助的。所以,基于这个理念,我们在2014年自主研发并且上线了一套腾讯智维平台的前身。
数据中心在运营过程中会遇到不同的挑战,有四点我总结的日常运营过程中我们可能会面临的最大的几个挑战:管人、管物、管好服务以及控制好成本。智维平台针对这四个模块都进行了核心能力的打造。DCOM,在腾讯内部我们把它定义成日常的运营流程平台,所有的事件变更、维护维保都是通过DCOM来驱动的,它的主要目的是为了管好我们外包人员,进行人的管理。现场运营着数万台的设备,有几十万个监控测点,每天产生数T的数据。如何应用和分析这些数据,让它最大化产生价值,是在DCRM平台进行扩充和分析的。此外,由于腾讯云会对外提供很多托管的业务。所以,我们给用户提供的服务目录的管理,会在DCIM平台进行管控。所有的运营过程中,所发生的物料以及资源成本,我们都会在DCSM模块进行统一监管。
下面我分别展开跟大家介绍一下。DCIM平台是腾讯智维整个产品的核心。五年之前,就是已经跟BA等厂商打通了底层的数据接口,把数据中心内50万个测点全部通过标准的接口进行对接,并且自己进行统一的存储。基于这些数据,我们制定N多种运营场景,为每种运营场景设置一个模型。这个数据模型分别可以应用到我们的可视化试图以及告警分析、智能分析中,这样说可能会比较抽象,后面大家可以看两个具体的例子。
分享一个腾讯天津数据中心三号楼的一个实时数据,因为我们已经切了节约模式,所以功率法算出的实时PUE是1.18,负荷是12.4兆瓦。每一天作为运营管理人员,可以通过这个页面对整个机房当前的运营容量,以及外室电,以及当前机架的使用情况有一个整体的了解。进一步可以通过采集上来的监控数据,对外室电的供电质量以及每一台变压器的质量和供电质量进行跟踪。这些数据都可以经过简单的模型处理,在运营综合视图里展现出来。
采集到的50多万条数据如何应用到综合视图里,我们会进一步把它应用到监控告警中。由于传统的监控告警只是进行纸回执的监控,设置一个上下限,描述物理过程,但是腾讯智维平台很早就实现了基于拓扑的逻辑收敛。会把从室电进线到中压侧到UPS直到末端全部都进行数字化的转译,我们把每一个设备之间的元器件建立起来一个拓扑关系,从空开状态到采集值。基于这个拓扑关系设置我们的告警策略。这样一旦源头有任何的告警产生,我们都可以通过拓扑关系以及所设定的告警策略进行告警的收敛以及快速的故障定位,用这种方式来防止告警泛红,以及帮助一线人员快速进行故障处理和响应。
第二个例子是健康管理。单单有这些告警数据还是不够的,因为告警往往已经有一个滞后效应了。被管理人员看到,被处理的时候,说明已经造成了一定的影响。我们基于现场海量的数据,除了进行被动的告警响应以外,还会进行很多主动的健康状态的预警检测。这里分享的是我们对于电池健康状态检测的案例。我们除了会对电池的温度、内阻和电压传统的三类相量进行监控以外,还引入了机器学习、监督学习的AI算法,通过整组以及落后电池分析多种AI分析的方法,帮助我们发现哪些电池虽然表象上目前的容量和电压都正常,但是它确实在历次放电中或者在运营过程中是存在落后的风险,或者落后的隐患的。我们也累计了半年的数据进行分析。通过AI的方式发现的电池故障或者电池异常的准确率要高于我们对传统电压和内阻监控而发现的准确率。
下一个智维平台的亮点是关于容量的管理。容量对于数据中心运营安全来说是非常重要的,但传统的IDC如果要做到精细化的容量管理可能要借助非常多的报表,或者在末端部署非常多的智能PDU。但是基于腾讯DCIM接口,我们可以进行电压电流的检测,所有检测上来的数据可以绘制一张容量视图中。通过平面图,再结合当前CMBD里面机架机位实际的空闲状态,就可以马上绘制出来一张综合了电量以及机位的物理状态资源表,根据这张表就可以进一步进行后续设备上架时所使用的资源状态的分配。
我们不但做了容量管理,还可以基于现有空闲的容量,未来对于不同型号的服务器,再上架新设备也做了一个预测的模型。这个模型可以给到我们后续的资源分配以及资源上架进行预估的指导,模型的准确率高达90%以上。
还有一个亮点是能耗分析。首先我们可以基于刚刚提到的18个测点的采集和监控,对现场所发生的每一个千瓦,甚至每一台设备它的实际能耗以及它对整个能耗的成本到底有什么贡献,以及有什么弊端,做一目了然的分析和统计。分析完这些数据,最终的目的可能是要将能耗进行合理的控制。腾讯仿照Google的一个做法,使用了基于网络的算法,在数据中心之内做了一个PUE节能的预测。首先我们导出了历史五年所有的从BA冷站到末端到服务器,AI负载的将近70多维度的历史数据。对所有的数据按照影响因子进行建模和排序,这里的影响因子变化量非常多。其中一个重要的参考量就是我刚刚提到的这张拓扑,因为我们每一台设备,不管是通过管路连接起来的也好,还是通过冷冻水能量形式连接起来的也好,内在都有一种关联关系。我们根据这些关联关系的疏与密,可以排列出来一个影响因子。
大家可以理解为影响因子排序在前的就是对机房PUE贡献比较大的。基于对这些影响因子的分析,我们又引入了一个灵敏度分析的算法,给出来一个通过AI计算而输出的推荐值意见。平台告诉我们基于当前的供水温度和送风温度,在保证我们所输入的安全边界不被打破的情况下,你可以有多少的优化空间,以及优化到什么程度的时候PUE值会降低多少。这个项目出于谨慎起见,对于系统给出的每一个优化建议我们都有一个严格的变更流程进行控制,变更完之后,我们要根据实测值与系统的推荐值进行比较,因为要剔除掉很多干扰因素,所以我现在没有办法直接告诉大家通过AI算法我们的PUE到底降低了多少,但是PUE能够在一定空间内通过AI算法安全地调优,这个方向已经被我们的实验认证了。
分析完DCIM之后,再给大家介绍一下智维平台在DCOM这个模块里的设计理念。DCOM是指我们日常运营过程中的流程以及流程之间的关联关系。我们在搭建DCOM的时候,有一个基本的理念,海恩法则。任何一起数据中心的事故,比如导致我的服务受到影响,导致宕机或供冷中断的事故,背后都有很多潜在隐患和未遂的风险存在。所以,只要我们在日常运营过程中,在事前尽量多地将隐患消除掉,让隐患不成立,一定程度上就可以保证末端服务的连续和稳定。这是我们DCOM搭建的一个核心理念。由于数据中心运营行业使用的已经比较成熟了,所以我这里重点提一下腾讯正在使用的智能化巡检模块。
智能化巡检模块基于一个理念,我们把现场每一台设备,或者我们所管理的每一台设备都以结构化的方式把它的巡检相、巡检标准和设备编号进行结构化的处理或者转译。现场借助于RFID扫码的形式激活每一台待巡检设备,以此获得巡检项,这样天然提升了巡检效率,而且也能保证巡检质量,也能够降低执行巡检人员能力门槛。
在这个理念之上,腾讯在2019年下半年又对巡检工作做了升级。我们认为巡检只是对监控系统的不足以及监控系统无法覆盖的设备进行人工确认,对于监控系统已经能够实现远程监管的设备,我们已经从巡检系统中剥离了。所以,我们经历了对于现场巡检由繁到简又从繁化简的过程。
关于智维平台的DCSM管理。腾讯云业务形态有很多种,其中一个重要的是托管用户比如58同城,他对我们腾讯机房的机架进行整机架租赁,机架上托管着他们自己的服务器。像58这种用户,他对他所享受的服务更关注的是当前的温湿度,环境怎么样,我的设备分布在你的机房里哪个位置,我还有多少空间或者多少的容量能够继续使用。基于这个需求,DCSM就重点解决了用户关注的综合视图以及资源查看、运营过程透明化的挑战。托管用户可以在平台里看到他所有所使用或所托管设备的运营情况,并且可以通过平台看到每一台设备的资源信息,发起所有服务目录中我们已经跟他签约的每一个服务项,确保所有的需求能够被线上记录,精准的传递到我们的现场。这样将运营过程中的风险控制到最低。
腾讯智维本身源于腾讯自己的一个运营平台,从2014年至今这套平台已经推广到了腾讯的四大片区,包括我们所有的自建机房以及合建租赁机房。截止到目前,这一套运维平台已经覆盖了腾讯全部10万个机架以及100万服务器所在的数据中心的基础设施运营管理。如果大家对腾讯智维平台更详细的功能和特点有兴趣,可以跟我继续联系,咱们再进一步沟通。
我今天的分享结束,谢谢大家!
延伸阅读:
- 【IDCC2019】易信科技运营总裁叶辉:增效降费、共建绿色数据中心
- 【IDCC2019】PLDT吴昊:PLDT如何帮助中国企业进军菲律宾市场
- 【IDCC2019】阿里巴巴任华华:IDC液冷化-正在发生的未来
版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点!
本站所提供的图片等素材,版权归原作者所有,如需使用,请与原作者联系。