解读:IT运维做什么
2018-06-11 来源:
掌握服务的平衡
在《IT运维之道》中提到扁鹊见蔡桓公的故事。扁鹊见蔡桓公的故事可以用一个成语来概括:“讳疾忌医”。这个故事折射了人性中对健康的偏好,也同时强调了防病比治病更为重要的观点。笔者是希望通过这个故事告诉我们如果把IT系统看成一个有机的整体,那么IT系统出现故障就好比人生病一样。对IT运维服务而言我们可以把主动服务比喻为“治未病”,就是运维服务者主动为用户提供一系列运维服务。目的是为系统提供防患于未然的维护保养服务,使得系统长期处于一个健康稳定的状态。也正如人不可能一辈子都不生病一样,保养得再好的IT系统也会出现故障。所以笔者把IT运维服务中的受理服务比喻为“治已病”,就是用户在发生故障时向运维服务者提出服务需求并获得运维服务的过程。目的是在信息化系统意外发生故障时得到快速有效的解决,从而减小对经营活动等业务的影响。掌握服务的平衡就是主动服务和受理服务在运维服务过程中的平衡。
一、区分主动服务与受理服务
主动服务和被动服务是IT运维服务中的两种相辅相成的服务方式。主动服务和被动服务的作用和特点各有不同。我理解的主动服务和受理服务之间的区别可以通过以下案例来了解。
【案例一】
A公司为本公司的顾客利用呼叫中心系统提供7X24小时(即每周7天,每天24小时工作)顾客热线支持服务,服务区域及范围包括香港、大陆20多个省市、台湾以及日本地区,聘用超过150位客服人员每月处理逾百万通电话,包括业务功能查询、设备维修服务、操作及使用说明、投诉处理、市场调查、快递业务联系等。A公司的呼叫中心系统结构如图(一)。
图一 呼叫中心系统结构
为确保24小时不间断的服务,需要组建一个IT运维部门为该呼叫中心提供IT系统的运维服务。该IT运维部门共分两个小组,一组为150位客服人员提供台式机及呼叫中心应用系统的日常使用支持,二组主要维护呼叫中心系统,包括PBX交换机、路由器、应用系统服务器、录音服务器、邮件服务器等。一组的运维工程师的工作时间是7X8小时工作制。二组的运维工程师的工作时间是5X8小时工作制。同时二组运维工程师配备了工作手机,以便在非工作时间段仍然能够给客服人员提供远程的支持。为确保所维护的信息化系统安全、高效、平稳的运作,IT运维部门制定了运维服务工作规范,系统故障应急预案等相应的文档。
根据以上案例的描述,以下列举了该IT运维部门的每日、每周和每月的主要工作任务。
序号 |
工作任务 |
工作时间 |
工作频次 |
负责人 |
---|---|---|---|---|
1 |
PBX交换机、路由器运行情况监控 |
8:00、13:00 |
2次/日 |
二组 |
2 |
各类服务器应用服务运行情况监控 |
8:00、13:00 |
2次/日 |
二组 |
3 |
数据库表空间容量监控 |
9:00 |
1次/日 |
二组 |
4 |
处理多位客服人员呼叫系统无法登录的事件 |
不定期 |
不定期 |
一、二组 |
5 |
统计呼叫中心累计不间断运行时长 |
15:00 |
1次/月 |
二组 |
6 |
为新入职员工配置电脑、电话 |
不定期 |
不定期 |
一组 |
7 |
处理单位客服人员呼叫系统无法登录的事件 |
8:00-17:00 |
多次/日 |
一组 |
8 |
处理客服人员电脑及呼叫系统故障等事件 |
8:00-17:00 |
多次/日 |
一组 |
9 |
对客服人员台式机进行安全漏洞检查 |
8:00-17:00 |
1次/月 |
一组 |
10 |
备份应用系统、录音、邮件服务器 |
23:00 |
1次/月 |
二组 |
根据以上工作任务,我根据各项工作任务的性质初步划分了哪些任务属于主动服务,哪些任务属于受理服务?
通过案例我们了解主动服务和被动服务的含义和特点。
主动服务的作用是防患于未然,定期为系统提供必要的维护保养服务,使得系统长期处于一个健康稳定的状态。受理服务的作用是恢复及解决故障,在信息系统意外发生故障时由运维工程师快速排查故障发生点,并及时有效的解决故障,从而减小对业务的影响。有些在业务高峰期意外发生的故障不一定能够当时解决,这时需要运维工程师及时采取措施首先恢复系统的运行,其后再彻底解决故障。例如,一位客户服务人员的呼叫耳麦没有声音,经运维人员排查软件、声卡、耳麦等设备后仍然无法解决,这时应及时为这名客户服务人员安排其他的坐席,从而不耽误他的工作,之后运维工程师再彻底检查并排除故障坐席的系统故障。
一、如何做好受理服务
做好受理服务的工作在书中提到了不少好的流程和措施。我今天想就一个受理的难点来展开。受理服务的一个难点就是如何处理好大面积突发故障的处理。
我的一位朋友给我讲过一段他的亲身经历。我认为这是一个极端的受理服务事件,需要启动既定的应急服务处理预案。当时他在一家电脑公司上班,这家电脑公司B公司是国内一家大型电脑公司,他们出产的服务器、台式机和笔记本电脑销售到国内的各行各业的企事业单位中,同时还生产家用电脑销售到千家万户中。1999年4月26日上午大约8:30点左右,B公司的售后服务部全体人员正在有条不紊的为开展新一天的服务工作而做着各种准备工作。突然,几乎所有的售后服务人员的电话铃同时响起,电话那端的用户焦急地说:“我的电脑打不开了,昨天下班关机的时候还是好好的,我正常关机,拔掉电源以后才离开的!”,服务人员当即询问电脑打不开的故障现象,用户的答复几乎都是一致的,主机的电源灯亮,显示器电源灯,显示器黑屏或者显示一行“DISK BOOT FAILURE, INSERT SYSTEM DISK AND PRESS ENTER”,重启或者用引导盘启动无效。售后服务部的技术部经理以最快的速度将这个情况向公司的技术总监进行了汇报。这时候,售后服务部的办公场地已经是电话铃声此起彼伏,所有后备人员也都冲到前线来接听来自全国各地的电话,电话中所报的故障99%都是电脑黑屏。服务人员给用户的答复统一都是:“您电脑的故障我已经记录下来了,目前尚不能准确判断是什么问题引起的,我们需要进一步确认针对这个故障的解决方法,请您耐心等待,我先记下您的电话,一有解决方案我们立即联系您!”这时,所有人都意识到他们遇到了一次特大规模的意外故障集中爆发。很快,技术总监传回来消息,今天是一种叫做CIH病毒集中爆发的日子。它的故障现象就是当电脑的系统时间一旦进入4月26日,病毒就会改写系统,导致开机黑屏,无法使用。根据技术部的描述:“CIH是一种电脑病毒,它的名称源自其作者,当时仍然是大学生的台湾电脑技术鬼才陈盈豪的名字拼音缩写。病毒会破坏用户系统上的全部信息,在某些情况下,会重写系统的BIOS。CHI病毒最早是随国际两大盗版集团贩卖的盗版光盘在欧美等地广泛传播,随后进一步通过Internet传播到全世界各个角落。传播的途径主要通过Internet和电子邮件。计算机病毒的传播已摆脱了传统存储介质的束缚,Internet和光盘现已成为加速计算机病毒传播最有效的催化剂。CIH病毒只感染Windows95/98操作系统。CIH病毒发作时,一方面全面破坏计算机系统硬盘上的数据,另一方面对某些计算机主板的BIOS进行改写。BIOS被改写后,系统无法启动,只有将计算机送回厂家修理,更换BIOS芯片。由于CIH病毒对数据和硬件的破坏作用都是不可逆的,所以一旦CIH病毒爆发,用户只能眼睁睁地看着价值万元的计算机和积累多年的重要数据毁于一旦。CIH病毒现已被认定是首例能够破坏计算机系统硬件的病毒,同时也是最具杀伤力的恶性病毒。”针对这个答复,售后服务部马上启动重大故障处理应急预案。
从上面这个事件中,我的朋友获得了宝贵的受理服务处理经验。首先一定要有受理服务应急预案。比如在这次事件中,我们可以做一下几件事情。
1、制定CIH病毒突发事件的紧急处理方案,包括不同故障现象分类及判断标准,全体受理服务人员针对不同分类的故障统一答复口径;
2、将紧急处理方案书面通知到全国售后服务维修机构和授权经销商,按照属地管理、分级响应、及时发现、及时报告、及时处理、控制损失的原则执行;
3、对于产生投诉的用户开放两天修复的应急响应绿色通道。
4、按日统计各区域故障分布情况,按日通报公司高层。
二、如何做好主动服务
做好主动服务虽然需要根据企业、用户需求、地域特征、时间等因素的变化而略有不同,总体来说仍然是有规律可循的。主动工作的内容和方式都比较好界定,难点在于主动服务的效果如何展现。主动服务的最高境界是用户感觉不到故障发生。但在现实工作中容易引发一个问题:“如果用户感觉不到故障发生的话,就无法理解我们付出的努力,一旦他们需要评估我们的价值时,由于无法感知,则往往容易低估整体运维服务的价值,久而久之IT运维机构容易进入价值下行的通道”。确实,在现实世界中,我们一不小心就会进入这样的陷阱当中。举个例子:我的一位朋友,他的公司是一家在纳斯达克上市的IT公司,公司在遇到2008年经济危机的时候果断地制定了一系列的有效措施,包括关停没有必要的远程服务中心,形成抱团取暖的局面,由于原来的流程中主动服务仍然在发挥作用,因此从用户到公司领导都感到服务是平稳过渡的。当金融危机逐步被市场所消化的时候,我的朋友没有在必要时机提醒公司高层,他们需要重新评估未来的服务需求对业务的影响。逐渐,受理服务开始增多,受理服务的工作量逐渐挤占了主动服务的时间。因此,从我个人的经验来看,主动服务的工作量占比一旦小于总工作量的30%,整个运维服务团队都容易进入集体焦虑的状态中。
那么如何恰当的体现主动服务的价值呢。在之前的讨论中我们提到主动服务的工作内容包括:远程监控、现场巡检、技术培训、服务报告、问卷调查等。这些工作内容可以通过事先制定相应的工作计划、执行计划、评估执行效果和改进提升来不断完善主动服务。我这里给大家举个例子,即服务报告的例子。下面我们来看两个服务报告。
示例一:某IT公司2009年全年服务量报告
示例二:某IT公司2010年全年服务量报告
从以上两个服务报告的示例中,我们能够看到随着从2009年多2010年,这个运维服务机构的服务报告进行了优化。这就是通过主动服务修订服务报告更形象化和聚焦化而有效体现IT运维服务机构服务价值的一个简单示例。这里,我要重点提示各位:好的服务报告应该符合“大道至简”的原则。用户关心的绩效指标要简单明了的展现;展现结果指标,无论你的过程指标多么漂亮都无需展现;以终为始去理顺各数据线的源头,确保统计口径是我们的目标所需要的。
服务的平衡需要做好主动服务与被动服务的平衡。我们要以预防为主,做好主动服务;以保障为重,做好受理服务。
标签: 安全 标准 电子邮件 服务器 计划 金融 漏洞 企业 数据库 问题 信息化 用户
版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点!
本站所提供的图片等素材,版权归原作者所有,如需使用,请与原作者联系。