【2019IT运维十大样板工程】浙江省农村信用社联合社新一代运维监控项目
2019-10-17 来源:IT运维网
背景介绍
近年来,移动互联网深入发展,金融科技方兴未艾,银行数字化进程疾速推进。在此过程中,电子渠道的地位不断提升,一些银行更是明确提出将经营重点从网点转向线上电子渠道。
如今,电子渠道的业务量已经占到银行业务量的80%以上,电子渠道用户的体验变得比以往任何时候都更加重要。作为业务系统的建设者与维护者,运维部门同样需要从客户的体验出发,实时感知用户办理业务的真实体验,及时定位和解决影响用户体验的隐患和故障,以持续提升用户满意度,满足行内业务发展的要求。
浙江省农信应用运维面临的挑战
浙江省作为全国民营经济最发达的地区,金融业务的需求非常旺盛。作为浙江省内最大的金融机构,浙江农信负责对浙江省农信系统(包括农信联社、农村合作银行、农村商业银行)进行管理、指导、协调和服务。本行下辖81家行社,拥有4100多个营业网点及5万多名员工,规模大、网点多,业务稳定性要求高,因此对运维品质和质量的要求极高。
随着省联社业务发展及IT管理的需要,服务器、网络、中间件、业务应用等面临的监控压力也越来越大,运维监控开始出现短板:
- 业务系统多,缺乏统一的应用性能监控平台,无法实时把控业务系统的运行质量;
- 故障可能的种类和原因愈发复杂,完成告警、定位、排障流程的耗时越来越长;
- 对应用监控的指标和维度不够丰富,缺乏能够反映用户真实体验的监控数据
针对以上问题,运维部门开始着手建设应用性能监控平台,帮助快速提升运维能力。
面向用户体验的应用性能监测项目解决方案
1.方案选型
经过对行业内相关技术的广泛调研和考察,目前主流的三种监控技术手段为:网络旁路、埋点和日志。对比分析如下:
对比项 | 网络旁路 | 埋点 | 日志 |
部署方式 | 从网络镜像数据中实时抓取业务流量 | 在业务系统内植入代码 | 采集生产服务器的交易日志 |
对生产系统的影响 | 无影响 | 对生产系统性能有影响 | 对生产系统性能有影响 |
对业务系统的适应性 | 可覆盖几乎所有业务系统、网络设备。 | 支持常用应用,但需要定制开发,并且无法覆盖网络设备 | 支持常用应用,大部分需要进行日志系统的改造,并且无法覆盖网络设备 |
监控的实效性 | 时效性可达秒级 | 难以获得实时性能指标 | 日志量的大小决定监控的实效性,普遍在分钟级以上 |
项目实施周期 | 实施周期短,一套业务系统的部署周期一般在一周以内。 | 周期长 | 周期长 |
项目成本 | 成本低 | 成本高 | 成本高 |
经过详尽的对比和评估,我行认为旁路式监控对生产系统无影响,实施周期短,可快速提高科技部门的业务运维能力,成本低,见效快。由此决定进行网络旁路式监控的部署。
2.覆盖范围
采用网络旁路式应用性能监控技术的适应性强、时间短、成本低,适合多套业务系统的端到端全链路部署。所以在一期项目中,我行选取了行内16套重要业务系统进行了全链路监控,包括:核心系统、网上银行、手机银行、大小额支付(超级网银、农信银)、综合前置(渠道接入)、信用卡、电话银行、第三方中间业务、银行卡前置、综合前端、国际业务、资金业务、短信平台、信贷管理以及互联网金融等系统。
3.系统主要功能
应用性能监控平台作为我行在运维方面的主要监控系统,提供了绝大部分应用监控的功能实现:
(1)业务架构梳理
通过分析网络数据包来自动绘制应用访问关系,使我行实现了业务流程流转关系的动态刷新,并可在业务系统变更后快速梳理业务架构。
(2)统计指标计算
通过网络数据包的自动解码、关联,实时计算交易量、响应率、成功率、响应时间等应用性能指标,实现了高实时性的业务运行状态把控。
(3)性能展示
实现了对16套重要业务系统的实时监控覆盖,并可根据需要自定义展示的指标数据,通过数据掌握用户的真实体验情况;并且可根据运维和管理需要灵活采集不同维度的数据,将监控平台所展示的指标与信息集中于当下运维关注点。
(4)实时告警
通过与行内事件平台的集成,通过动态基线和固定阈值组合的模式实现实时预警与快速定位,第一时间发现业务运行的隐患和故障,提高故障排除与系统恢复的处理效率。
(5)交易查询
通过精确到逐笔交易的明细数据字段,实现对单笔交易的查询、追踪、分析、定位等操作,满足快速查障排障的工作需要。
(6)数据输出
通过API 接口应用将监控平台的实时监控数据与监管报送平台对接,满足浙江省银监局信息科技风险动态监测数据的报送要求。
(7)大屏展示
通过接入监控平台实时数据,模块化自定义大屏可提供针对业务运行、用户体验、系统性能、交易分布等多种维度的信息展示,在重大保障、系统变更、压力测试等场合可实时、快速掌握各系统的全局运行态势。
4.项目收益
通过此次项目建设,我行大大改善了业务系统的监控粒度和实时性,促进了运维水平和服务质量的极大提升,保障了业务系统可用性及连续性的进一步提高。
我行在较短的时间完成了行内主要业务系统的端到端的全链路监控覆盖,建成了一体化应用监控平台,实现了运维部门应用监控能力的极大增强,改善了运维工作的效率和品质。
新系统建成后,我行拥有了对业务系统中各项数据的采集、处理、分析能力,为后期金融科技项目建设提供了技术支持和数据来源;高度灵活性的运维管理平台能够很好地应对和满足业务系统不断扩张升级带来的运维需求和压力,支撑未来多年的业务系统发展。
5.总结及展望
近几年,浙江农信逐步建成了管控平台、部署平台、日志平台、应用性能管理四大运维平台。应用性能管理平台自上线运营以来,在新业务上线、业务变更、重大活动保障、灾备演练等各方面成效显著,已多次帮助运维部门及时预警、及时处理业务故障;帮助业务运维部门掌握业务系统的实时运行状况,实时监测用户的业务体验;同时,保质保量地完成数据监管报送要求。后期,我行将持续提高监控覆盖率,力求实现对行内重要业务系统的端到端监控全覆盖,实现用户业务体验的全流程监测。
点评:随着金融电子化的深入推进,电子渠道的业务量大大增加,业务系统对客户体验和满意度的影响作用也大大提升,浙江省农村信用社联合社通过建设新一代应用性能监控平台,实现用户业务体验的全流程监测,在改善运维工作效率和品质的同时,也增加了客户满意度。
版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点!
本站所提供的图片等素材,版权归原作者所有,如需使用,请与原作者联系。