为传统工业注入生机活力 智慧运维在行动
2019-08-29 来源:IT运维网
项目背景
包头钢铁(集团)有限责任公司(以下简称:包钢)是我国成立后最早建设的钢铁工业基地之一,1954年开始建设,1959年投产。包钢拥有“包钢股份”和“包钢稀土”两个上市公司,是中国主要的钢轨及无缝钢管生产基地之一、华北地区最大的板材生产基地、是世界稀土工业的发端和最大的稀土科研、生产基地。
包钢始终致力于多元发展,并致力于建设“大包钢”,成为世界最大的稀土钢生产基地和最具竞争力的稀土生产、科研基地,年销售收入达到1000亿元以上。
随着包头钢铁(集团)有限责任公司信息化建设的深入, 信息化运维监控管理在企业发展过程中担负起越来越重要的角色,企业利润来源也越来越依赖于信息化的建设水平,而企业信息化的建设水平取决于两个方面:
• 一方面是基础设施的搭建,这是硬件基础;
• 另一方面是管理层面,就是如何将已有的硬件基础设施的效能更好的发挥出来,这就和运维管理水平的高低息息相关。
如何及时了解系统的运行状况,有效地降低系统运行的风险,主动的发现并及时解决系统运行故障,让业务系统保持7×24小时的健康、持续、稳定、高效运行,这些都给包钢的信息化运维管理水平提出了更高的要求,也是当前传统工业企业运维管理普遍面临的巨大挑战。
运维挑战
包钢集团 目前拥有网络设备、服务器、存储以及其他IT资源,在整个IT资源管理方面仍处于人工管理阶段,管理运维属于被动管理。
管理设备类型和数量
- 操作系统主要有IBM AIX、CentOS、Windows等,共计需要管理35台。
- 数据库主要为IBM DB2、Oracle等,共计需要管理 25套。
- 中间件主要为websphere,需要管理10套。
- 应用主要为HTTP,需要管理10套。
- 存储设备主要为IBM、EMC,需要管理5台。
运维管理需求:
网络管理
• 拓扑图的生成支持网络设备的SNMP V1、V2、V3这三个版本的混和生成,并能对SNMP V3设备进行管理;
• 支持对全网的网络设备线路按照流量、带宽占用比、丢包率、错包率、广播包等指标的实时负载进行排名;
• 支持网络设备的ARP表、MAC表、路由表等表格数据定期存储,差异自动比对,提供路由表历史快照对比;
• 提供任意IP类型对象的监控,支持ping状态、TCP端口状态、URL跳转方式实现该对象的基础管理;
• 拓扑图上的设备和线路支持按照性能参数的不同区间以红、黄、绿颜色进行显示,性能负载可自定义;
• 在拓扑图上可直接显示线路峰值流量、广播流量、组播流量信息;
• 提供网络设备可用率、线路连通率、网络设备负载分析报表、线路负载分析报表、网络告警统计报表等多套基于采集和管理数据生成的客观统计报表。
操作系统管理
• 支持对主机进程列表的监控,支持定期备份进程表,支持进程表比对,进程状态告警;
• 支持主机趋势管理视图,包括CPU、内存、文件系统,流量指标的对比,磁盘容量可用时间的预测;
• 支持波浪图方式显示所有主机的全局信息,以图形化方式显示主机的常用管理参数;
• 支持系统拓扑图,一张图可以展现所有主机承载的数据库、中间件和标准应用之间的实时状态监控,为主机监控提供全景视图;
• 提供主机可用率、主机性能报表、系统告警统计报表等多套基于采集和管理数据生成的客观统计报表。
数据库管理
• 支持对Oracle、DB2等数据库的各项运行参数进行监控;支持对于各个数据库实时运行状态的实时统计,包含数据库会话数、死锁数实时排行,支持对表空间大小和会话数、缓存信息、锁信息进行重点监管;
• 支持在数据库发生异常时,进行所在主机、数据库关键指标的数据快照,便于事后便捷分析。
中间件管理
标准应用管理
存储管理
• 支持存储空间使用全局视角,当前所有磁盘阵列设备已经使用空间的统计;当前哪个设备已配置的数据池,有足够的空间可以分给给业务主机使用,列出Pool已使用的排行;提供各个业务主机磁盘使用的增长规律和使用预测,便于事前做好扩容规划;
解决方案
基于自动化理念打造核心平台
系统智能化管理
• 通过事前隐患智能分析,主动排除,即时通知,将故障发生概率降到最低;
• 对于部分故障实现自动化分析和处置,缩短故障处置周期,避免损失扩大化;
• 落实每个信息化管理主管的对于自身企业的个性化管理要求;BTSO适时推出了智能信息化管理管理,为用户落实如上3点诉求,提供管理功能。
智能运维管理
智维模板按照管理等级,预置了不同管理对象的管理方案,方案包含如下技术点:
• 内置监测方案,包含采集指标的多寡,具体指标的采集周期、监测阈值,便于对系统自行巡检相关数据;
• 提供了预置告警规则给用户进行选择,用户可以根据业务管理实践的不同启用相应的告警管理规则;
• 提供常见管理报表,并生成高级别对象的管理报表。
通过上述智维模板,使软件无需复杂配置,安装就能对资源进行基础信息化管理。
实施效果
运维智能分析
提供本周系统运行概要信息:
• 目前管理的总数量,
• 本周运维巡检的次数
• 本周执行智能诊断的次数
• 本周生成的报表数量
提供各个管理类型的运维巡检情况:
• 本周运行健康趋势如何,如果问题增多则需要关注;
• 提供为什么问题增多的具体表现,
• 包含本周巡检问题最多的指标,以及问题最多的设备;
• 包含本周巡检问题最多的设备,以及这个设备的问题指标;
提供各类重要类型的上周高低负载的数量;了解整体性能概况;
提供在告警处置上的效能评估,告警数量的变化以及平均解决时长的增长;
提供对于本周运行数据的分析判断,便于用户定位问题:
• 提供线路吞吐量的环比变化,帮助用户定位业务环比最大的线路;
• 提供windows主机吞吐量的变化,帮助用户定位业务环比最大的主机;、
• 提供主机磁盘增长Top,列出各个分区的增长情况,并预期可用时长,帮助用户进行定位需要调整控件的具体设备;
智能管理
对于工程师日常监控来说,故障管理是突发情况,而关键业务、指标的监控是常态管理要求,为了满足工程师对于重点应用质保的监控要求,系统提供了自定义首页功能,该功能提供基于角色的个性展示功能,用户可以自行选择不同管理重点指标以及展现方式,以便完成一图完成所有重点监控;
系统至少提供TOP表格、TOP柱状图、性能曲线图、单值图等多种展示方式;支持对于所有数值型数据的统一排序、历史记录展示;
结合日常管理需求。可以实现诸如骨干线路监控总图、关键应用监控视图的管理要素;
系统为展示要求提供数据支撑,能为自定义布局提供技术支撑,管理展现提供数据支撑。除了所以采集范围内的指标外,也应该支持通过sql、ssh、snmp等方式扩展业务指标的显示;
系统应该提供基于一个角色同时查看和配置多张视图的能力,每张视图可以新窗口打开,为用户日常监控展示提供便利性。
直观明了的网络管理
自动根据北塔特有的拓扑生成算法,快速搜索整个网络内的网络设备,智能分析网络拓扑结构,自动勾画出整个网络的真实物理拓扑图,真实反映整个网络的构成状况。BTSO 除拓扑生成之外,还支持拓扑添加功能,在保留原有拓扑图的基础上,搜索新的网络设备,并自动添加到网络拓扑图上。
网络拓扑图可从全局的角度出发,帮助信息化管理管理人员实时了解整个网络当前的运行状况,主动告诉用户关注点应在哪里,网络架构是否合理,有无网络瓶颈,设备和流量有无异常等,动态告诉用户可能的故障隐患,达到透明化、事前管理目的。
为了同时满足不同用户间的个性化需求,BTSO 提供了灵活的拓扑图复制功能,可为不同用户提供单独的展现页面。用户可以根据自己的偏好设置自己的个性化拓扑图,且不同的用户之间没有任何影响。
• 可以通过红、黄、绿等不同颜色表示网络设备和线路负载压力的评估状况,并可以调整设备和线路的变色阈值;
• 可以通过不同颜色的告警图标,显示各个网络设备的告警触发情况;
• 可以为拓扑图上的每台设备、每条线路设置中文名称,添加注释,方便进行管理。
提供背景图的更换设置功能,可自由选择精美的图片作为拓扑图的背景;
直观展示主机系统关联关系的系统拓扑
系统拓扑以主机为核心,展现了所有承载的数据库和中间件、标准应用之间的实时状态监控, 为主机监控提供全景视图;系统自动生成并智能布局,无需人工调整。
系统拓扑提供清晰的展现方式:提供网段不同颜色表示方式,不同主机按照其操作类型图标 显示,从主机出发关联数据库与主机的关系。
• 系统通过不同的颜色区分管理对象的实时性能层 级,BTSO 提供了主机经典性能指标,并以红、黄、 蓝代表其主机实时性能;提供根据业务需要性能负 载调整设置功能;提供主机关键性能指标的实时显示;
• 系统以闪烁的图标反映,重点提醒用户该资源发生 了告警;同时以弹出框显示告警的具体对象信息;
• 系统提供自定义拓扑方式,可通过对不同业务拓扑 主机的自定义归类,实现单独业务的聚焦关注;
• 拓扑图不仅反映单个设备的状态,同时提供关联数据排行,为问题定位增加信息参考:
• 提供以故障作为评价方式的综合评分,整体了解系统的整体运行健康情况;
• 提供主机 CPU 实时 TOPN 排行,分析主机性能最高的设备,便于用户重点监控;
• 提供主机连续运行时间 TOPN,分析主机异常开关系统的变化;
• 提供数据库会话数 TOPN,分析数据库实时运行状态。
同时提供主机一体化显示,按照不同的操作系统进行数据分类,系统提供基础信息、运行信息、进程管理、事件与告警、硬件信息等各类管理信息:
• 以关联方式显示主机上的承载数据库、中间件、标准应用的实时状态
• 图形化列出重点监控的硬件、日志、CPU性能、磁盘信息的实时信息
• 对于CPU性能、网卡等重要参数的最近3天数据分析
• 支持主机进程的实时展示分析
透明化、智能化、统一化的存储管理
硬件状态管理作为基础管理部分,以统一的视图展现被管的各个硬件子项的运行详情,清晰展现各个管理设备的各类型管理状态,并以颜色显著标示出现问题的硬件类型;涉及到磁盘阵列的电源、电池、风扇、温度、磁盘、控制器等各个关键硬件信息;
标签: 智慧运维
版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点!
本站所提供的图片等素材,版权归原作者所有,如需使用,请与原作者联系。
最新资讯
热门推荐