一个基于规则的网络故障管理系统的设计与实现 …

2008-02-23 04:54:04来源:互联网 阅读 ()

新老客户大回馈,云服务器低至5折

一个基于规则的网络故障管理系统的设计与实现
李威 战守义
(北京理工大学计算机科学与工程系,北京 100081)

摘 要 本文介绍了网络故障信息在网络故障管理系统中的处理流程,提出了利用模糊专家系统构建网络故障管理系统的方法,利用规则进行告警过滤和根源故障分析。并在此基础上,对该系统的具体实现进行了说明。
关键词 网络故障管理系统 模糊专家系统 规则结构 不确定性
基金项目:“十五”国防预研项目资助(编号:413040402)
1. 引言
网络管理的主要任务是规划、监督、设计和控制网络资源的使用及网络的各种活动,使网络中的各种资源能得到正常、高效的运行,并且在网络出现故障时能及时做出报告和处理,协调、保持网络的运行等。
ISO建议网络管理应包含以下基本功能:故障管理、计费管理、配置管理、性能管理和安全管理。其中,故障管理是网络管理中最基本的功能之一。网络管理器必须具备快速和可靠的故障监测、诊断和恢复功能。
为了使现代网络管理系统能够更高效的对各种大型复杂的网络进行管理,许多研究者很早就尝试将人工智能的技术应用到网络管理领域,如人工神经元网络、专家系统、确定性理论、证据理论、主观Bayesian方法等。在这些技术中,专家系统技术在网络管理领域(尤其是网络故障管理领域)的应用是比较成功的,专家系统对解决网络管理中的一些问题有很好的效果,如实时性、协作管理等,因此专家系统特别适合用在网络的故障管理中。
网络管理系统对资源的管理控制要依赖于它对网络系统中的资源状态的了解,但由于网络系统是一个动态的大系统,网络管理系统收集的网络系统的状态常常是不完整的。专家在诊断网络故障时能够依靠不完整的信息,依赖以往积累的经验选择合适的诊断步骤,并且根据诊断的情况逐步调整方向和缩小范围。专家在这一过程中用到的就是不确定的推理方法。引起不确定的原因是很多的,处理问题的方法也不尽相同。因此必须要求网络管理系统也具有同样的处理不确定不完整信息的能力。模糊专家系统具有处理不确定性知识的能力,本文对模糊专家系统在网络故障管理系统中的应用作了初步研究。
2. 网络故障管理技术
网络故障管理的主要任务是及时发现并排除网络故障,它是网络管理的诸多任务中最重要的任务。一般来说,故障管理系统应该包括以下基本功能:故障监测、故障报警、故障信息过滤和关联分析、故障报表查询、故障管理配置等。
对网络故障信息的具体处理流程如图1所示。

图1 故障处理流程
2.1故障采集
显然,发现故障是网络故障管理系统必须具备的功能。要发现网络故障,就是要收集各种网络状态信息。收集网络状态信息一般有两种方法:一种是异步告警,即在发生故障时,由发生故障的设备或服务器主动向网络管理系统报告;另一种是主动轮询,即由网络管理系统定期查询各设备和服务器的状态。一般的网络管理系统都同时使用了这两种方法。
由发生故障的设备或服务器主动向网络管理系统报告网络故障是一种十分有效的故障发现机制。它能及时的发现端口故障、连接失败、设备重新启动、收不到某一主机应答、服务进程异常等网络故障和重要事件,但该方法并不可靠。这就需要依赖由网络管理系统轮询设备的方法。主动轮询方法可以帮助故障管理系统可靠的发现网络故障。
2.2告警过滤和根源故障分析
网络故障的分析和分离相对于网络故障发现来说要困难和复杂得多。其目的是迅速找到网络故障的确切原因,为排除故障指明方向。当然,依赖网络管理者的经验和智慧来分析、分离故障也是可能的,但这就大大降低了故障处理的自动化程度。事实上,网络中产生的很多相关故障都可能是由同一个原因引起的。如果能够在向管理者报告前对故障信息进行分析和过滤,就能更有效的帮助管理者处理网络故障,而不仅仅是不负责任的向管理者报告一大堆看起来没有关联的故障报警。这就需要对采集来的故障信息进行告警过滤和根源故障分析的处理。
告警过滤,是指将采集到的告警信息依据用户定义的规则进行过滤,去除无关的告警信息的动作。广义地,可以指从多个告警中过滤出少数告警的任何动作。根源故障分析,是指根据网络的连接关系、故障的上下文关系和网管人员的相关经验,制定出一定的规则,并由此查找出产生一系列故障的真正原因即根源故障的动作。
对根源故障的分析主要有两种方法。一是依赖网络的连接关系即网络的拓扑结构信息和故障的上下文关系(也就是在该故障之前和之后发生的其他网络故障)。二是依赖于系统保存的网络故障历史记录的分析。方法一是目前多数网络故障管理系统首先采用的办法,它可以有效的处理和分析大部分的网络故障,特别是网络连通性故障。方法二对于处理其他类型的网络故障有着很好的前景。通过合理的设计故障处理记录和故障分析策略,可以对更加复杂的网络故障进行分析和分离,为管理者提供十分有价值的参考信息。
3. 模糊专家系统在本故障管理系统中的应用
3.1不确定性理论
当某条信息不是绝对肯定的时候就会出现不确定性。不确定性的程度通常用一个0~1之间的一个数值来表示,称为可信度因子。当可信度因子等于1的时候表示专家系统对某事实为真非常肯定,当可信度因子为0时表示系统对该事实为真非常不肯定。
模糊专家系统可以对不确定性的知识进行很好的处理。它可以通过使用被应用的事实及规则的模糊因子和可信度因子计算出结果的真实程度。模糊专家系统能够处理不同专家意见下的不完全可靠的和不完整的知识。
3.2模糊专家系统在本系统中的具体应用
本文所介绍的故障管理系统是一个基于模糊知识的智能系统,它能把网管专家在故障诊断领域的知识以规则的形式存放在知识库中,当网络中的告警报上来以后,它能调用相应的规则进行启发式推理,找出告警源,并给出可能的故障原因供维护人员参考。下面就详细的说明本系统中所采用的模糊专家系统的设计。
3.2.1知识表示
知识的表示方法是设计专家系统的核心内容之一。不同的知识表示方法往往会对问题的求解产生很大的影响。在本故障管理系统所采用的模糊专家系统的设计中,是采用规则结构的方法来表示知识的。
规则结构也叫做产生式规则,它是知识表示中最简单、最常用的形式。产生式规则的一般形式是:if (前提),then (动作)或(结论)。采用规则结构进行知识表示有下列优点:
(1)模块化:在众多规则所组成的库中,每条规则可自由增删、修改,象一个独立的知识块。

标签:

版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点,本站所提供的摄影照片,插画,设计作品,如需使用,请与原作者联系,版权归原作者所有

上一篇:如何建立网络文档

下一篇:IP组播流量管理与拥塞控制