一、 关键业务管理
需要监测的关键业务流程包括:1、公司内部的关键业务流程。如大型企业中的OA业务、医院中的his系统、生产管理信息系统等。2、网络吞吐量大的业务流程。主要是一些复杂和交互式的业务流程,医院的挂号系统等。3、对系统造成大的压力,频繁使用数据库的业务流程。4、同其它系统集成的业务流程,这些集成会提高应用失败的风险。
这些业务系统庞大而牵涉面多,需要一个综合业务管理平台进行整体的监测整合。好的解决方案是引进网管系统,对业务系统是否正常运行、各项具体参数指标是否超标、业务相关联的设备是否正常运行等进行掌控,避免或降低业务系统故障的发生率。业务拓扑图可以对业务系统中关联的设备一目了然,出现故障及时告警,快速定位故障根源。
业务模型
业务拓扑图
二、 用户体验同系统性能指标相关联
在制定监控策略时,应考虑将网络中的所有网络基础架构都进行集中监测,包括对数据库服务器、应用服务器、路由器、交换机、防火墙的监控,从而判断哪里出了问题导致公司网络不能畅通运行。网管软件就可以采集网络运行数据,将性能数据同用户的体验相结合来制定告警阈值,分析网络的性能状况,及时对故障设备进行告警,以致于快速帮助运维人员解决故障设备。
模板策略
智能基线
三、 对设备性能进行分析并实时观察趋势
长期监测指标对于保持网络和性能的正常性能水平是非常必要的。通过对网络运行的观察,网络运维管理工程师可以知道网络性能的变化和流量等指标的运行趋势;及时发现网络偏离系统基准模型时的异常状况,分析是单一故障,还是严重问题的前兆,达到预警的目的,防止更严重问题的发生。
四、 设计报警策略,避免警报泛滥
报警是网络管理和业务系统最重要的功能之一,配置报警的依据是根据信息服务管理网的网络运维管理目标,报警设置的原则:1、对影响网络和业务的重要指标设置报警;2、消除误报和重复报警;3、报警应该以多种方式及时发送给相应的网络运维管理工程师。
五、 创建自动化、规范化事件处理程序
网络运维管理工程师人员少,日常处理事务较多,他们需要在网络、链路和系统运行出现问题时能够有自动化、规范化的处理问题程序,快速处理各种潜在故障并且分配他们到合适的管理工程师,帮助他们提高工作效率。建立规范事件处理程序的另一个好处,是将工程师长期积累的知识和工作经验系统化和固化,达到快速定位故障的目的。
运维服务台
六、 网络服务质量的量化管理
提高服务质量的第一步是设立量化指标,将其作为整个网络运维管理团队的整体目标。网络性能管理的总体目标包括网络和设备、业务的可用性、健康状况、带宽使用率、网络延时、CPU和MEMORY的负载,对于不同的网络指标还要根据网络的上下级连接关系分解到每一个子指标,作为对网络故障诊断和性能管理的依据。
上一条:IT运维用户的四个类别