在一个大型公司中,是有着繁多复杂的设备设施在支撑着公司业务的进展,在这个庞杂的设备环境下,数据间紧密相连,一个指标的变化,可能引发一系列的告警连锁反应。不同监控平台的红色标识、不断涌入的告警邮件和短信,紧牵着运维人员的神经,告警管理挑战重重。如何抑制告警风暴?如何保障重要告警不漏不丢?如何快速地定位告警根源?如何沉淀告警处置经验?如何快速恢复业务运行?这些都是每一个运维团队在工作中面临的最棘手的问题。
完成一笔业务往往需要跨越多个应用系统,应用调用链路上每个IT单元的问题,都有可能导致业务故障。系统中任何一个监控对象的告警都可能引发其他多个相关策略的告警,海量告警的相关度高达90%,也就是说90%的告警都是可以被归因到一个根源告警上。具备一款网管软件可以对资源监控即时告警已经刻不容缓,全方位监控服务器CPU、内存、磁盘、网络等各项资源,通过设置指标告警规则产生告警。通过告警的精细化管理,帮助用户即时反应处理,保证程序运行畅通。
过高的告警阈值,容易漏掉系统运行故障;而过低的告警阈值,又会带来大量的无效告警,影响运维团队的工作效率。传统的问题处理从故障出现、排查发现、初步处理、建立问题单、故障信息采集、故障定位到故障恢复,往往耗时数小时。网强网管从问题的快速感知到产生告警,再到问题的快速定位,及时通知相关人员进行修复,处理时长可以缩短大量时间,问题处理效率提升数倍,快速恢复业务运行。
通过对业务系统的下属资源(网络设备、服务器、中间件与数据库应用、系统API(RMI/SOCKET/XML/COBRA、Log日志、数据库、北向/南向接口)、用户模拟(服务响应时间、服务成功率、SLA水平)进行三维视角的立体化监控与分析,进行立体化网络监控系统。建立业务拓扑图讲业务中的所有资源展示在一张图上,做到对故障设备及时定位,快速告警,通知网络运维管理人员进行排查。
除了技术的难点,告警管理过程还有另一个关键点,就是告警故障知识库的建立。这是日常运维工作经验的积累和沉淀,也是故障恢复方案的基础。但这也恰恰是很多企业的软肋,大量的故障处理经验都存在于运维人员各自的大脑中,日常中更多的依靠个人能力去排查和恢复故障。随着运维人员的流动,这些最为宝贵的资产也随之流失,这使得一个重复故障的处理也需要进行重新分析,不必要的拉长了故障恢复时间。
上一条:网络运维管理的网管是干嘛的?
下一条:为什么会出现无线网络管理?