随着云计算、大数据等新一代IT技术的发展,企业信息化应用变得更加得心应手,但IT运维管理的压力似乎并没有减轻,反而面临更大的挑战。对??it运维主管来说,一场IT重大事故的发生,不仅会让部门员工士气低落,更容易让上层领导怀疑IT部门的领导力和执行力。因此,针对IT故障管理,更多希望改善自身状况的IT部门,开始选择主动性的事前管理模式,而非被动式的亡羊补牢??
英雄难过“故障关??
一方面,作为公司的最高管理者,他们希望IT的能力越来越强大,变成无形的力量,因为IT能消除公司内部的摩擦,并且削减每笔交易的成本。另一方面,你永远不要相信他们可以做到绝对的平衡,如果重大的系统故障给整体收益带来了影响,公司就会强调这个原因,强调公司发展受到了IT的拖累??
那么,IT故障是否能够彻底消除???答案是否定的。任何系统都有出现故障的时候,它可能发生在IT资产生命周期的任何一个时段,包括了硬件、软件和不可抗的自然因素。为此,企业必须要为自身定义一个可以接受的故障管理目标,将IT基础设施故障对业务的影响减到最小,并防止与这些错误相关的事故再度发生??
故障管理的流程具有被动和主动两个方面。被动方面是作为对一个或多个事故的反应而解决问题,而主动的“故障管理”是指在事故发生前确定并解决问题和已知错误。所以说,即使你现在‘救火’的事情再忙、再多,也应当去思考,并且马上行动起来,因为这种工作状态非但不能给IT部门带来改变,反而陷入一个恶性循环当中??
“两步走”实现未雨绸??
如今,企业的IT架构被多种新兴技术改造,并与业务深度融为一体。这带来了极度复杂的管理机制和故障发生机率,迫使IT部门不能满足于传统的故障识别及修复工作,而需要走在问题的前面??
未雨绸缪的益处世人皆知,但又要从何入手呢?
需要注意的是,在云计算或虚拟化运行环境中,传统的运维工具已经无力支撑这个目标。此时,用户可以采用网强网管系统等具备自动感知虚拟和物理环境的新一代运维平台,将虚拟交换机和虚拟机以“实体连接”的形式存在于监控场景中,自动追踪数据和虚拟机漂移后的性能指标??
在完成全网监控的目标后,用户可以利用网强网管软件自动对监控数据从业务角度归类整合,让所有业务关键参数醒目地投射到业务架构上,实时反映业务运行情况。业务视图的构建,可以对外向业务部门,对内给自身管理都提供透明化管理,能够非常清晰地反应出业务系统的健康指标。而透明化的监控业务系统运行起来之后,能够事前发现可能引起系统宕机故障,或者访问质量无法保障的问题,把可能发生故障的隐患消除在萌芽状态??
主动运维、事前运维,这些具体工作实际上都在围绕着“预防性检??(PM)”展开,旨在提高系统的可用性、稳定性。而IT部门的价值若想进一步体现,就不能总围绕“救火员”的角色。因此,未雨绸缪的最终目的还是解放人力??
上一条:实际运维中处理的事故问题