目前大部份运维团队打着“救火”、“背锅”、“低价值”等标签,团队的特点归纳下有四个特点:
被动救火式,以被动保障业务系统运行,日常计划性工作容易被打断、搁置;
问题驱动式,以系统可用性、可靠性、业务请求等问题驱动运维工作;
操作运维,重复性、操作类点主要工作量的运维模式;
经验式运维,由人工经验驱动的运维模式,尤其是一些经验丰富的老员工的离职在短期内会对运维质量带来一定的冲击。
1运维的“复杂”与“哀愁”
作为运维工程师,他们驾驭着千军万马,操作成千上百台机器,让它们和睦相处、协调互助。他们的工作就是让机器能够“舒展四肢”,让业务美好完善的一面展现出来。
李工说:“运维监控平台未上线的前些年,我们运维人员的双手是被键盘所‘束缚’住的。”
他们不仅需要人工去进行服务器巡检,很多时候,还没巡检到问题,故障就出现了,等巡检到故障点时,故障都已经持续很长时间了……
“按照传统巡检,每天需要花费2小时进行服务器巡检,30个项目就需要60个小时……”
李工表示,按照传统的计算,是完全没有足够的人力去做这些事的。
此外,李工还为我们描述了这样一些场景——“磁盘空间被日志写满!”
“业务应用地址访问不通!”
“数据表空间没有剩余!”
没有运维监控平台的时候,这些都是运维人员日常所面临的问题。
“一旦应用程序报错出现,运维人员需要全方位地协助配合检查原因,然后再制定相关的补救措施,一系列程序下来,往往需要较长的时间。”
这不仅使运维人员终日忙碌,而且也降低了故障处理时效。
“服务项目众多,但是人手实在有限,还常常面临‘被动救火的局面’!”
曾经的“纯人力”,给运维人员、各个项目组人员带来了非常繁琐而又重复的任务。面对手上的诸多任务,一到巡检时刻,简直是一场“噩梦”。
2冲向自由!解放运维双手
那么,怎么才能砸掉镣铐,让运维人员获得解放呢?
这时候网强运维管理软件出现了,建立IT运维的自动化监控和管理平台。
李工表示:“每人每天需要花费大量时间去进行服务器巡检、排查问题、定位问题等工作,但是在接入到网管平台后,5分钟便可以巡检完毕,并快速排查并定位问题。”
统一运维监控管理平台带来的极简改变
运维监控平台将运维中日常的、大量的重复性工作自动化,把过去的手工执行转为自动化操作,从而减少乃至消除运维中的延迟,实现“零延时”,极大地减轻了运维人员的工作量,释放不必耗费的精力,让更多时间用于思考和创新。
简单的工作程序化,重复的工作自动化。
“现在省去了大量重复工作的时间,我们可以把更多发现问题的时间用到解决问题上!”
通过运维管理软件实现对用户操作规范的约束和对IT资源进行实时监控,包括服务器、数据库、中间件、存储备份、网络、安全、机房、业务应用和客户端等内容,通过自动监控管理平台实现故障或问题综合处理和集中管理。
3打破僵局!化被动为主动
统一运维监控管理平台的出现,也可以说是运维人员从“被动救火”到“主动发现”的跨越。
统一运维监控管理平台后台界面
绿色、黄色、橙色、红色……在运维监控平台的后台里,服务器的CPU、内存、网络、链接等皆处于“监控之下”,指标会随着服务器状态呈现不一样的颜色。
“正常状态就是绿色,如果处于别的状态就会变色。”将鼠标移到故障块上面,就能看到服务器目前的情况。
“一般指标分为警告、严重、紧急等状态。”一旦指标或服务出现异常,就会通过告警短信或邮件迅速进行提示。
“这是非常及时的反馈机制,我们可以主动发现问题,在第一时间给予解决,避免重大的故障产生。”
可以通过手机可及时获得异常信息
从“被动”变为“主动”的重要性不言而喻。
总之,实现IT运维的自动化管理是指通过将IT运维中日常的、大量的重复性工作自动化,把过去的手工执行转为自动化操作。自动化是IT运维工作的升华,IT运维自动化不单纯是一个维护过程,更是一个管理的提升过程,是IT运维的最高层次,也是未来的发展趋