随着企业的发展,运维工作量不断增加。企业的运维工作面临着系统、技术路线、运维工具选择等方面的问题,亟待解决。今天,小编整理了一些实践中我们都关心的典型问题,供大家参考。
1.在选择自动化运维工具时需要考虑哪些因素?
在选择自动化运维工具时,应从以下几个方面考虑:
一、自动化运维工具的成熟度,即行业中的受众。无论是商业还是开源,都可以从这个角度进行评估;
二、自动化运维工具的功能是否能满足运维的需要;
三、如果选择开源自动化运维工具,考虑该工具的技术栈和公司人员的技术栈是否匹配;
四、自动化运维工具是否有良好的安全保障;
五、自动化运维工具对工作过程中主机性能的影响,特别是当并发操作较大时,运维工具平台对服务器的压力;
六、我们还应该考虑选择的自动化运维工具是否满足公司后续技术堆栈的开发需求。
2.在这一阶段,自动化运维软件在多大程度上能够准确地定位故障?
一个小的故障必然会引起几十甚至数百台设备的报警,那么目前的自动化运维软件可以在多大程度上准确定位故障?或者只能做提示,故障的真正原因仍然需要运维人员手动查找吗?
故障定位算法通过机器学习中的二叉决策树实现:
一方面,希望将故障产生的所有报警信息整合成一条信息,以减少报警量。
另一方面,希望能够智能定位故障点,减少工程师检查问题的时间,并引入自动化。
以网络故障原因定位为例,通过三个步骤实现上述目标:
首先是将问题解决过程的体验细化为二叉决策树;
其次,根据时间切片算法对报警信息进行分类和分组。
最后将数据包的报警信息输出到决策树,以便进行自动推理输出推理。
智能定位故障点,尽可能降低人工参与,提高运维的效率。
3.如何避免自动化运维的风险?如何控制权限?
自动化运维的几个可能风险:
(1)自动化运维的账户权限设置管理是否是合理的,账户是否限制权限,能否通过该账户重启一些重要服务
(2)自动化运维的交互界面,对于一些高风险操作,如RM*的执行,是否进行了第二次提醒和密钥验证。
(3)需要通过自动化运维平台实施大规模变更,是否有完善的审计制度?
(4)是否对自动化运维平台本身的程序版本和运行策略进行了备份和恢复验证。
4.什么是自动化部署和发布的过程?
自动化部署,每个企业都是不同的。目前,大多数企业仍停留在应用部署、业务停止级别,即停止当前的应用程序,重新部署。对于一些走在前面的行业来说,业务场景要求业务不能被中断,而且大多数业务都是逐步发布或更新的。这样,当出现问题时,回归和影响的影响就会相对较小。
一般的自动化发布流程是开发环境发布----测试环境发布---生产预发布----生产发布代码管理大多都有统一的管理平台,如svn或git。
5、在人员不足的情况下,如何保证自动化运维的可靠性?
自动化几乎不需要手工工作,这意味着它不仅可以增加产出,而且可以使运维人员摆脱复杂的传统维持和平工作,并将其知识和技能用于更有价值的任务和任务。此外,每日可管理的工作量也因减少周转时间而增加。
运维经常包括重复但绝对必要的工作,这就是为什么它容易出错的原因.当人工因素从这一过程中消除时,昂贵的人为错误自然消失,这对于具有多个操作系统的大型网络特别有用。自动化运维可以明显提高可靠性,减少运维人员繁琐的手工工作。