1.IT运维中应对故障要先恢复再排查,无计可施重启试试??
2.每个偶然的故障背后都深藏着必然的联系,找到问题根源并优化掉??
3.运维的标配软技能:责任心、沟通力、执行力??
4.日常运维口令:打补丁、传文件、批处理、改配置、包管理、看监控??
5.先量化管理对象,再优化管理对象??
6.数据安全是底线,即使不服务也不能丢数据??
7.生产网络的变更切忌三思而后行,一个回车敲下去是永远无法撤回??
8.变更前检查环境、信息收集必须到位,变更后的前后对比??
9.网络监控不是监控网络,目的是监控业务??
10.口说无凭,以工单办事??
11.面对闪断,要确定好抑制策略和回切策略??
12.建立完善的流程制度是运维管理的核心价值??
13.意识问题,提高重视程度,往往都是小变更出现故障,大变更因为非常重视,一般不出故障??
14.停用或关闭无用的服务,系统服务最小化??
15.任何数据删除都要默认进回收站,不可偷懒跳过??
16.出问题的第一时间要公告给用户,否则各种询问的唾沫会淹死理你??
17.故障恢复时间能快则快,哪怕一分钟,TTL生效时间要针对业务适配??
18.网络安全要牢记,开放外网高危端口需谨慎??
19.保持应用运行的独立性,防止交叉依赖的程序存在??
20.养成日常巡检核心监控属性的习惯??
21.运维删除数据务必备份,并且要谨慎,禁止人工线上删除数据??
22.不同年限的设备性能不同,磁盘的读写能力不一致,要区别对待,老化磁盘要定期淘??
23.存储冷热数据分离,业务硬要能识别冷数据??
24.存储机架和普通设备不一样,用电也不同,做好机架和交换机级别的容灾准备??
25.进程启动权限最小化,尽可能使用非ROOT账号启动进程??
26.重要的密码一定不能同其他互联网账号密码相同,特别是同其他小网站的账号密码相同,避免被撞库??
27.运行的业务进程尽量不要输出敏感信息到日志文件中,避免JAVA代码打印数据库链接的账号信息等??
28.所有配置里的秘钥要加密存储,关注平台安全??
29.轻量级非数据服务要有机房间切换能力,加快恢复速度??
30.大规模和小规模场景不是量的变化,是质的差异??
31.实时计算链路长,延时敏感。要有各阶段的详细监控指标,方便问题定位??
32.提供用户自助排查作业和重启等基础运维能力??
33.存储瓶颈除了容量,文件数也是个大问题??
34.离在线混布是个节约的好思路??
35.Syslog,authlog等日志定期备份,便于安全事件的追溯和审计??
36.选择一款适合的网管软件,网强IT综合管理软件,一体化监控,简化事件处理流?? ?? 提高IT运维管理水平??
上一条:8个网络管理小技巧有效管理网??
下一条:如何正确的使用网管系??