本周二,亚马逊云计算服务出现了较高的错误率,影响了数千个在线服务,包括项目管理工具和费用报告工具等。亚马逊一直试图解决该问题。美国太平洋时间14:08,亚马逊在网站上宣布,S3恢复正常??
百度移动搜索2??28日晚间出现故障的消息刷爆了社交网络,但这一事件的影响远远不及亚马逊AWS(AmazonWebServices)服务突然曝出故障??
回顾亚马逊s3服务出现的“高错误率”和百度的故障,对于大部分业务来说,云平台的故障造成的损失并不致命,也没必要强求在云平台故障的时候依然能保证服务正常。用户需要做的只是防止云平台故障造成的损失扩大化,让损失可控,这就需要网强专业的网管软件来帮助管理网络??
比如??
1.虚拟化平台管理数据同步方案,主要包含管理数据保存到存储设备进行同步、管理数据通过中间平台进行同步,做好数据备份。虚拟机集群管理 集中管理,节省资源、更灵活 、更安全??
2.组织运维人员配合云平台恢复服务,核心运维??24小时 on-call,平时要搞演练,不要真的半夜出事的时候打电话找不到人。故障告警:故障管理,根源分析:异常与故障管理,支持客户端告警、短信告警、电话告警、微信告警、消息框、远程声音等多种告警方式
3如果自身服务非常重要,可以考虑租用多个云服务互为主备,甚至自建机房,只是这样成本和技术复杂度会成倍增加,并不推荐??
4.作为依赖于cloud的service,确实应该把服务部署到多个providers,而不是把鸡蛋放在一个篮子里??
云服务未来就像电力一样成为基础设施,人类至今也没做到绝对避免停电,我们只是做好了避免停电损失扩大化,不论是多大的公司,故障都是不可避免的,早在2015年亚马逊也经历了类似事件,我们做的只是要能够提前预测故障,及时告警,第一时间处理故障,将损失降到最小??
虽然不断升级的云计算、应用交付、虚拟化等新技术浪潮,让IT运维管理需求成为炙手可热的话题。但相关的问题也随之而来,由于业务对IT系统依赖性不断增强,新的信息系统不断上线,IT人员不断增加,信息系统的运营费用也随之增加,在公司总运营成本中所占比重越来越大??
作为企业管理者往往要在为了防止可能给企业带来几千万损失的风险和选择投资几百万在网络运维管理方面,这两个之间做出选择,或许换个角度想,使用第三方企业的IT运维管理软件是不是效率更高,成本更低??
亚马逊和百度出现故障造成的损失都是不可预估的,公司的不论大小,网络故障都是不可避免的,亚马逊号??99.999999999 的可靠率,所以一套专业的网管软件来管理网络是必须的,提高网络管理的效率,把损失最小化??
网强作为第三??网管软件厂商,架构成熟、功能完善、稳定可靠、高性价比,提供了端到端的性能和可用性监控,涵盖了网站、网络、数据库、服务器和其它应用基础设施,并且提供统一的报警,分析和故障排除能力?? 为运维体系的优化提供了数据支撑,保障IT运维的SLA的实现??
上一条:如何让企业网络运维“先知先觉??
下一条:选择网管系统需要注意的六要??