一、用户背景
改革开放以来,科技部主要肩负着推进国家科学技术发展,培养科技人才,制定科技法规,强化高新技术产业及应用技术的开发和推广,做好国家科学技术布局等重要的使命工作。负责重大基础性研究计划、高技术研究发展计划、科技攻关计划、科技创新工程和社会发展科技计划的制定与组织实施等。
信息化建设的热潮中,科技部的IT系统已经具有相当庞大的规模,具有多系统、多数据库和多应用平台,多业务应用等复杂的管理环境。面对网络和应用系统密切结合的状况,为了加强对科技部业务网(以下简称业务网)运行状态的监测能力,科技部信息中心于2004年采购并部署了国内某网管系统厂商的全网监测系统,对业务网内的路由器、交换机和服务器等设备进行7×24小时的运行状态监测。该系统部署示意图如右所示:
通过在业务网的网管区部署全网监测系统服务器和监测客户端服务器,在被监测设备上打开SNMP服务,在相关防火墙上配臵策略打开 SNMP端口(UDP协议 161、P162端口),实现对路由器、交换机和服务器等设备运行状态以及业务网网络链路状态的监测,并通过2台液晶电视和 2台液晶显示器进行监测数据实时呈现。
通过该系统,多次及时发现网络设备、服务器的故障以及网络链路的中断,有效提高了业务网基础网络设施和应用系统的服务能力。但是随着科技部业务网网络规模的不断扩大和应用系统的日益复杂,现有的全网监测系统在故障报警、应用系统监测能力以及管理维度方面的不足日益显现,已无法满足科技部对业务网监测的需求。
二、运维现状
近年来,科技部业务网网络规模日益扩大,服务器和网络设备的数量和种类日益增多;应用服务系统的数量不断增加,逻辑结构日趋复杂,涉及多种中间件和数据库系统。根据粗略统计,2010年科技部业务网内的网络设备达到50余台,安全设备50余台,重要的网络链路30余条,服务器 200余台,网站、邮件等多种应用服务50余个,较 2004年有了较大的增加。
由于业务网网络规模不断扩大,应用服务系统的数量日益增多、结构日趋复杂,特别是中心领导对网络监测的告警发现的及时性、监测内容的细粒度和管理的维度均提出了更高要求,现有的全网监测系统已无法满足科技部对业务网监测的需求。主要表现为:
1、原全网监测系统告警方式有限并且不够智能,运维人员无法及时获取告警信息
目前科技部的全网监测系统只有基本的客户端消息框告警,无法通过声音、手机短信、电话等智能告警,告警的及时性较低。而信息中心运维人员不可能每时每刻都坚守在某一台电脑或监测台前办公。当信息安全值班人员不在监测台,特别是临时外出其它办公室或机房办事以及夜间休息时,往往无法及时获取告警信息。如果此时碰到一些特别严重的异常,或是故障不能及时恢复,后果将十分严重。
2、缺少智能分析过滤与自动化处理,导致故障告警泛滥,无法准确定位故障根源
目前的全网监测系统对于故障只是简单的预警或告警,无法智能告警、无法智能分析和过滤,也没有自动化处理。当某个关键网络设备出现故障或骨干网络链路中断时,会出现大量相关的设备和应用系统告警,导致告警泛滥,问题发生的真正根源就此被淹没,运维人员疲于奔波并且仍无法快速准确定位真正的故障原因。
3、运维人员无明确的责权分配及规范的层次管理,导致运维效率低下或责权不清
科技部现有的全网监测系统的应用不仅限于信息中心网络处的应用,信息中心运维处和协调处同样有对各自运维的系统进行网络监测的需求,但系统却无法实现多个部门分权限、分范围的监测。而伴随着科技部网络环境复杂、规模庞大、设备分散、维护困难等而来的又是出现问题后无法明确故障具体产生在谁的管理域里。甚至有时彼此会由于任务定义不清而产生的矛盾。运维人员没有明确的责权分配及规范的层次管理,导致IT运维效率低下、运维流程混乱、责权划分不清等不良现象。
4、如何将整个复杂业务系统模型化,以实现从整体到局部、从宏观到微观的全面运维
近年来,“政府上网工程”、“电子政务工程”在我国各级政府中纷纷上马,信息处理的网络化已成为必然趋势。据了解,在这一形势下,科技部已建立了部内Intranet,初步实现了办公自动化和网络化,并且在因特网上建立了web站点,实现了网上信息发布。目前,科技部电子政务系统主要实现了公务系统、事务处理系统、资源管理系统、职能管理系统等功能。以此业务应用系统为例,对于一个单一类型的资源管理(如网络设备、服务器、数据库、中间件、安全设备等),普通的运维人员就可以掌控,但诸如需要多个网络设备、服务、应用及子业务系统协同工作的关键业务系统,结构和相互关系就变得复杂,如果全面细致监控每个参数,并把参数和业务系统整体运行情况对应,对于运维人员是一个挑战。如何将整个复杂的业务系统模型化,从而以最简明、直观的方式呈现,并帮助各种不同水平的运维人员实现从整体到局部,从宏观到微观的全面监控?
5、业务系统与多个下属资源相关联,如何反应各个下属资源的故障对业务系统的整体影响
人需要从容不迫地担负着日常生活和繁琐的工作,而且不感到过分紧张与疲劳。当有各种征兆和症状反应出来,即能说明人处于“亚健康”的状态。同样是“工作”的状态,这是对于人体的健康检查方法。而网络也是一样,如对于一个由多台网络设备、多条链路、多个服务软硬件系统所关联起来的业务系统,它们也会对业务的整体效果产生一定比例的影响。科技部的网络承载了包括电子政务系统、人力资源管理网络系统、网络办公系统(OA)及客户服务在内的多个业务系统,网络架构非常的健壮,网络链路的冗余性也很高。当某个设备出现故障时,并不会停止业务的正常运转,但实际业务系统已存在隐患。网络日常维护,变更的不断加剧,对于业务系统的影响,运维管理人员也没有清晰的概念,管理上面存在着很大的缺陷。并且对于业务系统运行的质量,运维管理人员也无从得知。
三、解决方案
基于上述现状与需求,同时结合网强公司的全网监测系统产品自身功能特点,进行方案设计。网强公司的全网监测系统拟部署示意图如下所示:
网强公司的全网监测系统在业务网的实施方案总体设计主要包括以下各方面:
· 在业务网的网管区部署全网监测系统监测服务器,并在防火墙网管区防火墙配臵相应的包过滤规则,实现全网监测服务器对业务网进行监测的需求,同时保护全网监测服务器免受来自外部的攻击。
· 在业务网的网管区部署全网监测系统监测客户端,用于实时展现监测数据和告警信息,并通过VGA数据线将监测画面传输到位于监测台的液晶电视和显示器上。
· 配臵被监测网络设备、服务器、应用系统、中间件和数据库,打开SNMP服务或相应的监测账号和查询权限。
1、多种智能告警方式,有效提高故障处理的响应时间
ITmaster对资源进行实时监测,当资源产生异常时,系统将通过消息框、E-mail、声音、手机短信、电话等各种告警方式及时通知用户。例如,远程消息框和远程声音的告警能跟踪到具体的IP地址和用户名,从而分别满足网络管理员对于固定网管机以及对于网管机或办公地点变动的需求。运维人员只需在此IP地址或用此用户名登陆即可查看到异常提示信息。通过远程消息配臵,运维人员只要在电脑旁,即可直接查看到电脑屏幕右下角所弹出的异常提示信息。其中,当故障产生时,系统可以通过远程电话告警功能,拨号到指定的运维人员电话或手机上,运维人员接听到告警通知时,系统会向运维人员自动报读关于故障的详细信息。运维人员可以根据该提示,在有效时间范围内,通过按几个按键反馈到系统其已收到并确认到此故障信息,系统则不会自动拨打其它号码。若运维人员未根据告警提示作相应操作,系统将会自动拨打其它第二、第三个号码。远程电话告警摒弃了传统短信告警方式的单向性,确保科技部核心设备的故障不会由于通知不到运维人员而导致故障得不到尽快处理,大大提高故障处理的响应时间。
2、专家级系统的智能化管理,全面保障业务服务水平
ITmaster将科技部的各种业务以及承载这些业务的网络设备、服务器、应用等有机的组织在一起,时刻对业务系统的运行进行全盘监控,并建立了及时响应各项业务的预警和告警机制。为了克服原全网监测系统中频繁出现的滥报异常和误报告警等缺陷,ITmaster通过告警敏感度、异常过滤、告警过滤及异常依赖等多种高端技术手段,在众多的告警信息中,屏蔽大量的无谓、重复等不重要的告警信息,帮助运维人员能够将精力集中在关键问题上,准确定位故障根源,并将影响业务系统健康度、可用率等一切因素事先排除。当系统发生异常时,可以通过消息框、E-mail、声音、手机短消息等各种告警方式第一时间通知运维人员。运维人员则可以由异常直接关联到系统的知识库,并从知识库中找到故障的解决方案,从而及时恢复故障,最大限度的保证业务系统服务水平。
3、角色与地域权限的多维度管理,实现运维责权分明
ITmaster的用户主要有网络处、运维处和协调处,系统通过角色权限管理,可以规定各部门如运维管理员、值班人员、领导及系统管理员等不同角色通过系统的各个管理模块对IT资源的操作权限。另外,系统还将不同的IT资源按照不同的运维人员的管理范围进行划分,地域管理权限管理功能则可以让不同角色的人登陆到系统后只能看到与其管理范围有关的关联信息。例如系统根据运维主体的责任和运维对象的范围不同进行相应的权限划分:
· 网络处负责全网监测系统的运维工作,能够对系统监测的全部设备、系统的各项指标进行监测;能够对系统进行配臵,增加、删除和修改监测设备的各项指标;
· 运维处应用全网监测系统对其运维的门户网站、邮件系统、部机关和事业单位托管在部机房内的应用系统以及影响应用系统正常运行的相关网络设备、链路进行监测;
· 协调处运用全网监测系统对其运维的国家科技计划项目申报中心等部署在部备份机房的应用系统以及影响应用系统正常运行的相关网络设备、链路进行监测。
通过以上角色与地域权限多维度的管理,实现网络处、运维处及协调处对各种角色的运维人员做到责权分明。
4、业务模型的三维视角监控,从宏观到微观的全面运维
ITmaster可以针对以用户体验与满意度、数据安全、服务水平等为出发点,将若干个资源构建在一起的业务系统进行全面监控。系统可以根据企业用户真实的IT环境将业务系统以及承载这些业务的 IT基础设施合理构建成一个真实的业务模型,并通过对业务系统的下属资源(网络设备、服务器、中间件与数据库应用、系统API(RMI/SOCKET/XML/COBRA、Log日志、数据库、北向/南向接口)、用户模拟(服务响应时间、服务成功率、SLA水平)进行三维视角的立体化监控与分析。并将系统所展现的各种信息和数据组合构建成各个符合个人所关注的业务管理信息,如整体业务健康度、可用率、服务水平以及下属各个资源健康度、当日可用率等。任何一个业务系统中的细小变化和端倪,都能通过系统及时组合成各种直观的性能数据,真正帮助您实现从整体到局部,从宏观到微观的全面运维!
5、业务“健康度”实时反映某设备对业务的整体影响度
ITmaster将科技部整个资源的体系结构分为业务、资源和单体资源,而且整个资源体系是可以相互累积与嵌套的。单体资源即系统可以管理到IT环境中的一个最小单元,一个资源可以由多个子资源及单体资源所构成,而一个业务则可以由多个子业务、几十个资源,甚至几十个资源内的几百个指标所构成。
ITmaster定义一个业务资源的健康度由其各个下属资源的各个指标来构成,则不同的指标对资源健康的影响程度也可以不同。ITmaster通过非编程的方法来设臵各项指标对资源的影响程度,并通过各项指标数据不断的实时叠加复合计算出某个资源的健康度。ITmaster引入“健康度”概念,帮助科技部能够很好的反应各个设备的故障对某个业务的整体影响,以及整个系统服务的有效性。