一、用户背景 中国电信集团公司(简称“中国电信”)成立于2000年5月17日,注册资本2204亿元人民币,资产规模超过6000亿元人民币,年收入规模超过3800亿元人民币。中国电信是中国三大主导电信运营商之一,位列2013年度《财富》杂志全球500强企业排名第182位,多次被国际权威机构评选为亚洲最受尊敬企业、亚洲最佳管理公司等。作为综合信息服务提供商,中国电信为客户提供包括移动通信、宽带互联网接入、信息化应用及固定电话等产品在内的综合信息解决方案。 中国电信在国内的31个省(自治区、直辖市)以及欧美、亚太等区域的主要国家均设有分支机构,拥有全球规模最大的宽带互联网络和技术领先的移动通信
关键: IT运维 IT管理 智慧运维 运维管理 监控设备 网络监控 网管系统
日期:2016-12-06
一、用户背景
中国电信集团公司(简称“中国电信”)成立于2000年5月17日,注册资本2204亿元人民币,资产规模超过6000亿元人民币,年收入规模超过3800亿元人民币。中国电信是中国三大主导电信运营商之一,位列2013年度《财富》杂志全球500强企业排名第182位,多次被国际权威机构评选为亚洲最受尊敬企业、亚洲最佳管理公司等。作为综合信息服务提供商,中国电信为客户提供包括移动通信、宽带互联网接入、信息化应用及固定电话等产品在内的综合信息解决方案。
中国电信在国内的31个省(自治区、直辖市)以及欧美、亚太等区域的主要国家均设有分支机构,拥有全球规模最大的宽带互联网络和技术领先的移动通信网络,具备为全球客户提供跨地域、全业务的综合信息服务能力和客户服务渠道体系。中国电信旗下拥有“天翼领航”、“天翼e家”、“天翼飞Young”等著名客户品牌、以及“号码百事通”、“翼支付”等多个知名产品品牌。中国电信拥有庞大的客户资源,截止2014年底,宽带互联网接入用户规模超过1亿户,移动用户规模1.86亿户,固定电话用户规模约1.44亿户。
二、用户现状
随着交换技术、传输技术的发展和用户网络应用需求的不断提高,极大地拓展了中国电信用户的规模,同时也促使中国电信不断扩大新的电信业务。相应的电信业务量迅猛增加,以及用户对电信服务的质量要求越来越高,使得其IT基础设施日益错综复杂,网络监管难度越来越大。在日常运维过程中,运维管理人员主要利用各设备厂商的附带网管系统管理,各管理系统独立工作,无法进行全局的统筹管理,运行状态和事件监测无法及时和精确的上报,通常是用户投诉或业务部门上报才知道出现了问题。为了提高资源利用率、服务水平并降低成本,加强网络监管力度,中国电信决定建设一套一体化的IT综合管理系统,实现对企业内部各种网络设备、应用、服务及业务系统等进行有效监控与管理,并直观地自动生成网络图,以确保关键业务应用的正常工作,提高运营效率,最终保持中国电信业务量的持续增长,提高客户满意度。所了解中国电信对综合管理系统有着严格的要求,希望能够改善运维困境,实现智能、高效的综合管理,具体分析有如下几点需求:
1、网络环境复杂化与分散化,无法做到集中监控以及实时掌握网络整体运行情况
中国电信网络系统建设由来已久,不同厂商、多种类型的设备众多,同时涉及到各市级公司的网络管理与维护,并且各分公司、县区公司之间的距离比较远,专门的维护人员也很有限,所以一旦网络产生故障,运维人员很难及时赶到现场及时处理。对于中国电信复杂化与分散化的网络环境,能否自动发现网络中各种IT设备形成网络拓扑结构图,从全局上实时掌握网络整体运行情况,变得至关重要。而中国电信的运维人员常陷入困境:如何对所有设备、服务器、应用系统等资源进行集中监控,并实时动态展示网络中的每个资源类型的分布、连接、性能与故障等状态,并将最复杂的网络状况以最简明、直观的方式呈现。
2、对IT资源的配置、分布以及性能缺乏了解,造成IT管理与投资方面的盲目性
随着网络系统在中国电信日常生产过程中的作用越来越重要,各项业务的不断深入,要求我们在数据网络上开展越来越多的应用服务,运维人员很难全面掌握网络、服务器、数据库、应用等资源的配置、分布和使用情况。例如重要的业务系统ERP/OA等不断的上线、扩容,同时又有传语音、传图像等各种需求,当业务或应用程序性能下降时,致使管理人员不知道关键原因:是网络带宽无法满足需求?是网络结构不合理,导致部分网段拥塞?服务器性能不够,瓶颈是在CPU、内存还是I/O?是否需要重新优化数据库性能?是升级网络设备还是重新配置网段?这些会造成企业在IT管理和投资方面的盲目性。因此,中国电信希望通过对性能原始数据的分析,能够得出信息系统运行状况,运行趋势等情况,管理人员可以为领导在网络系统优化、调整等方面提供相应的数据参考,通过管理系统持续推动中国电信业务水平发展。
3、由于运维人员数量与技术有限,运维人员无法及时恢复和解决繁杂的网络故障
为了进一步加快中国电信的信息化建设,中国电信在大力发展话音业务的同时,中国电信不断推出种类丰富的移动增值业务,同时,中国电信大力拓展行业应用市场,开发出包括集团短信群发的“企信通”、企业无线VPN组网、移动办公、无线数据传输以及查询等行业应用业务,而这一切都离不开各种网络设备、应用及服务等IT基础设施的保障。随之而来的则是网络出现涉及范围大、设备种类多、用户数量大等特点,但中国电信信息中心的运维人员仍然采用人工分散的管理方式,发现一个问题解决一个问题。系统管理员往往凭经验来确定故障的来源,尝试各种解决问题的途径,延误系统恢复时间,导致一些主要的业务系统大大地受到影响,可能会造成利润损失和管理成本指数上升。对于故障缺少有效的预警和告警机制,无智能分析过滤,也没有自动化处理,将导致问题发生的真正根源就此被淹没,运维人员疲于奔命并且则很难快速定位故障根源并及时恢复故障。这些传统管理方式不仅浪费大量的人力物力,而且远不能适应网络应用的需要。中国电信的运维人员急需一套智能的预警与告警系统来有效的预测、定位并处理故障,改善现在的管理方式,提高运维效率,为各种关键业务系统的高效运行提供更加全面和强力的支持。
4、传统IT管理工具相互不能兼容,造成信息孤岛,网络扩展与升级难、成本高
传统的IT管理系统或工具由于功能层次不齐、管理范围受限,相互不能兼容,这种极大限制了有效技术管理的现象被称为“管理孤岛”(单独的IT管理工具,都把关注点集中在自己管理范围的核心区域,对于跟其他业务系统相关联的部分关注成分较少),从而很难协同办公建立最大价值。中国电信如果面对再次的网络扩展和升级,原有的监控工具和维护人员都将面临着再投入与再集成的困境。如何满足与多种系统高效整合的需要,降低因二次开发及各项需求无法完全满足所花费的人力及物质成本。
5、中国电信如何在提升自身服务质量的同时,并且在业务中挖掘新的利润增长点
中国电信的IDC不仅包括国内大型的门户网站(搜狐)、电子交易平台(淘宝),而且还包括一些大型的P2P服务提供商(迅雷)。对这些中国电信提供的服务包括主机托管,主机租用,带宽租赁等。中国电信如何在提升服务质量的同时,再在原有中国电信的业务中挖掘新的利润增长点,成又为中国电信跻身运营商前列的首要突破点。
三、解决方案
1、物理拓扑图
对于中国电信规模庞大、设备分散、环境复杂的网络,网强ITmaster可以迅速搜索整个网络内的所有节点,自动生成真实的物理拓扑图。所见所得的拓扑图可以实时动态展现IT环境中各种网络设备、服务器及应用系统等IT资源的当前分布和运行情况。如每个资源类型的健康度、平均CPU 利用率或内存利用率以及ICMP 响应时间等资源状态,并用不同的颜色的“小铃铛”来表示每个设备的异常等级状况。例如当拓扑图的设备图标或链路图标变红时,网管员就能知道当前这些设备或链路的负载比较大,需要重点关注这些情况;如果设备有告警,相关的设备图标就会有相应异常等级的符号提示;如果某台设备或某台设备的某些端口发生故障,相关的设备图标就会以相关的警示符号提示。直观的网络拓扑,从全局上帮助中国电信运维人员实时掌握整体网络运行状况,将最复杂的网络状况以最简明、直观的方式呈现。即使对中国电信网管环境不是很熟悉的人员,也能迅速从网络拓扑图中看出网络的结构和运行情况,从而及时恢复故障。
2、报表管理与数据分析、体验化管理
(1)报表管理与数据分析
报表系统支持报表模板,模板可以分为内建、公共、个人、共享模板;报表支持订阅、退订;报表种类有日周月年报表和快照报表和一日内不同时段报表;运行周期有一次性报表和周期性报表。报表有类型时段报表、快照报表和单设备详细报表。报表系统支持高效灵活的类Mrtg的性能分析。可以实时统计分析每次轮询数据、30分钟统计、2小时统计、日统计等多种实时统计和数据保存。用户可以在一个屏幕上,同时展现各指标(如接口速率)的每次轮询、30分钟统计、2小时统计、日统计数据,并可以分成日曲线、周曲线、月曲线、年曲线进行图形趋势分析, 用户还可以自定义时间段来分析各个指标的历史情况,并将分析数据导出到Excel。
(2)体验化管理
ITmaster可以将中国电信的各种网络设备、服务器、应用及业务等资源的当前运行情况以平面化的图像界面进行展现。通过实时的图像界面,除了可以全面、直观的看到某资源当前系统概况如资源名称、系统名称、管理IP、资源类型、设备类型、地域、SNMP状态、关键性、描述信息、健康度及可用率等外,还可以了解到CPU利用率与内存利用率等详细指标信息。通过真实的设备背板图可以对设备的各个端口进行实时查看、打开和关闭等操作,当单击某个端口时则可以查看到该端口的基本信息、监控指标当前值,如健康度、接口输出或输入速率及接口状态等信息。同时,通过多指标分析图还可以直观了解到个人所关注的某几个指标于不同时间段的对比分析情况。系统以加强运维人员的实际体验为出发点,有效避免了运维人员因整天面对枯燥的文字和简单的数字而产生的视觉疲劳感,帮助运维人员能更加全面、直观的管理个人所关注资源的当前运行情况。
3、专家系统、运维管理一体化
(1)专家系统:
ITmaster将用户的各项业务以及承载这些业务的网络设备、服务器及应用等下属资源有机的组织在一起,时刻对业务系统的运行进行全盘监控,并建立了及时响应各项业务的预警和告警机制。为了克服第三代网管系统中频繁出现的滥报异常和误报告警等缺陷,系统通过告警敏感度、异常过滤、告警过滤及异常依赖等多种高端技术手段,能在众多的告警信息中,屏蔽大量的无谓、重复等不重要的告警信息,帮助运维人员能够将精力集中在关键问题上,准确定位故障根源,并将影响业务系统健康度、可用率等一切因素事先排除。当系统发生异常时,可以通过消息框、E-mail、声音、手机短消息、电话等各种告警方式第一时间通知运维人员。运维人员则可以由异常直接关联到系统的知识库,并从知识库中找到故障的解决方案。同时也可以将专家级的资深技术工程师的日常运维经验添加到系统的知识库,当类似事件再次发生时,其它运维人员则可以通过系统的知识库,快速获取到资深技术人员的运维建议以供参考,从而及时恢复故障,最大限度的保证业务系统服务水平。
(2)运维管理一体化
由于中国电信网络下属单位数量众多且区域分散,按照传统的管理模式需要投入巨额的日常维护费用和人力,同时有些下属单位的网络一般规模较小,缺少技术人员或根本没有专职技术人员,以上两个现实矛盾总是在困扰着中国电信网络的网络管理员。网强IT流程管理系统提供服务台、请求管理、问题管理、变更管理、任务管理、资产管理、值班管理、知识库及报表管理等功能。并支持与ITmaster进行无缝整合从而实现一体化运维。将IT流程管理系统设于省总部,总部管理人员可以通过ITmaster对各分支网络实现集中管理、配置,不用再到各个分支现场完成,在核心管理机构设立运维中心,这个中心能够为整个片区提供服务。此外,所有的工作都是通过自动化软件去实现的,包括:网络管理、安全设备管理、业务支撑管理和系统自身管理等几个主要方面。在日常维护和故障处理方面,运维人员都是基于整个运维体系所建立的流程,用软件查看工作状态,解决问题,并填写相应的工作手册。比如说在山东的工程师,可能在另一个城市的节点做服务管理,同时还配合其他片区、其他节点做调试,这种方式能够把资源、成本、效率发挥达到最佳的水平。
建立适应数据集中、分类细致、科学高效的信息系统运行维护流程,这是实现信息化可持续发展的主要内容之一。通过流程化、自动化的运维服务减少了中国电信日益复杂的IT环境与运维人员有限之间的矛盾,同时也加强了运维制度化和标准化因素。例如,在运维过程中各个部门之间难免会产生矛盾,包括对运维事件互相推诿等,一旦采用了体系化的管理模式,就可以把人与人之间的矛盾变成体系和人之间的矛盾。另外,管理流程中有强有力的约束,大家会自觉按照体系的要求开展工作,包括自觉加班等。用体系来制约人,把一切都标准化、规范化、制度化。降低了对下属单位的技术要求,为中国电信节省了大量时间和维护人力成本,在提升中国电信运维能力的同时大大降低了中国电信的整体运维成本。
4、第三方接口、自定义指标、整体监控
(1)第三方接口
系统除了能提供所有第三代网管系统功能(如拓扑管理、设备背板管理、性能分析、统计报表等功能),还能完全兼容众多的设备和系统厂商的第二网管(如Cisco、IBM、HP、华为等)、各种国内外的第三代网管系统(如HP Open view、IBM Tivoli、CA Unicenter等)以及机房管理、通讯管理系统等。系统所支持的Web Service接口、CORBA服务、RMI等服务接口能供第三方调用,全面保证系统的兼容性,大大满足了中国电信在实际的网络管理中,与其它多种业务系统能够高效整合的需要。
(2)自定义指标
ITmaster可以通过模板策略进行新增自定义SNMP、TELNET、SSH、TCP、SQL等指标,同时也可以对此新的指标设置阈值、异常类型、异常过滤等,满足运维人员对IT设备指标的灵活监控需求,省去了传统网管系统高昂的二次开发费用的同时,真正帮助中国电信应对各种网络的变更、调整与扩展等,以不变应万变维护好企业的整体网络。可以通过这个方法增加很多监测项。还满足了中国电信非编程的需求,当中国电信的IT资源再扩展时,无需进行编程等二次开发,即可将扩展的资源通过自定义通用指标添加到网管系统中进行集中监控。通过这些方法大大扩充了系统的使用能力,降低了后续因二次开发带来的高昂成本。
(4)整体监控
通过网强网管的整体监控功能,将庞大的网络信息进行筛选和整合,将当前最能反映网络运行情况的指标集中展示给网络运维人员,如系统总览帮助运维人员从总体上查看网络中各种资源的可用、不可用、健康及亚健康的数量等情况;我的秘书为运维人员提供了通讯录、在线运维人员、我的消息及留言?? 4 个组件合并展现;通过异常一览可以根据资源类型、异常等级、恢复状态、确认状态和时间范围等来查看资源异常信息;当前关注即显示运维人员所关注网络设备、服务器等 IT 资源的当前运行情况。
5、 不同设备不同指标统计分析
用户中国电信需要实时掌握各个核心路由器的运行状况,需要网管系统支持统计分析,通过实时分析和历史分析对每次轮询(日)、30 分钟平均(周)、2 小时平均(月)、日统计(年)等时段进行分析,对分析的结果以曲线图的形式进行直观展现,并且可以通过到处 Excel 格式文档对分析的数据进行详细查看分析。
(1)实时分析
每次轮询(日)分析即对指定资源的某个指标以系统的轮询周期为标准对当日性能进行实时分析;30 分钟平均(周)分析即对指定资源的某个指标, 30 分钟为统计频率对一周的性能进行实时分析2 小时平均(月)分析即对即对指定资源的某个指标,2 小时为统计频率对当月性能进行实时分析;日统计(年)分析即对即对指定资源的某个指标以日为统计频率对当年的性能进行实时分析。
(2)历史分析
用户可以根据数据类型选择、时间段设置、资源类型选择分析资源指标在过去某时间段内的指标情况;给用户对网络分析提供重要依据。
网强以优质的服务,卓越的技术,使得产品得到业界的认同
智能管理专家
免费体验 无需等待