山东UPS——成功落地的云计算

山东UPS山东移动BOSS系统的核心业务都是构建在EMC公司的设备和软件之上,包括EMC Symmetrix DMX存储阵列、SRDF/快照等。按照惯例,运营商一般将系统架构设计和建设主要交给厂商/系统集成商来主导,山东移动在BOSS应急体系建设中坚持自己主导,与厂商进行互动,充分利用厂商技术、产品、服务和经验,进行自主创新,取得了良好的效果。山东UPS 山东移动的“多中心业务容灾”模式,就是在应急系统架构上的一个自主创新。具体做法是,将容灾机房和生产机房混合部署。例如,A、B、C三个机房,每个机房都有完整的BOSS系统,各自承担一部分地市的业务。C机房最大,对A和B机房同时进行灾备,任何一个机房出现严重问题,其他两个机房能够接管全部的业务。山东UPS “多中心业务容灾”的关键在于,根据多年系统维护经验,提出对业务处理进行纵向拆分。业务处理纵向拆分,就是山东移动根据对业务应用的思考,自己做出的决定,目的是将故障对客户的影响减少到最低。这也是实现多中心良好运转的前提。这样,山东移动就将业务处理分布到三个数据中心,每个中心平时均有完整的BOSS系统,承担一个区的业务。当一个系统发生故障时,影响的只是该区域,而且可以切换到别的区域系统上应急处理。相比之下,横向拆分,是指让全省所有用户运行一个系统,例如全省的营业系统、全省的账务系统,当一个系统发生故障时,会影响到全省。山东UPS 这样做也有利于提高应急平台的可用性。当业务处理系统处于“正常状态”时,业务负载均衡,应急系统处理压力不大,业务服务响应速度很快。而当某个数据中心的业务系统处于“应急状态”时,只需要数据中心的相关业务资源进行应急切换即可,可以很快做出应急响应。 在具体拆分业务处理时,山东移动充分利用厂商资源,参照EMC的业务负载分析工具,对业务处理进行合理的拆分。山东UPS 从技术上,“多中心业务容灾”运用了虚拟化技术,将生产资源和容灾资源放在统一的资源池里,在节假日或业务突发时,将容灾资源动态分配给生产应用。这种做法,跟时下的热门话题云计算不谋而合,山东公司的做法也是云计算成功落地的典范案例。山东UPS 通过“资源动态管理”对应急管理手段进行创新,根据业务发展量和实际需要分配资源,为业务高峰、业务应急、重大赛事期间提供了临时集中资源保障方案,可瞬间提升系统处理能力,从而支持了应急系统的功效。如遇业务高峰期,或应用软件效率不高、HA接管等突发事件时,可以通过动态调整资源,保证系统运行稳定。例如,2008年12月1日,一台服务器CPU故障,造成系统宕机,营业一区数据库B结点切换至A结点,但由于月初业务量大,营业一区A结点机器压力非常大,通过将该结点所在的其他分区容灾资源动态调整给该机器使用,确保了前台系统的稳定运行。在月底夜间进行账务处理或生产报表时,也可以将其他分区的资源调剂给账务系统使用。任务完成后,再返回给原系统。山东UPS 通过发挥资源池的规模化效应,大大节省了资源。正常运转时,10%的资源给容灾。如果采用主备方式,需要将50%左右的资源给容灾。横向比较,全国的标准是,每增加一个用户,业务支撑系统的建设投资平均增加20元左右,而山东移动只需要10元左右。山东UPS 为关键业务开设“绿色应急通道”,是山东移动的另一项自主创新。BOSS系统的首要任务是服务好客户,提高客户满意度,提高缴费、开机的时效,做到业务影响最小化。山东移动对6个场景的8类业务开辟了绿色应急通道,例如缴费、开机延迟达到30秒时,从业务层面自动打开绿色通道,先为用户开机,系统恢复时再进行标准的流程处理。山东UPS “功夫在诗外” 山东公司领导对业务支撑系统的高度重视,是BOSS应急系统得以加强的动力和保障。公司领导要求BOSS系统使用最好的设备,所有的关键环节都要求有备份设备。通过加大系统的投入来保证系统运行的可靠性和稳定性,这也是实现公司“以客户为中心”服务理念有力保障。山东UPS 最后要强调的一点是,应急体系的建设不应该是狭义的。“功夫在诗外”,要强身健体,才能少生病,这也与中医的“上医治未病”理论一脉相承。建立完善的系统,不出问题,少出问题,让应急系统很少启用,才是应急体系的根本。例如,山东移动的话单查询系统和计费系统是分开的。我们这样有利于减轻系统的负荷,让计费系统轻装前进,保证缴费、开机的时效,这也属于应急体系的考虑范畴。山东移动还在BOSS系统上部署了EMC企业级闪盘,提高客户资料的读取速度,从而提高了整体系统的处理能力,这也属于应急体系的考虑范畴。山东UPS 此外,应急体系的演练也非常重要。山东移动每个季度都要进行一次演练。山东移动制定了6类应急场景,针对可实施场景进行了演练。每次演练都有大的收获。演练分为多个级别,小的方面,比如,关掉一个交换机,检查是否两个网卡在同一交换机,关掉一个UPS,关掉一个HA节点等;大的方面,比如把整个机房某个业务停掉,通过演练不断优化。在演练中发现,通过容灾导航软件进行系统导航,可以提高应急响应速度及处理准确性。山东UPS 山东移动应急体系正式建设以来,BOSS系统退服时间指标逐月下降,客户投诉率指标下降明显,BOSS系统客服满意度指标上升明显,话费信息获取速度、缴费成功率、开机速度都大大提高,营业厅很少遇到故障,应急系统的贡献明显。根据业务部门内部评价、集团考核和外部客户满意度调查的结果,山东移动BOSS系统的满意度处于全国前几名的位置。系统每天的计划外退服时长缩短了几十倍,应急系统建设之前,每年的退服时长在几百分钟,现在,每年的退服时间达到100分钟以内,用户端几乎感受不到系统停顿。每万用户的支撑类投诉比从0.4下降到0.05左右。缴费开机的速度也大大加快,由原来的几分钟达到目前的平均几秒数量级。山东UPS