2011年12月22日,“2011中国数据中心建设与运维高层论坛”在北京隆重举行。
主持人郑宏:我们下一个演讲是来自国富瑞数据系统有限公司副总裁兼总工程师魏刚毅,有请。
魏刚毅:各位领导,各位专家,各位致力于中国数据中心建设和运维的同行们,非常感谢大家坚持到最后。首先,我来介绍一下我们国富瑞公司,名字可能有些陌生,是商务部中国国际电子商务中心下面一个子公司,主要来做高可用性数据中心服务,第三方灾备服务,还有正在努力的云计算运营服务。我们目前正在运营和建设准备有8个数据中心分布全国各地。

我们这边刚才各位专家也介绍我们建设数据中心的时候考虑很多标准,很多规划,这样才能保证数据中心建设时候能够从设备上保障高可用性。但是,如果只是这些设备真正运行还要靠人维护,只有把人的维护管理好,才能使数据中心做到真正高可用性。我们利用数据中心是干什么呢?实际上都是我们CIO关心的一些问题,我们CIO做的这些业务系统,最后买了一大堆IT设备都要放在数据中心里运行。我们买的设备越来越多,越来越复杂,放在数据中心为了高可用性也是各种各样设备。
同时我们做数据中心,是为谁用的呢?都是为了业务部门,为了他的业务运行提出很多要求。比如说,我们现在流程要改变,对用户有一个良好的服务,还有一个业务要不断的变化推出更新的产品,还有对用户快速响应,还有对用户的高品质服务,这样的话我们做IT部门的时候,就要随着业务部门的一些要求,能够很快的推出你的IT系统,保证我们数据中心的安全,不管是3个9,还是4个9,你要把保证数据中心安全,只有数据中心安全业务系统才能安全,同时监控我们服务质量,提高效率,同时还得保证降低能耗,降低你的运维成本。
同时还需要运维我们的网络,服务器,存储,这些IT基础设施来为我们业务服务。我们看到这些东西确实越来越复杂,首先我们高等级数据中心,不管制冷,安防,消防,还有IT设备,服务器,网络,存储,你设计的可能是4个9,好象一说我只能允许每年多少分钟,或者达不到要求,对我们来说可能基础设施IT系统没有统一管理,这样大家是分割的。基础设施管理,尤其电,制冷,可能采取传统物业模式没有把他提高到我们这种IT高度。在实际运行中,就达不到我们设计中的高可用性。同时,管理的时候各种流程也不是很清晰,流程也不标准。
为了这些我们数据中心可以看到管理跟之前之后有这种,从数据中心管理来说,主要是一个原来是事后,被动的。之后,我们怎么想办法怎么搞成能做成预防为主,主动的,提前发现我们的故障。我们认为数据中心管理趋势,首先一个是运维标准化,现在一个考虑9000,还有一个20000,如果现在在我们数据中心是这种容灾的一些项目,也要考虑这种连续性管理要求,然后服务优化的标准,这样更规模化了,不管外包IT服务,外包基础设施服务,这就是专业的人做专业的事,我们每一个单位更专注于自己的业务,这样的话能够专注于自己业务,把这些不专业的东西一起来弄,包括基础设施和IT都可以交付出来。
从我们数据中心管理来说,首先一个是你建设和设计这块技术要求做好。然后,人员要培训好,流程要设计好,信息要完备。首先这里头信息,刚才我前面一位联通专家也是提到他们,首先把你所有要管理的东西整理清楚,不管基础设施设备,还是IT设备作为一个统一的管理数据库,像世界管理,这样保障我们整个运维管理的高效。我们做这个时候怎么保证呢?就要有一个数据中心运维管理,综合管理平台,他可以管理数据中心基础设施,也可以管理我们IT资源的设施,这样能够做到基础设施管理,IT系统管理一体的综合运维平台,实际上我们整个监控和服务流程实现完美统一。
我们这个系统,统一的数据库,包括一些什么东西,不管是网络,还有我们安防的东西,消防的保障,空调制冷,供配电这些基础设施,包括我们IT这块,信息安全的管理,数据库的管理,存储和备份管理,网络管理,服务器管理都统一到配置管理的数据库里来。我们通过智能监控,把各种监控集中起来,不管是网络还有安全,还有安防,消防,机房监控都集中起来,为用户提供一个好的服务协议。
我们得到看到这个故障处理,首先是一个做故障检测。故障检测,首先就得去分析你为客户提供SLA的要求,根据这些配备相关人员和流程,这样主动检测有技术人员巡检,第一时间去发现我们各种各样设备安全隐患和故障。有问题的时候,还有故障预警,建立设备的故障预警机制,把重点的设备重点监控,并且事先做好建立防控措施和应急预案。同时,发现故障以后也要根据运维管理流程能够尽快的启动故障应急预案,能够进行故障分析和故障排除工作。
根据运维流程,首先是服务台,服务台这边实际上是有被动响应的,也有主动监测出来的,主动预防的,然后通过这个服务台就可以去调动后台工程师去做整个事件管理和恢复,同时把这些问题存起来进行管理。整体管理不管是从技术,流程,质量,成本上都要去进行管理,然后最主要实际上现在,刚才也提到有一个流程,你要明确我们人的职责,明确这个人他要怎么做,然后你还要做好培训,提高我们员工的素质。他要知道他来工作,知道他要干什么,他要怎么干。这几个图我就不怎么看的,这是我们一个业务平台监控,这就可以出现相应的监控报表,这样能够作为事前,事后做报告的内容。
通过我们这些对利用运维服务的理念做很多数据更新,通过国际标准这种检验,也可以去丰富你后边的流程和你的服务。通过我们日常管理,首先一个数据中心几个简单的点,就是管理冷冻水空调,能够比风冷也能省10%能效,同时还有采用板式换热器,在北京这种冬天,至少可以减少10%的空调能耗。同时设备摆放,冷热通道都能介绍运营成本。同时由于你故障减少,可能是一个隐性运营成本降低也是非常重要的。通过这个服务,我们可以明显见到服务质量得到提升,对用户的满意度也有一个很大提高,我的演讲完了,谢谢大家。




沪B2-20060176