责任缺失是数据中心故障频发的主因

昨天下午开始,傲游浏览器的很多用户发现自己一直无法登录傲游服务器,在线收藏夹等功能无法使用。本次事件是由于世纪互联塘沽运营商的核心机房在进行电力维修时,大铲车把机房电缆咔嚓一下挖断了,于是傲游、豌豆荚、新浪邮箱、爱词霸、还有一些网络游戏的在线服务同时中断。

相关专题:机房突发断电,世纪互联你怎么了?

对于此次事故,51CTO记者采访了多位业内人士,以下是对施耐德电气旗下的APC市场战略总监谢卫刚的采访实录。

51CTO:您认为中国的数据中心为何故障频发?数据中心在建设时应如何尽量做到万无一失?
谢卫刚:首先,国内数据中心在建设之初的规划缺乏整体性,数据中心建设往往是随着“一拍脑袋”而拔地而起,这可能会造成相应参与方需求的模糊和责任的缺失。其次,数据中心的建设还处于重基建,重设备,轻规划,疏管理阶段,在实际规划,运营和管理方面存在经验不足。

数据中心在规划方面需要遵循以下几个步骤:

第一步是根据业务需求确定相关IT需求。这一步的完成输出5个重要结果或者说参数:功率容量,预算范围,扩展计划,关键性指标,以及总体效率,同时需要业务部门和IT管理人员的全面参与。

第二步强调的是系统概念的展开,包括场地的选择,参考设计的选择,和建筑平面布局的设计,这一部分除了需要业务和IT的参与外,还需要设施基建管理人员的参与。

第三步则确定用户的倾向性选择以及约束条件,也就是确定场地条件的限制,项目管理及周期的限制,IT设备的限制条件同时确定数据中心的必需及可选的特征,包括什么,不包括什么,这部分除了要求相应的管理人员参与外,需要设施的运营人员和IT实际操作及运营人员的参与。

第四步产生相应系统指标说明文件,也就是我们通常所讲的招标书等文件,通常是指在系统设计时需要遵守的一系列规则,这一步骤需要设施及IT的运营人员参与的同时,也需要项目执行人员的参与。

第五步则根据指标书制定详细的工程建设计划,包括产生详细的设计以定义在数据中心内安装什么样的物理设备,主要由设备/解决方案供应商和工程公司的共同参与。

每一个步骤都会涉及到相关的参与者和责任人,尤其是在实际运营阶段,需要大楼物业,基建设施人员,以及数据中心运营人员紧密配合,才能确保安全正常的运营,避免意外事故的发生。

51CTO:近年来,世界各地的数据中心突性事故频发,您认为这是偶然还是必然,是否可避免?
谢卫刚:单一事件的发生有它偶然的因素,如果密集发生的话就是必然的结果,例如数据中心相关的施工需要综合使用方和设施方等多方面的要求,以避免类似施工事帮的发生,在数据中心选址时就应该避免自然灾害频发的地方,尽可能选择电力资源充足,自然冷却时间较长的地方,对此,客户需要综合多方面因素,既要考虑优势条件,也要考虑局限因素,实际参与方对建筑、楼宇,供电,制冷,自动化控制,以及IT、动力环境的了解必不可少,所以说,建设数据中心还是要看“风水”的。
 
51CTO:这样的事故是否会影响云计算的发展,用户是否还敢去选择数据中心提供的云服务?
谢卫刚:云计算是商业模式的变革,是整个IT产业发展的必然趋势,在云计算初期会面临很多挑战,然而,其带来的便捷性,灵活性和所提升的整体效率等等好处要远远大于我们现在所看到的一些弊端,随着各方面技术的不断成熟和经验的积累,相信这些弊端会得到有效治理。所以,建议用户不用过于担心。