摘要:随着我国银行业第三波大型数据中心(国外称Data Center,国内也称电子信息系统机房)建设高潮的到来,我们深感有必要对有关数据中心的设计标准进行回顾和总结。
在过去近十年中,笔者有幸参加了一些国家级商业银行大型项目的设计和建设工作,在这过程中明显体会到数据中心设计标准的不断变化和提高(尤其是机房IT设备平均功率密度)。我们结合设计过程中的一些思考,对数据中心的标准和要求做一些分析与汇总,以便在未来的设计工作中,能更好地把握数据中心标准和用户需求的发展脉络,达到整体规划、模块化设计、分段实施,以及节能环保、降低机房能耗和污染的目标。
1、数据中心的主要设计标准
目前,国内外数据中心的主要工程设计标准有《电子信息系统机房设计规范》(GB50174-2008,以下简称“GB50174”)、《电子信息系统机房施工与验收规范》(GB50462-2008)、人行《银行集中式数据中心规范》(JR/T0011-2004)、银监会《商业银行信息科技风险管理指引》(银监发【2009】19号)、《数据中心电信基础设施标准》(ANSI/TIA-942-2005,以下简称“TIA-942”),以及美国uptimeInstituteTier标准。它们是数据中心建设定位、功能指标、设计技术、施工工艺、验收标准等的最主要、最具体的技术要求体现。
其中美国通信工业协会(TIA)发布的《数据中心电信基础设施标准》(ANSI/TIA-942-2005)是国际上第一部较为全面的以数据中心为对象的技术规范标准,它为现代的机房工程建设提出了新的设计理念、系统构架与技术指标,并给出了许多技术与系统的工程建议与指导。该标准所说的数据中心可以是政府或企业自有产权的自有数据中心,也可以是运营商用于租赁服务的公用数据中心。该标准描述了各类数据中心或计算机房中,对通信基础设施起码的、最低的要求。
2、数据中心机房的分级依据
GB50174根据机房的使用性质、管理要求及其在经济和社会中的重要性分为A级(容错型)、B级(冗余型)、C级(基本型)三个级别。各级机房的具体要求将从机房选址、机房环境、建筑结构、空气调节、电气技术、供电电源质量、机房布线、安全管理等方面来进行控制和要求。在GB50174-2008附录A中列出了各等级电子信息系统机房的详细并具体的技术要求。
TIA-942中主要是根据数据中心基础设施的“可用性(availability)”、“稳定性(stability)”和“安全性(security)”分为四个等级:TierI、TierⅡ、TierⅢ、TierⅣ。这四个等级可用性的划分是源于美国标准TheUptime Institute,Inc.的《Industry standar dtier classifications define site infrastructure performance》(《采用分类等级的方式定义场地基础设施性能的工业标准》)。在该标准中,美国The Uptime Institute依据工程需求与实践,提出了场地基础设施的分类等级的体系框架,针对数据中心的关键没备期望达到“五个九”,即99.999%的系统应用可用性的需求,提出了要与之相匹配的机房场地基础设施(电源配电、暖通空调以及其他的相关系统)的可用性等级指标。
3、在TLA-942标准中各等级机房的具体技术特征和要求
根据TIA-942标准,数据中心机房可分为四级:由“等级I”没有冗余部件组成的系统(可提供99.671%的可用性)到“等级Ⅳ”有冗余部件(能够容错)和实现不问断维修的系统(可提供99.995%的可用性)。根据该标准场地的可用性分类等级框架分成四个层次等级。
3.1等级I——基本数据中心
等级I的数据中心对来自有计划和无计划的运营中断反应敏感(影响较大)。数据中心配有计算机电力分配和冷却,它可以有架高的活动地板,或有一台UPS和一台发电机。在这些系统上的关键负荷能达到N的100%。如果它确实有UPS或者发电机,它们将是单个模块的系统并且有很多单个的故障点。一个年度内场地基础设施被完全关闭停运,是基于进行预防性检修的需要,紧急状态下可能需要频繁地关闭设施。场地内基础设施组成器件故障、操作错误,以及自然产生的失败将引起数据中心运营中断。等级I由电力和冷却分配的一条单通路组成,没有多余的组成部分,提供99.671%的可用性。
3.2等级Ⅱ——基础设施部件冗余
等级Ⅱ的数据中心采用设备部件冗余要比“基本数据中心”有计划和无计划的运营中断反应稍微少些(影响较小)。场地内有架高的活动地板,一台UPS和发电机,动力的能力设计是N+1,有单一的分配线路。关键的负荷能达到N的100%。关键线路的维修和场地内其他基础设施的维护、维修将需要一次性关闭中断。等级Ⅱ由电力和冷却分配的一条单通路组成,带有多余的组成部分,提供99.749%的可用性。
3.3等级Ⅲ——基础设施同时可维修
等级Ⅲ的数据中心具有能够进行任何有计划的场地基础设施活动,而又不会使计算机硬件系统运行中断的能力。有计划的活动包括预防性和程序性的维修和替换零部件、添加或调整部件的容最、部件和系统的测试。对使用冷冻水系统的大型场地来说,这表示了两套独立的管路。且有足够的能力和分配,可提供在进行维修或者在其他管路上测试时,在一条管路上同时带负荷。无计划的活动,例如设备基础设施的零部件,在运行中或在自然的情况下发生故障,引起数据中心的运行中断。在一个系统上的关键负荷不超过N的90%。当客户的业务需要得到正当合理的额外保护时,等级Ⅲ的场地将被有计划地设计成可升级成等级Ⅳ的场地。等级Ⅲ由多条有效的电力和冷却分配道路组成,但是只一条道路活跃,有多余的组成部分,并且同时是可维修的,提供99.982%的可用性。
3.4等级Ⅳ——基础设施故障容错
等级Ⅳ的数据中心具有能够进行任何有计划的活动且不会对关键的负荷造成中断的能力。基础设施故障容错的功能为场地基础设施的能力提供了至少维持一种最坏的情况,无计划的故障或者事件将不影响关键的负荷。这需要同时活跃的分配道路,通常需要设置S+S的双电源系统配置。电力系统供应表示为每个有N+1冗余的两个单独的UPS系统。在一个系统上涉及的关键负荷不超过N的90%。等级Ⅳ需要全部计算机硬件有故障容错的双电源输入,严格的故障容错测验使数据中心具有维持无计划故障或者运行错误时,不发生计算机机房过程中断的能力。等级Ⅳ由多条有效的电力和冷却分配道路组成,有多余的组成部分,具有故障容错能力。等级Ⅳ提供99.995%的可用性。
4、TLA-942中各等级机房的主要技术要求各等级机房的主要技术指标如表1至表4所示。
根据以上对同家标准及国际标准的技术细节的叙述可知,数据中心的构建所涉及的技术非常复杂,它是集建筑、结构、电气、暖通空调、给排水、消防、网络、智能化等多个专业技术于一体的综合应用。随着IT技术的飞速发展,刀片机被大量使用,高密度机房的概念也不断被用户所接受,突破以往的机房IT设备平均功率密度,以及由此而来的机柜高发热量,对电力设计和空调制冷设计带来了越来越多的挑战。同时,数据中心再次成为名副其实的“电老虎”。节能和绿色同样成为数据中心重要的设计目标之一。为了满足高密度机房的使用要求以及节能和绿色的目标,设计院针对机电系统开始考虑以下的设计理念和方式:
采用模块化设计的机房,便于用户分阶段实施和扩展;采用高压电源及配套UPS系统进入各机房楼层,与模块化机房相对应;采用高压发电机并机系统,减少线缆数量和截面,节约铜材、降低能耗;机房制冷采用水冷系统,提高制冷效率;采用蓄冷系统,以维持制冷主机再启动所需的时间空档中的制冷需求;PUE设计值要求小于2(PUE=总设备能耗/IT设备能耗,目前国内大部分项目的PUE平均值在2.5左右),达到既安全又节能的目标;利用数字化智能视频分析系统,确保机房安全。
6、结语
在实际项目设计中,我们认为应结合工程的实际发展情况,根据GB50174以及TIA-942合理确定机房的等级(同一机房内的不同部分也可根据实际需求,按不同标准要求)和机房IT设备平均功率密度,遵循先进性和实用性、安全性和灵活性及可扩展性等相结合的建设原则,使所建的数据中心不但能够满足近期、中期的使用,也为远期的使用带来安全扩展的可能。这样我们的数据中心才可能达到技术先进、经济合理、安全适用、节能环保的综合目标。
责任编辑:Alice
5、目前工作中的一些思考
|