智能楼宇

数据中心风险评估对您下一个项目的价值

Shad Sechrist

对于数据中心来说,风险不仅仅意味着计划外停机——可能意味着收入损失、设备损坏、客户不满、甚至生命危险。

 

降低数据中心风险首先要回答一个简单的问题:什么会影响关键系统和数据?

 

在项目开始之前,数据中心风险评估和分析,可通过识别潜在的数据中心风险、其真正的“风险”有多大(如果风险发生,对业务性能将产生多大影响)、以及减轻这些风险发生可能性的方法,来揭示这个问题的答案。

 

尽管消除每一个潜在的停机原因是不可能的——人为错误、网络安全威胁、自然灾害、服务器故障等等,不胜枚举——但采取措施进行数据中心风险评估,以减少可能导致停机的普遍风险,要实际得多。

 

在新的数据中心项目中,可在数据中心设计和规划过程中做出选择,以减少这些对正常运行时间的威胁。首先要确定准确的数据中心可用性级别。了解这一点,就会明白您的项目的最低性能和可用性要求。

 

数据中心的"可用性"是指其执行预定功能的能力。这个数学表达式表示系统的可用性。

 

正常运行时间 / (正常运行时间 + 计划停机时间 + 计划外停机时间) = 可用性

 

在此方程中:

 

  • 正常运行时间和停机时间以时间单位在特定时间段内衡量
  • 计划停机时间包括预防性维护、设备设置、升级、测试和优化等事项。
  • 计划外停机时间包括因故障导致的维修、维护延期和设施相关故障或停电等。

 

ANSI/TIA-942根据数据中心应如何设计和建造,利用电信、电气、建筑和机械评级,将数据中心分为四个层级

 

  • 额定 1: 单容量组件和单一非冗余分配路径
  • 额定 2: 冗余容量组件和单一非冗余分配路径
  • 额定 3: 冗余容量组件和多个独立分配路径
  • 额定 4: 冗余容量组件和单个独立分配路径

 

正常运行时间协会使用四级方法对数据中心进行分类,该方法表明了必要弹性等级:

 

  • 第1级:基本容量等级,只需一个用于停电的不间断电源(UPS)、一个用于IT系统的区域、专用冷却和一个发动机发电机
  • 第2级:用于电源和冷却的冗余容量组件
  • 第3级:可与冗余组件同时维护
  • 第4级:经实体隔离的独立系统,可用作冗余容量组件和分配路径

 

要确定您数据中心项目的正确可用性等级,需回答三个问题。

 

1. 数据中心的运营需求有哪些?

 

应考虑到为进行预定的维护停机所需留出时间。这包括关闭系统以及解决维护问题和关注事项的时间。如果数据中心必须24/7工作,并且不能承受任何时长的预定维护停机,那么它可能是一个4级数据中心,需要为每个组件内置冗余。

 

2. 数据中心的运行可用性如何?

 

确定数据中心的运行可用性要求(数据中心必须能够在不中断的情况下提供支持的总时间)。

 

这就是短语“9个可用性”发挥作用之处。可用性通常以9表示。例如,“五个九正常运行时间”意味着99。999%的正常运行时间或每年平均不到六分钟的停机时间。

 

3. 停机时间对数据中心有什么影响?

 

第三也是最后一步是确定数据中心停机对组织的影响。其会对业务产生什么影响?会造成什么后果?

 

并不是所有停机时间都是一样的。例如,保险公司或媒体公司的15分钟停机时间,可能还不如医院或制造工厂的15分钟停机时间影响大。

 

不要忘记:数据中心类型和云

 

回答完这些问题之后,就该考虑数据中心风险评估的另外两个因素:数据中心的类型和云环境的存在。这两个考量因素在确定风险水平或容差能力方面都起着重要作用。

 

例如,为金融机构、医疗保健、IT、制造业、政府和零售业提供服务的多租户或托管数据中心的可用性至关重要。客户为一定程度的冗余以保证系统始终可用而付费。计划外停机可能会让所有客户的业务陷入瘫痪。

 

除了您正在使用的数据中心类型,在进行数据中心风险评估时,还需要考虑云。

 

公共云通过第三方供应商经互联网提供计算服务,且第三方供应商负责对其进行管理和维护。私有云是企业内部数据中心基础设施,包含服务器、存储、内存和网络容量。混合云将私有云和公共云结合。每种云都有其自己的停机要求和容差。

 

为潜在事故做好规划

 

新的数据中心风险评估的最后一步是制定业务连续性或灾难恢复计划,以确保在发生灾难时能迅速恢复信息。

 

因为每个IT环境都是独特的,所以没有一个适用于所有数据中心的通用流程,但每个计划都应包括以下三件事:

 

  1. 预防性措施试图通过识别和减少风险来避免灾难。这类措施可以包括软件备份计划、不间断电源、发电机和日常维护及检查。
  2. 检测措施,需要采取行动消除意外事件。这些措施包括消防和安全系统、防病毒软件、备份软件和员工培训。
  3. 纠正或应对措施,最大限度地减少停机时间或损失。
    1. 灾难恢复即服务(DRaaS),这是一种地理上分散的镜像解决方案,其允许恢复数据,并在主数据中心发生故障或停机时有能力恢复。它还允许您恢复到某个时间点的数据。
    2. 建造第二个数据中心并在需要使用之前让其空转,或者与主数据中心一起同时运行,以便在发生故障或灾害时接管处理和存储功能。

 

对于完成下一个项目的数据中心的风险评估,如果您需要帮助,我们的内部专家会在这里提供帮助。

 

要了解更多关于数据中心风险评估和许多其他数据中心主题的信息,请浏览我们新推出的数据中心基础知识等级1简介培训课程,可作为Belden学院的一部分按需提供。获得三个CEC,了解数据中心项目的独特之处,以及揭露从头到尾正确处理数据中心项目的技巧。

 

从这里开始师从我们的数据中心专家学习并获得认证。