数据中心弹性涉及评估风险和调整实践
数据中心的工作是存储、管理和提供对关键任务数据的访问,这些数据为决策提供支持、推动运营并支持战略计划。
这些数据必须受到保护,无论这种保护是否是强制性的。否则,可能会导致运营失败、重大财务损失或更糟的后果。
在保护数据方面,通常会想到信息安全性:加密、防火墙、访问控制。但数据保护也依赖于正常运行时间。没有它,停机可能会导致数据丢失或损坏,从而对运营和决策产生负面影响。
要解决导致停机的漏洞,您必须首先了解数据中心固有的风险,然后采取措施缓解这些风险。
确定您的数据中心风险状况
每个数据中心的风险状况都不同,由复杂的内部和外部因素组成,例如:
- 自然灾害的可能性 (洪水、飓风、野火、地震、龙卷风、冰暴等)
- 设备故障的可能性 (冷却设备故障、服务器中断、意外断开连接等)
- 电力中断的可能性 (电网故障、电压波动等)
- 位置和访问 (未经授权进入的可能性、设施内基础设施的放置等)
一旦您了解了真正的风险,您就可以评估发生的可能性并评估对运营的潜在影响。对于医院来说,停机将如何影响紧急情况下的患者护理和安全?对于制造商来说,延迟订单履行或客户交易的成本是多少?
以下是您在评估风险状况以提高数据中心弹性时应考虑的几个示例。
要确定设备故障的可能性,您可以考虑以下因素:
- 员工培训: 员工是否采取措施主动减少人为错误并防止日常任务中的错误?
- 系统配置: 空间是否支持适当的气流以避免过热?
- 设备使用年限: 设备是否即将报废?
- 保养: 是否正在执行定期维护以减少漏洞?
要确定未经授权进入的可能性,您可以考虑以下因素:
- 第三方提供商: 有多少供应商和服务提供商可以访问该网站?他们值得信赖吗?
- 物理位置: 数据中心是否在共享空间中?人们容易找到吗?(在医院里,流浪的病人能找到吗?在学校里,学生能发现它吗?
- 存取控制: 有哪些类型的保障措施来控制访问?访客管理系统是否在使用中?
- 员工培训: 员工是否在监视并能够识别可疑行为?他们是否遵循访问协议?
根据您发现的答案,您可以根据紧迫性和潜在影响确定改进的优先级,以提高数据中心的弹性。
了解在灾难和其他事件期间的作要求
由于某些类型的设施(包括许多数据中心 )对公共 安全至关重要,因此要求某些类型的设施(包括许多数据中心)在自然灾害和其他事件期间继续运营。这是评估数据中心弹性时需要考虑的问题。
为了识别风险水平,IBC将设施分为四组:
- 第一类 包括故障对安全风险最小的建筑物:农业设施和仓储建筑
- 第二类 包括其他类别未涵盖的建筑物:大多数商业和住宅结构
- 第三类 包括故障对安全构成重大风险的建筑物:演讲厅、剧院、发电站、监狱、水处理厂等。
- 第四类 包括在灾难中必须保持运行的基本设施:航空控制塔、化工厂、数据中心、消防/警察局、医院等。
为了符合要求,IV类设施必须符合严格的设计和施工标准,以确保弹性。这也包括他们的数据中心基础设施:机架、机柜等。
机柜或机架的抗震等级表明它在 剧烈振动期间保护有源设备并减少损坏(从而减少数据丢失)的能力。抗震等级越高,机架或机柜承受事件的能力就越好。例如,具有 Zone 4 抗震等级的机柜可以保护活动设备在大地震或其他地震活动期间免受损坏。
了解您的环境以及如何保护关键基础设施对于确保运营不中断至关重要。在某些司法管辖区,这也意味着遵守当地法规和要求。
例如,由于它们被视为IBC下的4类设施,因此即使不在地震带的医院也可能需要地震柜。一些州可能还对医疗保健设施有额外的要求,其中可能包括对抗震机柜的要求,无论设施位于何处。
同样重要的是要注意,需求在不断发展。它们可以而且确实会随着时间的推移而改变。以梯子托盘安装最佳实践的转变为例。
过去,医院的梯子托盘是用L型支架靠墙安装的。然而,在地震活动期间,梯子托盘有时会在墙壁上施加极大的力,造成损坏。当发现这一点时,梯子托盘安装在距离墙壁几英寸的地方,以保持灵活性。
然而,今天,安装标准再次要求梯子托盘直接靠墙安装,但固定在螺柱等结构支撑上,而不是石膏板。这一变化确保了更安全、更稳定的安装,同时也防止了墙壁和电缆的损坏。
及时了解这些最佳实践非常重要,不仅因为这是一项要求,还因为保护数据至关重要。
适用于一个数据中心的方法并不适用于所有数据中心
从 物理布局 到气候,每个数据中心都在自己的变量框架内运行。由于这些差异,在一个设施中运作良好的方法在另一个设施中可能无效或不推荐。
例如,在洛杉矶和旧金山的部分地区,医院对 电缆路径 安装存在独特的要求,以防止导致停机的摇晃和损坏。在这里,天花板吊架必须使用螺纹杆而不是传统的电线,以获得更高的稳定性。L 型支架必须牢固锚固,锚固深度至少为一英寸。
但是,将这种做法带到龙卷风可能出现的州可能不太合适。飞溅碎片的危险是一个关键因素:如果螺纹杆脱落,它们可能会在大风情况下成为弹丸。
根据您的环境、可能的风险以及这些风险发生的可能性做出决策是确保数据中心弹性和保护数据的好方法。
了解我们如何帮助您支持 任务关键型数据中心运营。