数据中心弹性涉及评估风险和调整实践
数据中心’的作用是存储、管理和提供对关键任务数据的访问,这些数据可以为决策提供支持、推动运营并支持战略计划。
无论是否强制要求,这些数据都必须受到保护。否则,可能会造成运营失败、重大财务损失或更糟糕的后果。
谈到保护数据时,我们经常会想到信息安全:加密、防火墙、访问控制。但数据保护也依赖于正常运行时间。如果没有它,停机可能会导致数据丢失或损坏,从而对运营和决策产生负面影响。
要解决导致停机的漏洞,您必须首先了解数据中心固有的风险—,然后采取措施缓解这些风险。
确定您的数据中心风险状况
每个数据中心’的风险状况都不同,由复杂的内部和外部因素组成,例如:
- 自然灾害的可能性 (洪水、飓风、野火、地震、龙卷风、冰暴等)
- 设备故障的可能性 (冷却设备故障、服务器中断、意外断开连接等)
- 电力中断的可能性 (电网故障、电压波动等)
- 位置和访问 (未经授权进入的可能性、设施内基础设施的放置等)
一旦了解了真正的风险,您就可以评估发生的概率并评估对运营的潜在影响。对于医院来说,停机会如何影响紧急情况下的患者护理和安全?对于制造商来说,延迟订单履行或客户交易的成本是多少?
以下是您在评估风险状况以提高数据中心弹性时应考虑的几个示例。
要确定设备故障的可能性,您可以考虑以下因素:
- 员工培训: 员工是否采取措施主动减少人为错误并防止日常任务中的错误?
- 系统配置: 空间是否支持适当的气流以避免过热?
- 设备使用年限: 设备是否即将报废?
- 保养: 是否正在执行定期维护以减少漏洞?
要确定未经授权进入的可能性,您可以考虑以下因素:
- 第三方提供商: 有多少供应商和服务提供商可以访问该网站?他们值得信赖吗?
- 物理位置: 数据中心是否位于共享空间?人们容易找到吗?(在医院里,走失的病人能找到它吗?在学校里,学生能发现它吗?)
- 访问控制: 有哪些类型的保护措施来控制访问?是否使用访客管理系统?
- 员工培训: 员工是否会留意并能够识别可疑行为?他们是否遵守访问协议?
根据您发现的答案,您可以根据紧迫性和潜在影响确定改进的优先级,以提高数据中心的弹性。
了解在灾难和其他事件期间的作要求
由于它们’对公共安全至关重要, 国际建筑规范 (IBC) 要求某些类型的设施(包括许多数据中心)在自然灾害和其他事件期间继续运行。在评估数据中心弹性时需要考虑这一点。
为了识别风险水平,IBC将设施分为四组:
- 第一类 包括故障对安全风险最小的建筑物:农业设施和仓储建筑
- 第二类 包括其他类别未涵盖的建筑物:大多数商业和住宅结构
- 第三类 包括故障对安全构成重大风险的建筑物:演讲厅、剧院、发电站、监狱、水处理厂等。
- 第四类 包括在灾难中必须保持运行的基本设施:航空控制塔、化工厂、数据中心、消防/警察局、医院等。
为了符合要求,第四类设施必须满足严格的设计和施工标准,以确保其弹性。这也包括他们的数据中心基础设施:机架、机柜等。
机柜或机架’的抗震等级表明其在 剧烈振动期间保护有源设备并减少损坏(从而减少数据丢失)的能力。抗震等级越高,机架或机柜承受地震的能力就越强。’例如,具有 4 区抗震等级的机柜可以保护有源设备免受大地震或其他地震活动期间的损坏。
了解您的环境—以及如何保护关键基础设施—对于确保运营’不会中断至关重要。在某些司法管辖区,这也意味着遵守当地的法规和要求。
例如,由于它们’被视为 IBC 下的 4 类设施,即使不在地震带的医院也可能需要’抗震柜。一些州可能还对医疗机构有额外的要求,其中可能包括对抗震柜的要求,无论该机构位于何处。
值得注意的是,要求在不断发展。它们可以并且确实会随着时间而改变。以梯子托盘安装最佳实践的转变为例。
过去,医院的梯子托盘都是用 L 型支架靠墙安装的。然而,在地震活动期间,梯形托盘有时会对墙壁施加极大的力,从而造成损坏。当发现这一点时,梯子托盘被安装在距离墙壁几英寸的地方以提供灵活性。
然而,如今的安装标准再次要求将梯子托盘直接安装在墙上,但要固定在螺柱等结构支撑上,而不是石膏板。这一变化确保了更安全、更稳定的安装,同时还能防止墙壁和电缆损坏。
掌握这些最佳实践很重要,不仅因为它’这是一种要求,而且因为它’保护您的数据至关重要。
对于一个数据中心来说有效的方法并不’不适合所有人
从 物理布局 对于气候,每个数据中心都在自己的变量框架内运行。由于这些差异,在一个设施中有效的方法在另一个设施中可能无效或不推荐。
例如,在洛杉矶和旧金山部分地区,对 电缆通道 安装在医院以防止因摇晃和损坏而导致停机。在这里,天花板吊架必须使用螺纹杆而不是传统的金属丝,以获得更高的稳定性。L 型支架必须牢固固定,固定深度至少为一英寸。
但在龙卷风多发的州推行这一做法可能不太合适。飞溅碎片的危险是一个关键因素:如果螺纹杆脱落,在强风情况下它们可能会变成抛射物。
根据您的环境、可能的风险以及这些风险发生的可能性做出决策是确保数据中心弹性和保护数据的好方法。
了解我们如何帮助您支持 任务关键型数据中心运营。