最近几年,尽管精密的管理工具层出不穷,但是没有一个工具可以对基础设施系统进行全面监控。这在一定程度上是因为数据中心基础设施是由不同的系统构成,也是数据中心快速发展的结果,并且这些不同系统的所构建的网络缺乏一个清晰简单的示意图。本文尝试概述10个简单、合理的步骤,以应对数据中心实施全面监控的挑战。
一、监测
如果你无法对数据中心的一些数据进行监测,那么你也就无法控制它,这也是为什么监测是这10个步骤中首要的一步。部署传感器可以帮助你搜集电力配置、冷却能力等关乎数据中心安全的数据资料。
1、 温度传感器
高热密度是数据中心向高密度和复杂性方向发展所造成的严重问题之一。随着密度的增加,制冷负荷的增长,使数据中心问题更加多样化。同一个高密度机架上可能会出现局部热点,也可能会有局部温度低于冷却温度的情况,所以,即便是同一个机架设备温度也会有很大差异。
在整个数据中心安装部署温度传感器网络有助于确保设备工作温度在ASHRAE推荐的64.4°F-80.6°F范围内。通过对机架多个位置温度的监测,可以精确的控制冷却装置,使其更加有效的运作。
另外通过传感器网络,还可以放心地把数据中心温度提高到接近ASHRAE所规定的温度上限,例如从65°F提高到75°F。实验证明,服务器入口温度每提高10°F,其制冷耗电量就会减少30%。
对数据中心送风温度和回风温度的测量都是用于辅助测量服务器进风口温度的,以便更精确地掌控服务器的运行温度。如今,越来越多的制冷系统已经迁移至机架上,而传感器也可以直接连接到冷却装置的某个特定位置上,形成一个小型的传感器网络,服务器入口的温度可以根据对相邻机架温度和冷却温度的测量而进行相应的调整。
最好的做法是在每个机架上至少安装一个传感器,也可以在冷通道/热通道的机架上统一安装,传感器的位置必须是在该行温度最高的那台机架的顶部。这样也可以监测到是否有热空气从热通道进入到冷通道。
传感器直接连接到冷却系统的优势在于,当传感器与冷却系统协同冷却系统可以自动调整运行温度,可以消除热点,对热负荷的变化作出反映,还可以协调同一工作区间的其他制冷设备运行。传感器安装的具体位置应该遵循ASHRAE所提供的《数据处理环境热指南》,以便读取机架入口处的温度数据,测量送风温度、回风温度和风量值。
2、监测电源的使用情况
功率密度和能源成本上升的同时,能够监测能源的有效使用率对数据中心管理是至关重要的。那么电源监测是如何影响能源使用效率的呢?要通过更多的监测信息对PUE进行讨论。
为了对数据中心的能耗有一个全面的了解,应该在UPS进行监测,并在机架上安装电源分配单元(PDU)。对UPS进行监测所搜集的数据可以用于计算电源使用效率(PEU),使IT经理确定电源消耗的方向并作出应对措施。利用PDU还能预防发生过载事件,确保设备的电力分布平均。
最好的IT功耗检查方法就是机架内部的PDUA,机柜PDU的特点是能够对连续运行功率实施综合测量和控制。由于每个机架的负载和机架内的基础设备的功耗都有所不同,所以每个机架都应该安装一个PDU,在双总线环境下,机柜PDU可以监测电源的消耗,多种输入型式与多样的插位组合的PDU在过载时起到保护作用。
这就为数据中心的电力消耗管理提供了直接的监测数据,同时也提高了数据中心的效率和可用性。除了有效的电源管理,机柜PDU还能为IT服务价格提供参考和识别未被充分利用的空间。远程开启和关闭功能还能防止因新增设备而造成的过载。
3、对机柜运行环境的监测
随着密度的增长,现在单个机柜支撑的计算能力可以相当于过去的整个机房。机柜内设备运行情况的可见性,能够帮助预防其常见的威胁,包括:意外的或是恶意的篡改、水的进入、烟雾、湿度或者温度过高。
当机柜门被打开、监测到有水或烟雾,或是当温度或湿度超出设定值时,都会触发机柜内的监控单元配置的报警器发出警报。这些“机柜内的眼睛”可以连接到中央监控系统,其环境数据和机柜内PDU所采集的电源消耗数据可以被集成,如果监测出现问题也会通过激活指示灯和报警器发出本地报警。因此,这些设备应该被部署在高密度机架和机架内的关键业务设备中。
4、液体泄漏监测
数据中心内液体泄漏会造成数千万美元的设备损坏和失去大量的数据,严重影响客户交易和企业的生产力。液体泄漏监测系统利用部署在不同位置的传感器探测整个数据中心,通过及时报警防止设备损坏。
泄漏监测系统可以作为一个独立的操作系统进入到中央监控系统,这样就简化了报警管理。无论那种方式,它都是让数据中心经理了解其运营状况的传感器网络的一个重要组成部分。
转载请注明来源:中国测控网(www.ck365.cn)