服务器确实具备些许通风和自冷却功能,但很难说它能保持恒温。环境温度每增加 1 华氏度,平均 CPU 温度就会升高 1 华氏度。换言之,数据中心温度与机架设备温度之间存在明显的相关性。
这到底何时会成为一个问题? 因设备而异,但是如果让服务器在 86-95 华氏度的温度下运行超过几分钟,大多数 CPU 都会面临崩溃的风险。
大多数数据中心都以降低环境温度为目标,通常遵循 ASHRAE 推荐的 64.4 和 80.4 华氏度范围(差异受湿度和露点等因素的影响)。此范围明显低于 CPU 极限点;然而,现代高密度设施中的数据中心温度几乎无法在各机架间保持不变。因气流不足和其他破坏性状况而造成的热点可能导致关键设备处于过热风险的个别情况中。
此外,数据中心的温度不仅仅关系到当前的情况,还关系到可能发生的情况。历史上有很多关于 CRAC 故障造成危险高温的恐怖故事。诚然,在较高温度下运行服务器更加高效,这样既省钱又环保。但是,操作温度更靠近边界,就意味着在发生 CARC 故障时,温度将更快地上升到危险水平。
这并非劝阻数据中心管理人员在温暖环境中运行设备。而是鼓励他们确保在发现机架温度超过安全阈值的迹象时,具备所需的温度可见性,从而做出快速反应。数据中心设备出现问题时不会发出警报。而只会关闭,导致您采取紧急作业。
让实时温度监控发出警报
ASHRAE 建议每个机架至少安装六个温度传感器。前面(顶部中间和底部)安装三个,后面安装三个,以监控进气口和排气口温度。高密度设施通常每个机架使用超过六个传感器,以便创建更精确的温度和气流模型,我们非常推荐这种做法,尤其是对于在 80 华氏度的环境中运行的数据中心。
为什么? 答案很简单,因为如果看不到热点,就找不到热点。一旦温度超出安全阈值,连接到您数据中心网络的实时温度监控将通过 SNMP、SMS 或电子邮件通知指定的工作人员。
再次强调,传感器越多越好。知道身边总有一个实时警报系统令人安心。如果能看到由众多机架传感器提供支持的计算机生成模型,那就最好不过了,这样您便能追踪偏差的根源。
同时也要避免服务器受冻
考虑到服务器可能产生的热量,很少有数据中心管理人员会考虑采用低于平均值的温度。尽管如此,由于不同的原因,温度降至 65 华氏度以下会产生风险。
较低的环境空气温度可吸收的水分更少。因此,在低温环境下,相对湿度较高将导致冷凝。正如我们大多数人从四年级科学中所学,水电不可相遇。水分会对服务器的 CPU 和主板产生快速且不可逆的影响。
因此,保持数据中心温度的平衡非常重要。在不考虑其他环境变量(即湿度和露点)的情况下让温度下降,会为您的设备带来过度的风险。此外,鲜有理由将制冷水平降至 65 华氏度以下。最不利于您电力使用效率 (PUE) 比率的一件事就是耗费电力将设施冷却到建议温度以下。
为了避免服务器“受冻”的情况,请确保使用湿度和露点传感器网络来补充温度监控器。有温度传感器的配合,如果相对湿度或温度达到造成冷凝风险的水平,设施管理人员将收到实时通知。相反,如果湿度水平过低,则空气可能变得过于干燥,从而产生静电电荷,进而损坏敏感的电子组件。
您的关键数据中心设备确实得到了高度维护。这一点可能不会改变。但是,通过全面的数据中心监控,您可以及时了解服务器需要的支持。