浅谈数据中心 IT 机房的空气调节(下篇)-制冷中断

数据中心运维管理

共 3659字,需浏览 8分钟

 · 2020-08-26

摘要:1简要介绍数据中心制冷中断的常见情况和故障原因,举例说明在实际工 作中遇到的制冷系统的故障情况和紧急处置方式。2建立数据中心 IT 机房“冷 通道封闭模型”和“热通道封闭模型”,使用 CFD 软件进行模拟仿真,对比两种 模型在制冷短暂中断 30S 时,机房的温度分布和 IT 设备的温升情况。


一、 数据中心机房的制冷中断


  1. 冷冻水循环出现故障,例如:1供水压力减小,造成末端冷冻水流量不足, 2管网失压,造成冷冻水循环中断等。
    1.1 冷冻水主管道爆管,造成管网失压;
    1.2 冷冻水管道进气严重,造成管网失压;

    1.3 二次冷冻水泵故障(多台),造成二次管网压力不足。

  2. 关键设备故障或供电中断,造成短暂制冷中断

  3. 2.1  精密空调供电中断(或 ATS 动作)IT 机房出现短暂制冷中断;

    2.2  冷冻二次泵供电中断(或 ATS 动作),管网压力不足或失压,造成 IT 机房出现短暂制冷中断;

    2.3  BA 系统的软硬件故障或供电中断(无断电自保持功能),造成阀门误动作,水泵或冷水机组停机。

  4. 在数据中心实际运行中,制冷系统出现的故障以阀门误动作(人为或自动)制冷系统相关设备故障或供电中断、管网进气等较为常见。其中以管网进气 危害最大,处置不当极易造成数据中心长时间供冷中断,出现机房高温造成IT 设备宕机和损坏。

  5. 以下是实际工作中遇到的事件,仅供大家参考:

      4.1 事件一:P201-UPS 配电室内 台 UPS 告警“环境温度高告警”(UPS 告警信息接入监控系统)

      1) 事件原因:支路供水管电动阀误动作关闭,造成P201-UPS配电室的精密空调供冷中断,现场查看精密空调出现告警“送风高温”(该告 警未接入监控系统)

      2) 现场处置概况:
      1 用纸板挡住 
UPS 配电室的回风百叶,手动调节精密空调送风速度至 100%,打开精密空调间和配电室的大门,使用 台工业风扇对 UPS 进行强迫降温。

      2 查找到故障原因后,打开电动阀恢复冷冻水供给,使用精密空调为配电室降温。

       4.2 事件二:蓄冷罐(开式)高水位告警,现场查看发现蓄冷罐大量溢水,由于发现及时处置得当,水泵未发生异响振动和流量衰减,末端供冷未受响。

        1)  水泵设备参数:

      一次冷冻水泵:流量 510m3/h,扬程 25m,55KW,定频。

      二次冷冻水泵:流量 510m3/h,扬程 28m,55KW,变频。

       2)  事件原因:蓄冷罐处于充冷状态,由于蓄冷罐回水管电动阀误动作关闭,冷冻水只进不出,造成蓄冷罐大量溢水。

       3)  现场处置概况:

       1 名值班工程师巡视蓄冷罐和检查机房内部管道是否有异响,1名值班工程师到冷冻站检查设备运行情况和留守观察,ECC 值班 工程师核对 BA 系统上的设备状态。

       2 在定压补水的基础上,手动开启市政补水阀门进行快速补水。

       3 通知其他同事到达现场支援,排查故障原因和检查排气阀。

       4 故障点找到后,打开蓄冷罐回水管电动阀,恢复蓄冷循环。

       5 事件处置完成,正常运行 小时后,支援人员撤出。

       4.3 事件三:巡检发现冷却水泵电动机异响,轴承安装位外壳温升过大,造 成对应的制冷单元退出运行,制冷单元冗余缺失。

       1)  事件原因:电动机、联轴器和水泵对心不良,造成轴承过载和发热严重,造成电动机异响和端盖温度异常。

        2)  现场处置概况:

        1 启动备用制冷单元,故障制冷单元退出运行,进行水泵电动机故 障排查和维修。

       2 拆卸电动机进行维修,发现后端盖内有磨损,轴承内的滚珠磨损 较为严重,转子轴承位出现少量磨损痕迹,更换电动机后端盖和 前后轴承。检查水泵本体和轴承无异常后,进行电动机和水泵的 调平对心、试运行和振动检查。


二、 数据中心制冷短暂中断的CFD仿真

       基础条件设定:制冷单元和供冷运行正常,精密空调主电源短暂供电中断,ATS动作切换到备用电源,精密空调的缓降时间为 5S,重新启动时间(制冷中断)30S
1. 封闭冷通道系统仿真结果

1.1 机房发生 台精密空调短暂停机

封闭冷通道系统,机房发生 台精密空调短暂停机

时 间

仿真截图

时 间

仿真截图

0

10

20

30

35

40

1.2 机房发生 10 台精密空调短暂停机

封闭冷通道系统,机房发生 10 台精密空调短暂停机

时 间

仿真截图

时 间

仿真截图

0

10

20

30

35

40

2. 封闭热通道系统仿真结果

2.1 机房发生 台精密空调短暂停机

封闭热通道系统,机房发生 台精密空调短暂停机

时 间

仿真截图

时 间

仿真截图

0

10

20

30

35

40

2.2 机房发生 10 台精密空调短暂停机

封闭热通道系统,机房发生 10 台精密空调短暂停机

时 间

仿真截图

时 间

仿真截图

0

10

20

30

35

40

3. IT设备进/出口温度曲线

类型

台精密空调停机

10 台精密空调停机

封 闭 冷 通 道

IT设备 进口 温度 曲线

IT设备 出口 温度 曲线

封 闭 热 通 道

IT设备 进口 温度 曲线

IT设备 出口 温度 曲线

三、 仿真结果分析

  1. 采用双侧精密空调送风的IT机房,在双侧精密空调ATS同时切换(10台精密 空调受影响)比单侧精密空调 ATS 同时切换(5 台精密空调受影响)机房温升 更高更快。

  2. 通过对仿真数据的分析可知,采用不同气流遏制的方式,在制冷中断时响应 时间也不同。

    1. 2.1  采用封闭冷通道的方式(ATS 切换时,台精密空调受影响),在制冷中断30S 后服务器的最小进口温度约为 35°C,最小出口温度约为 51°C。

    2. 2.2  采用封闭热通道的方式(ATS 切换时,台精密空调受影响),在制冷中断30S 后服务器的最小进口温度约为 29°C,最小出口温度约为 46°C。

    3. 2.3  封闭热通道的机房内的空间充满冷空气,可为 IT 设备的散热提供冷源, 也能被散热风扇利用;而封闭冷通道的机房,由于冷空气在高架地板下 方,难以被 IT 设备的散热风扇有效利用。所以封闭热通道的机房在制冷 中断的响应时间较长,优于封闭冷通道的机房。

  3. 通过对CFD仿真结果分析,无论气流遏制方式是什么,在发生制冷短暂中断 时机房升温很快(机柜功率越大,升温越快),应急处置的时间很短(大约 15S)。为避免以上情况发生,需从供电路由、设备功能、ATS 电源设置和运维措施 等方面进行优化。

    1. 3.1  精密空调间进行 A,B 分区,同时优化 ATS 电源路由配置。区精密空调 间:AUPS电源+B路市电;B区精密空调间:BUPS电源+A路市电, 有条件的数据中心可配置双路 UPS 电源。

    2. 3.2  精密空调断电重启功能进行优化,在采购精密空调时向厂家提出相关技 术要求:

      1 精密空调需有快速启动功能,断电重启到运行时间小于 15S;

      2 精密空调断电重启后,风速和水阀为全开状态,持续时间可设置。

    3. 3.3  ATS 电源切换时间的设置建议:主用切换到备用的自投时间为 0S;备用 切换到主用时,自复时间第一台可设置为 30S,以后每台逐次增加 30~45S。可避免 ATS 自复时同时切换,造成制冷短暂中断和机房高温。

    1. 3.4  在监控系统出现“XX 精密空调 ATS 切换动作告警”和“XX 精密空调通讯中断”时。1值班运维工程师迅速到达现场(应带上手动切换把手),检 查 ATS 配电箱和精密空调的运行情况;如发生 ATS 自投失败时,应切换 到手动模式和切换至备用电源。2监控岗和值班长要密切关注机房的温 度变化,并与到现场的值班运维工程师保持沟通,确保机房发生温度异 常时,能第一时间通知现场的值班运维工程师进行应急处置。

四、 结束语

使用 CFD 进行机房制冷中断的模拟仿真,可以弥补第三方测试在机房温升测 试中的不足,为机房运维工程师提供直观的参考数据和依据,起到优化运维工作、 验证设备参数设置和技术改造方案的作用。


相关阅读

浅谈数据中心IT机房的空气调节(上篇)-气流遏制


资料免费送(点击链接下载)

史上最全,数据中心机房标准及规范汇总(下载)

数据中心运维管理 | 资料汇总(2017.7.2版本)                                                    

加入运维管理VIP群(点击链接查看)

《数据中心运维管理》VIP技术交流群会员招募说明


扫描以下二维码加入学习群

浏览 17
点赞
评论
收藏
分享

手机扫一扫分享

举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

举报