中国IDC圈讯,开放数据中心峰会(ODCC2020)在北京召开,峰会围绕数据中心新基建为主题,有数据中心领域及相关行业的众多专家与会。在9月16日智能监控与管理分论坛上,北京创意银河电子科技有限公司总经理张春阳发表了以《数据中心电力监控系统快速部署与集成》为主题的精彩演讲。
很高兴在这里与大家分享!监控系统作为数据中心基础设施的一个管理工具,也是非常重要的一个环节。
一、智能监控系统面临现状
作为目前我们了解到的监控系统的使用,有以下三个痛点:第一,项目交付周期长,第二,功能扩展难,第三,数据分析慢。
目前国内数据中心超过90%以上的项目在验收、交付、上线时,监控系统没办法跑起来,需要2、3个月甚至更长时间进行进一步调整和优化,在初期两三个月,甚至有些项目半年以上的时间处于裸奔状态。
交付周期长的原因,一是现场工作量比较大,目前主流数据中心是单体数据中心4万kVA规模,监控点是几万个,现场的穿管、布线、施工、绑点、调试周期按照目前做法需要持续几个月时间;二是功能扩展困难,因为它系统架构、拓扑架构需要增加功能,比如增加串口服务器、网关或者进行布线,在投入使用的机房里涉及到业务变更,往往比较困难。三是投入使用的机房,我们还有一块业务是做老机房风险排查和PUE监测,了解到很多数据中心在投入使用一年两年之后,不用说查询它海量数据了,只单纯查询它历史PUE或者历史设备用电情况都不是秒级或分钟级,可能需要几十分钟甚至更长时间,比如查询去年9月份这个数据中心今天的PUE,服务器响应时间是几十分钟甚至有可能卡死。
二、解决方案
第一个想跟大家分享的是针对交付周期的长的解决方案。
我们在项目交付过程中跟业主方、总包方、监控厂商了解比较多,百度、腾讯、阿里等都有自己的管控平台,在分工上由底层设备监控由电力监控厂家提供北向接口。我们从分工上给出的建议是,数据中心的智能管理系统或平台,未来越来越多大用户会采用自己的管控平台。底层电力监控、环境监控、空调监控、电池监控由设备厂商监控或者监控集成商提供,这样功能划分相对比较清晰,是谁的问题由谁解决,基本可以做到测试验证时监控系统已经可以跑起来了,从前开始有项目做到这样,去年到今年有大概10-20%的项目已经可以做到这个程度,就是交付的时候监控系统跑起来了,测试验证时很多数据可以通过它的管控平台、监控系统拿到数据。
它对运维管理提供很多重要的数据,比如房间机柜在半载、满载时温度场分布情况,比如充放电时电池每节的内阻、温升、电压情况,跑起来时的海量数据不需要通过以后一年、两年、三年来抓,它可以在一年内拿到未来三五年都拿不到的数据。实际运营中跟初始数据做比对,可以提前甄别发现很多潜在隐患。
监控范围不一一展开了,电力监控、环境监控内容有百度的同学提到关于监控点表范围和测试指标的讨论,这是非常好的话题。
第二,采用串口服务器,基础设施类设备目前大部分走485,串口服务器的特点是速率相对比较慢,9600波特率可能是比较常见的一种,当一个数据中心有几万个点甚至几十万个点进行采集时,一是它轮循时间比较长,二是进行扩展比较麻烦。
图上展示的是目前项目上的应用,有线、无线并不是绝对的,并不是有线快、无线慢,它展现的是分布式处理结构,上层监控系统有交换机,有光口的和电口的。跟基础设备之间,除了传统的网关和串口服务器之外,还有智能处理单元,我们称之为HMI或者嵌入式的电脑,它作为分布式处理单元可以做大量数据清洗,同时还可以做一些以房间为单位的功能底层沉淀,效果目前可以做到数据快速处理、快速部署、存储优化。
这个月山西有个大型数据中心项目,单体一层楼6000个机柜,每个房间1500个机柜,可能是目前国内单体最大的数据中心,目前它的监控系统没有跑起来,测试时运用无线网关+快速部署传感器。对于1500个机柜的机房,2-3个小时3个人完成部署,当天压力测试、极限温升等所有数据全部上后台了。这种快速交付的,包括温湿度、电量仪表、智能网关,目前当然不只我们家,国内这些产品都是比较成熟的,京东、淘宝都可以找到相应的产品。
这是项目应用的特点,全部是采用无线技术的,大概两类:一类是电参量采集,要求比较高,比如做故障预判、能耗分析,它采用WiFi通信方式,WiFi目前速率可以非常高,秒级可以采到一个数据中心里的所有电参量。但像温湿度、管道温度、压力、流量,它并不需要那么高的采集频率,这里面可以用Zigbee、蓝牙无线网关的方式,快慢结合方式实现对一个数据中心快速部署。
另外,我们在一个项目上对1000个机柜项目PUE监测,全部仪表现场部署,用无线方式,一天完成几十套仪表的部署,完成计算PUE需要采集的全部电参量采集工作。
第三,海量数据的产生,数据查询周期长。
天津一个数据中心单体机房楼每个月不包括视频,监控采集量是200个G,如果数据采集上来不做清洗和处理,存在数据库里不停的累积,这是为什么调历史数据时非常慢,有可能10分钟都返不回你想要的数据,一是你没有对原始数据做清洗,二是没有对你需要的数据做数据库架构设计,进行查询分析时速度慢。
针对存量机房项目,我们通过底层数据库优化,做到千倍数据清洗,分层数据库结构存储量只占用原来大概千分之一,通过数据复原基本可以复现到你想要的结果。
查询时间上,通过历史数据基本10-15秒可以查到所有你想要的数据,比如你指定任何一个房间任何一个设备在任何一个时间段里面的数据,或者想要进一步计算历史PUE数据,基本都可以在10-15秒内完成。
从监控系统来讲,除了讲传统功能外,还有以下几点跟大家分享:
1、桌面演练系统。今天电信、腾讯的专家都已经提到他们管控平台里有个拓扑结构,拓扑结构展现给用户最直观的效果是可以让一线运维人员很清晰的了解到现有设备的运行状况。桌面演练系统就是基于数据中心基础设施拓扑结构的一个平台,可以进行沙盘推演和模拟演练,绿色线表示不带电,红色线表示不带电,流动线表示它带负荷,清晰看到设备带电、不带电还是运行状态。设备可以通过工作状态、停止状态、故障状态进行划分,设备在桌面演练系统里是可操作的,可操作的状态下可以对运维人员进行培训,一个设备故障引起其他设备负荷变化的情况,桌面演练系统可以做到。
2、监测数据的采集,无论是电系统,还是空调系统,比如冷冻室系统,冷机、冷塔、冷却泵、冷冻泵,所有这些用电设备,包括末端空调,用电情况、功耗情况、跟IT负荷关联情况做分析。
3、容量监测。这里面的容量同样包括电力容量、制冷容量、空间容量的匹配性。无论做下一步设备部署,还是做挖潜优化,关键是做到空间电力制冷匹配,当出现任何一个空间短板时,其他资源也是在不可用状态。
4、故障分析、溯源。刚才电信专家讲的电力监控2.0,由一个点的故障引起的报警的风暴,这是非常典型故障分析溯源的应用场景,除此之外,在故障应用场景的使用上远不止一个电力的情况,可以分析出包括空调系统也是一样,当一个水阀发生故障或者当一个泵发生故障时,会引起制冷单元引起故障的。冷冻泵、冷却泵故障,那你的冷机一定不能运行,因为它有低水流报警保护。同理,冷却泵发生故障导致冷机冷却侧低水流报警。同时发生冷却和冷冻泵报警时可以很快速的找到报警源,快速给运维人员进行故障定位,这里远没有到AI算法这么高的定义,底层逻辑判断已经可以大大优化或提升管理平台对运维人员的帮助。
5、专家诊断系统。专家诊断形态在上述四方面基础上进行分析,举个例子,设备层面的故障,当检测到空调功耗增加时,你关联的其他相关数据,比如滤网前后压差,判断是由于压缩机故障还是由其他导致,这里会监控到温度传感器、电力功耗分析等等。
专家系统分两个层面判断:第一个层面,逻辑判断,第二个层面,AI算法,海量历史数据,不依赖于物理层,它纯粹靠数据本身进行学习,来推导出可能潜在的问题。
非常高兴和大家分享以上几点浅薄的知识。
相关推荐: 让开源治理更可信 2020年可信开源评估结果即将发布
得益于对企业生产力和工作质量的提升,开源热度在全球持续升温,我国企业也已经普遍接受开源技术。为了应对开源的安全性和合规性等风险,企业纷纷构建起内部开源治理体系,却在面对市场上大量的开源项目、开源治理方法和开源治理工具时“无从下手”。 为此,中国信息通信研究院从…