【IDCC2020】华为技术有限公司数字能源产品线总工张广河:下一代智能数据中心 发布时间:2020-12-11

2020年12月8日-10日,第十五届中国IDC产业年度大典在北京国家会议中心正式召开。作为数据中心云计算产业内知名的盛会以及IDC企业、电信运营­­商、互联网、金融、政府和厂商等产业上下游的高效沟通平台,与会嘉宾包括政府领导,行业专家和企业代表数千人。

12月10日的IDCC2020大型数据中心建设论坛由中国信通院云计算大数据研究所副总工程师郭亮主持,华为技术有限公司数字能源产品线总工张广河以《下一代智能数据中心》为主题发表了演讲。

华为技术有限公司数字能源产品线总工 张广河

感谢各位来这参会听我演讲,我今天的报告是《下一代智能数据中心》。这个议题我今年已经讲了好多遍,但每次讲的时候都在思考,到底下一代智能数据中心是什么样子的,越思考越成熟,我是从产品线出来的,和产品线的同事不停迭代,和行业专家在一起交流,今天我刚在外面听到,我们数据中心已经从最早只是机房专业,现在已经发展到非常大的产业,乘着新基建这个机会它可能再爆发,有很多资金以及转行的玩家,都进入到这个产业里面来,这个产业会越做越大。我们既然要变成非常繁荣和巨大的产业,我们需要往哪个方向走,这是我们要共同思考的一个问题。

当说下一代的时候一定要站位,站在现在看未来,或者站在未来看现在,才可能对未来方向判断有一个相对合适的把握。数据中心是为IT提供服务的,最近我跟一些房地产企业沟通比较多,我们类比了一下,数据中心是数据地产,酒店住的人,数据中心住的数据,我们看未来往哪个方向发展就要看数据往哪个方向跑,出来的数据中心才是合适的。比如你定位你的酒店是高端客户,你可能就建希尔顿,如果定位是平民客户,可能就是七天等等这些档次,不同的产品服务于不同的客户,所以我们要研究一下我们的客户是什么样的形态。

对数据中心形态影响比较大的最核心的还是用电量和密度,看它的计算密度有多大,我们把这两点卡住了,还有分布式,云、人工智能5G带来了形态的变化和两个方向的转移。我先说两个转移,大数据中心越来越集中,体量越来越大,还有边缘中心,5G带来的边缘中心还有待起量,边缘数据中心还没有那么多,但能够隐隐约约看到趋势。我们看大的数据中心的趋势有两个,一个是基本全面云化,这是非常确定的方向。但对于最确定的方向,我们的数据中心出来以后是什么样的形态,这个我们要考虑一下,华为公司云化以后的密度是8000瓦起步,到13千瓦。我们也跟行业的BAT这些企业沟通过,大概是这个密度。如果是云常规的通用计算云计算,可能这个密度是比较合适的,但如果是多用途数据中心,出租的数据中心,现在看6000瓦的相对比较多,我们一定要考虑当前现实的信服和未来的方向。中间这个我认为是影响比较大的趋势,华为有个云翼计算BG,我们具有产业洞察,认为到2025年的时候,可能数据中心里面的计算方式不是基于CPU的计算,是基于GPU的计算,前面是基于逻辑的,后面是基于数据的。基于数据的计算里面有个逻辑,现在大家看到好像又突破了3纳米、2纳米,但那都是画了一个饼,越往下做,我们认为工艺已经到了极限,这几年大家有了主观感受,换电脑的频率低了,说明摩尔定律走到头了,但是算力要求并没有停止,这个时候怎么办?只能靠往上落东西。

摩尔定律是什么?18个月能力提升一倍,功率上升一半,现在是不能有更好的工艺把它的功率给降下来,因为到7纳米再往下降很难。这是我们底层的一个逻辑,GPU每个计算单元都一样,里面内核比较简单,不停的反复重复,功率堆上去,算力也上去了。潘建伟教授领导的量子计算机如果能够出来,那可能是划时代革命的量子霸权也好,或者量子主权,计算主权,那个不在我们今天讨论的话题之内,那个完全是革命性的划时代的。今天来看,云计算基于通信计算和人工智能计算,会影响我们当前的数据中心,从这个角度来看,未来三到五年,或者五到十年,基本上可以在这条路上继续走下去。

影响大的是这种,我们认为到2025年的时候可能会到80%新增算力是人工智能计算的算力,我们进出场馆都要把脸识别一下,这种人工智能计算的量会变大,我们的服务器功率提升的速度比较快,我们华为做的全球最大的一个人工智能算力中心,在深圳,单机柜最大能到50千瓦以上,算力也是第一大的,这个可能会影响我们的形态。这个正好是一个金融客户和我沟通的时候说,“你这让我比较担心,到底我建一个什么样的数据中心未来出来以后翻天覆地的变化不会让我无所适从呢?”市场上成熟的实践,单机柜30千瓦以下我们认为用传统的行级的机密空调就可以实现,30千瓦以上是我们用液冷还是传统制冷方式,这个我们case by case来考虑。昨天有一个液冷的专场,是不是发展到那个地方去,华为公司、阿里巴巴都做液冷,我们深圳那个就是用液冷实现,因为风的散热能力比液体低两到三个数量级。今天跟各位专家讨论的是一条线,30千瓦以下可以放心,基本是保险的。前面我们把理念立清楚,产品的解决方案,下一代的解决方案,我们的实践,围绕着理念,我们如果方向看对了,做什么产品都按照这个方向做就完了,只是用华为举个例子,我们在这个方向实践。   一个是看趋势,一个是看痛点,痛点千千万万,最大的痛点是四大项,我们预设TOP痛点解决了,建设周期长,18个月,18个月还是客气的,好像宁夏那个地方弄了36个月。正好在座有些投资界的朋友,36个月,把这块地拿下来以后你就已经开始往外付钱了,如果用36个月,你的ROI时间多了36个月,所以我们周期一定要压缩。建设周期长对资方是比较大的压力,因为资本开始运作了。第二个,水费和电费比较高,尤其电费比较高,我有一个图,大概电费能占59.6%,三分之二是电费。我们从投资角度讲,我们投了一个数据中心可能花5个亿,我们算十年投资的时候,可能再添进去15个亿,20个亿,生意才能算回来。这是电费的问题,所以为什么乌兰察布能起来,张北能起来,这也有内在潜力和动力在里面,还有为什么廊坊能起来,都是因为比北京的电费低。还有费水,如果用传统的水冷方式,蒸发的耗水量比较大,我们某一个基地一年也没几千柜,五六千柜,一年耗水有30万立方,相当于一个小城市耗水了,水费大概是电费的1%-2%,很便宜,但约束没有,再便宜你买不到,这是珍贵的稀缺资源,水比电还稀缺。第三个,运维成本高,效率低,看起来是运维成本高,其实是我们根本找不到运维的人,这是最主要的,因为我们人才红利没有了,现在关键是年轻人也不愿意干这种事情,更多别的工作,说不定搞个直播刷刷抖音更赚钱,运维没人干。我们资源利用率比较低,如果得不到优化的话,很多上架率只到60%以下,上架率就是我们挣钱能力低。我们人才红利断档,00后是80后的50%,现在00后马上上职场了,我们的人力会继续更短缺。第四个,安全也是比较大的挑战,基础设施的安全反而是躺下黑。

下一代数据中心该往哪个地方走?这是很多数据中心老板在思考的。原来数据中心作为一个专业的时候,我们思考它是一个花钱的单位,花钱的单位我们都叫TCO。作为一个产业,很多资方要进入,从投资角度要闭环,这个时候你要考虑挣钱,要考虑价值,我们叫TVO,不能只考虑后面的,还有收入。

这是我们从一个产业的角度来考虑数据中心应该怎么闭环,产业角度就是内部回报率,十年或者十五年的内部回报率,整个大闭环才能闭好。一个从价值链,一个从特性链,把这个逻辑说清楚。什么是出柜率?现在有两个说法,如果只有1万平方米在固定面积下,出柜率是产生多少机柜,这可能和架构设计规划有关系。另外是我有多少电,固定的电能平下来,我能出多少机柜。资源一定的情况下,我的产出量更大,增加收入的。建设周期,36个月缩短到10个月,那就缩了26个月,ROI时间刚性缩短。上架率,有很多我们的客户,特别是新进来这个行业里面的客户,非常迷惑,到底我建多大的规模是合适的,原来我们是没有画一条线,反正你能上多少上多少吧,你有多少资源就上多少,但从业务逻辑大闭环角度讲不合适,你如果有比较有把握的,如果是200柜,可以支持做1000柜,如果你有1000柜,可以支持5000柜。但有一个前提,解决方案是分期,200柜上1000柜,比如我本来有3000柜资源,上1000柜的时候,投资也在1000柜左右,这样的话从投资角度讲,NPV是正的。什么意思呢?NPV正了以后,作为一个投资产品,领导就会打对勾的,这是可以的,它不是赔钱的。至于回报周期有多少另外再说,至少NPV正了就可投,这个比例是5倍的关系,200可以撬动1000柜。PUE,60%是电费,省下的每一分钱都让我的ROI再优化。

这些东西由产品来实现,我一直推的一个理念,锂进铅退,锂电池在电动汽车带动下,它的材料出现抖线下滑。但铅的剪刀差已经过去了,所以十年之内锂电池肯定是便宜的,但它只占三分之一面积,三分之二面积让出来给到IT了,对于一个数据中心而言,供电制冷的空间都是没有用的,只有IT机柜是有用的,它是帮你产出的。所以说,让出来,给到出柜率上去。还有小母线,为什么有小母线,小母线看起来是技术,其实是商业闭环,跟投资相关,一个模块可能20几个柜子、30几个柜子,一个模块上有两个列头柜,多两个5%,将近10%的产出能力,看起来是小母线,其实它是产出能力。现在华为、万国都在用电力模块,节省40%的占地。模块化、预制化是缩短周期的。上架率,如果没有优化的话,一个数据中心上架率可能就60%-70%,作为出租型的数据中心。65%如果优化到80%,相当于你多了20%-30%的收入能力。PUE刚才讲了,通过这种先进技术把PUE降低。我们把事情理清楚就看怎么实现。

下一代数据中心,我们认为极简、绿色、智能和安全,这四大客户承载价值解决了刚才的痛点和应对那些趋势。模块化极简,极简架构,全模块化设计,弹性升级,一期一期分开,跟投资相关的。

预制化还有一个价值,产品预制化和工程产品化,工程加工,ISO9000非常严格,出来的数据中心品质比较好,品质比较好意味着什么?除了上架周期ROI上架时间缩短那么多,投资回报时间缩短。另外一个,因为工厂预制,我们的时间90%是可以预制的,出来以后品质比较好,品质比较好意味着未来数据中心有可能再次货币化,资本再退出再货币化的时候,就会发挥非常大的威力,我们缺乏品质好的数据中心,北上广深都一样,一定要考虑再次货币化。这是高价值。你们家的二手房如果是品质比较差的,涨价也涨不了多少,一样的道理。

这是全模块化供电系统,我的UPS实践,3U100k,一柜一兆瓦,占地50%,工时60%,全极简交付,一路一列,一箱一系统。锂电池,可以分期上一半,锂电池可以新旧混并,而铅酸电池不行,占地面积省了70%。 最近比较火的一个节能实践,间接蒸发冷却,如果用传统冷冻水,需要把冷冻机组冷冻站这些东西第一期投资里面全部投蒙语,如果用蒸发冷却,上多少IT上多少机组,如果支持50%IT负载的话,那种方式要投资85%,NPV转正就非常难。这种65%投资可以支持50%的IT负载,这样的话就相当于我从资金分期上分的相当开,这样的话让我的NPV转正。NPV很快转正,我投资的产品就能很快成功。这是PUE的下降,我为什么叫风进水退呢?按照颜色,温度越高,PUE越低,下面4点几,3点几,最下面一行,传统PUE空调COP很低,空调一般是N+1,我们大多数都工作在半载及以下,直流变频方式非常高,COP6%-7%左右。如果只上5%的负载也要100%冷水机组开起来,所以我还是推崇风进水退,打造极致PUE。

这是我们通过人工智能方式,让冷冻水系统挖掘更多的PUE下降,在人工调优基础上,极限调优基础上,还可以降8%-15%,我们在廊坊、河南也有实践,降了很多的PUE。

最后是智能化,数据中心全生命周期有客户服务、资产管理、运行管理、资产管理、服务管理等等非常全面的系统可能才能管起来。一个数据中心要智能化,现在有比较牢固的底层,设备层面要所有装备可视,然后进入子系统,然后才能展示,然后到机房级、园区级,以及多地多中心,我们有一个比较好的实践,园区级有个比较好的实践是建行南湖,他们大概有五六栋数据中心。华为全球260个数据中心都在这一套系统管理下面。多DC我们主要是跟中央结算中心,北京和上海两个主中心,同一套系统管起来,这些管理是有客户需求的。

人工运维发现不了潜在的危险,用智能化可以大幅提高感知。成本降低,效率提升。资源管理,即使是一个建成的数据中心,可能由于我的IT负载网络端口、电力、U位空间等等不匹配,上架率是不高的,如果调优,从60%到80%,就增加了20%的收入能力。深圳的一个数据中心负载比较低,优化以后提高80%以上,靠人工优化不到这么极致。这也是一个实践,一个数据中心可能管理的层级很多,但上级领导看有上级领导看的视角,运维人员分层看盘,不同的人看不同的参数,我们把它叫分层分域管理。这是安全性,海恩法则,为了预防这一起严重事故,我们要把1000起事故隐患消灭掉,这是我们的目标。我们实现的方式,对这些容易失效的器件失效率进行预判,治病到治未病,没有发病之前就把病预防了。系统的可靠不是一个点预防的,所以我们认为千里之堤,溃于蚁穴,我们要全面构建一套安全系统才能保证全要素安全,可靠、可用,人身安全、网络安全以及隐私,才能构建一套完整的体系,我们的数据中心是一个完整的体系。

极简、绿色、智能、安全我认为是下一代数据中心比较大的特征。最后给华为公司带个货,我们预制模块化非常快速建设,全球五六年了,我们从国外来到国内,墙外开花墙里香,微模块整体第一,UPS我们整体第一,还有行级温控,三分天下有其一。这是案例,大家可以参考一下。

我今天给大家的汇报就这么多,下一代数据中心,希望大家共同努力,谢谢。

文章来源于互联网:【IDCC2020】华为技术有限公司数字能源产品线总工张广河:下一代智能数据中心

相关推荐: 中国铁塔两家蓄电池供应商抽检不合格

据来自中国铁塔官方消息显示,中国铁塔已完成2020年备用磷酸铁锂电池组产品第一批到货、第二批到货抽检工作。 经过检测,第一批次,广州鹏辉能源科技股份有限公司交付并经中国铁塔抽样的磷酸铁锂蓄电池组51.2V/100Ah(不含加热组件)检测不合格,不合格项目为十小…