阿里战道:端网协同体系化创新 保障数据中心走 发布时间:2020-12-31

C114讯 12月24日消息(颜翊)近日,在“GNTC 2020全球网络技术大会”上,阿里巴巴集团研究员,阿里云基础设施首席网络架构师战道发表了题为《数据中心网络的“高铁”时代》的演讲,分享了阿里云在云计算数据中心领域的技术创新和实践。

他表示,我们已经进入数字经济的社会,整个数字经济社会的基础设施就是数据中心。作为一个社会基础设施必须具备大规模部署能力,超高稳定性和更高性能,而且性能要有保障,可预期。因此,通讯技术也要像交通工具变革一样,从绿皮火车向高铁迭代,才能够支撑起未来数字经济社会的发展。

本世纪头十年是互联网蓬勃发展的时期,运营商网络不断进行扩容,带动设备厂商的不断地设备更新迭代,大型设备的出现本质上解决了规模带来的挑战。到了本世纪第二个十年,互联网应用相比传统的企业规模来说指数级增加,数据中心的规模也是指数级的增加,已有网络架构、网络设备、网络运营管控模式难以为继。数字经济时代对我们网络无论规模还是稳定性、性能提出更高的要求。如何解决这个问题,是未来网络发展的一个方向。

战道认为,要解决这一问题,不能依靠单点技术,无论协议创新、设备创新、控制器创新,单点技术都很难突破,一定要靠体系化的融合创新。首先,是要在网络层面进行体系化创新。从架构层面、设备自主掌控的层面、运营管控、监控系统层面一体化融合创新;第二是设备简化。设备的自主掌控,芯片功能和芯片白盒化,到全部自主研发,软件自主研发最主要就是设备监控,做更细颗粒度监控,本地分布式处理和有机结合。第三就是监控、管控系统的大量投入。

他介绍称,网络监控目前主要以监控网络设备和网络连通性为主要目标,没有办法把网络的状态,如故障、信息和单侧应用相结合,所以网络发生故障时候,往往几秒钟就反应到应用和计算,当反应到存储可能会带来十几分钟或者几十分钟的故障。这一方面是组织的壁垒,一方面也是厂商和芯片设备的壁垒,缺乏一体化设计,无法达到端到端的打通。对此,阿里云已经大规模部署了端网协同监控和流控技术,其端网协同理念是变成可视化的技术,把网络当中一些信息准确实时带到端上,再和业务流进行打通,这样可以做到业务毫秒级故障恢复。

在端网协同的流控方面,其主要目的是打造低延时、高性能网络,低延时得到前所未有的关注。因为低延时、高性能是强算力、规模化的应用。进入人工智能大数据的时代,我们需要强大的算力来计算数据。由于单个芯片计算演进受到摩尔定律限制,所以必须有算力规模化,很多芯片连在一起协同计算,这就离不开高性能网络。对于高性能网络优化,要从两个层次进行优化,其一是AI计算通信模型优化,如果AI计算感知网络的拓扑、带宽和网络状态,在模型上做一些调整,会直接关系到整个AI计算的性能。除此之外还要网络本身优化,因为网络延时是复杂系统化工程,当网络不是理想状况,会出现拥塞、丢包,出现丢包延时会呈现数量级提升。如何做好更好的流控,避免网络出现这个拥塞或者减少丢包,处理好场景,在工业界和学术界是一直探讨的话题。

阿里云目前还正在探索采用端网协同多路径管理技术来提供差异化的服务。该技术是采用分布式和集中式有机结合,端上可以自动计算路径,自动检测路径质量、负载情况和拥塞情况并自动切换。我们都知道流量工程在广域网相当成熟,但在数据中心没有人用,首先是因为数据中心本身链路相对便宜,另一个原因是数据中心两台服务器之间链路不同组合可能有上万条甚至更多,所以传统的流量工程技术很难在数据中心进行应用。这导致目前的现状就是网络利用率不均匀,造成局部拥塞,不能保证差异化服务。在过去这可能不是一个问题,但是面向未来,智慧中心会越来越繁多,有些AI计算可以做出一定的路径的选择,数据中心的业务价值才能真正体现出来。

最后,战道总结道,未来数据中心要支撑起数字经济社会,需要创新实现超越网络,需要和应用相结合,需要和计算成熟相结合,只有这样才能达到真正可预测的性能,保障智慧中心网络走向另外一个时代。

相关推荐: 我国大数据产业规模今年可达2192亿美元,居全球第二

11月18日,中国社会科学院中国产业与企业竞争力研究中心与社会科学文献出版社联合发布《产业蓝皮书:中国产业竞争力报告(2020)No.9》。蓝皮书预计,今年,我国大数据产业规模将达2192亿美元,居全球第二位。 中国互联网络信息中心(CNNIC)数据显示,截至…