阿里巴巴王永灿：近年来自研交换机的实践和探

中国IDC圈讯，开放数据中心峰会（ODCC2020）在北京召开，峰会围绕数据中心新基建为主题，有数据中心领域及相关行业的众多专家与会。在9月16日网络分论坛上，阿里巴巴的高级技术专家王永灿先生就阿里近年来自研交换机的实践和探索进行了分享。

阿里巴巴高级技术专家王永灿

王永灿：随着阿里云业务的快速发展，我们的数据中心网络已经发展成为一个超大规模的网络，传统的商业设备在运维的稳定性和效率都是带来了很大的挑战，网络芯片在摩尔定律下仍然保持高速狂奔，基本上每两年芯片带宽就会翻一倍，所以阿里数据中心网络已经全面走向自研。

我们的自研交换机是盒式的单芯片交换机，整个数据中心实现了整集群全自研，包括自研光模块、自研DAC。基于自研交换机，实现了多平面可扩展的新一代网络架构，实现单集群可部署超过10万台服务器

自研交换机和商业设备到底有什么区别？商业设备面对的是多客户、多场景，所以特点是功能非常全，什么场景都可以用，数据中心对功能的要求不多，但对稳定性和运维的效率有非常大的挑战，自研交换机正是这个场景的专用设备。

首先我们在功能上要求极简，因为简单所以稳定，而实际上要做到真正的简单比复杂更难。另一方面，在特定场景上，需要做到极致，来提升运维效率。举个汽车换轮的例子，家用汽车有一个备胎，更换一般需要几个小时。但是在一级方程式中，赛车需要在几秒内完成4个轮胎的更换，因此需要人和车的完美结合，整体能力的输出，自研交换机也一样，通过自研将架构、管控、运维和研发结合起来，形成一个内部闭环的、迭代的体系，来提升整体网络的能力。下面，在几个代表性的场景上，进行详细的介绍。

首先大规模网络稳定性的最重要一环是监控。而商业设备是一个黑盒，因此主要以外部流量相关的监控为主，而自研交换机是白盒，是系统内部的代码级监控。其次，我们把运维经验与设备系统结合，设备可以主动告警、自修复。另外，在大规模网络里，如果告警有噪声，那么这个监控几乎是不可用的，因此自研机在本地进行数据分析，消除噪声，精确告警。最后，在监控数据的颗粒度上，从分钟级提升到秒级，可以看到任何一秒的流量数据，使监控进入了秒级时代。因此虽然自研是新系统，新芯片，新硬件，但是比商业机更稳定，至今保持着0故障的记录。

在数据中心网络中，设备的硬件故障占比高，而硬件故障有两个痛点：第一是硬件宕机故障，处理不可控，第二是，根因定位困难，重复发生。因此我们在自研上引入了服务器的BMC，并自主研发了BMC的OS – AliBMC。通过AliBMC，对硬件部件级监控，对CPU和转发芯片定制化监控，使硬件故障可分析、可定位。另外通过标准化底层接口，与硬件解耦，从差异化的设备，变为统一的软件系统，完成了运维设备到运维软件的转变。最后我们将AliBMC向ODM进行了开源，来促进白盒的生态发展。

随着自研的规模部署，设备链路也进入了百万级。而以往的链路排查，是人工排查，靠换靠试，几乎每天都需要花大量的人力、物力。链路排查的难点在于，涉及多器件，而且信号串联，互相干扰，一个器件有问题，多个器件状态异常，而且还与软件、配置、甚至机房环境、现场的人都相关，所以时间不可控，10天半月都很正常。因此我们在自研上，通过AliNOS将设备软硬件技术、光模块技术、运维经验深度融合，研发了链路自动诊断系统 — 明眸，通过明眸，对链路实时监控、自动分析原因，建立数据大盘，实现百万级链路的智能化运维。

最后，问题修复、新功能发布，都必须依赖设备的升级，而大规模网络升级对效率和业务无损有极高的要求，因此我们在自研上从冷升级全面转向了热升级。AliNOS是一个开放的标准Linux，所有模块都以Docker的方式部署，各个容器间通过DB通信。通过DB进行数据的存储、恢复，实现了基于Docker的热升级，做到升级对业务无损、0感知。另外通过AliNOS屏蔽了硬件差异，所有硬件型号一个版本、一个补丁，1万台和1台无差别升级，简化了运维复杂度，提升了运维效率

最后总结一下，通过自研交换机，我们把设备、运维、架构和管控进行结合，形成了一个内部的闭环，所以在很多场景都要做更多的智能化运维，以及针对高性能的新技术进行创新。

相关推荐: OSCAR开源产业大会重磅来袭，六大亮点抢先看！

当今世界，开源技术不仅是软件开发的基石，而且正在对更多的行业产生深远的影响。Linux为开源建立了一座至今也难以逾越的丰碑，Android依靠开源的方式与强大的iOS生态分庭抗礼。云计算与云原生领域的OpenStack, Kubernetes及Docker，大…

流光数据