浙江移动联合华为共建下一代智能故障管理平台 发布时间:2021-1-13

面对四代共生的大规模动态复杂网络,以及5G时代多用户、多业务、多目标、多场景带来的网络运维管理挑战与压力,如何保障网络的稳定可靠并抑制运维成本线性增长?如何提高运维效率,释放运维人员面临的复杂技术挑战?如何保障客户差异化的数字业务体验?传统以人为主的运维管理模式已难以应对,借助日趋成熟的AI、大数据等数字化技术,向人机协同的数字化运维转型势在必行。

为了让网络懂业务、懂应用、懂体验,释放运维新价值,浙江移动携手华为打造了业界第一个智能故障管理平台(如图1所示),创造性地构建了统一数据、AI、敏捷运研一体化框架,同时提供了全面实时感知、预测预防、智能诊断等智能化能力,并支持开放API和运维知识资产,降低运维应用开发门槛,加速运维人员面向数字化人才转型,助力运营商实现网络自动化、智能化的持续高效运营。

图1 智能故障管理平台架构

针对不同类型的业务,运营商对于业务管理的诉求也日益多样化,这使得业务运维管理变得更加复杂和困难。智能故障管理平台聚焦故障监控、故障分析、新网络与AI运维、业务智能编排和能力开放五大领域,有效提升运维管理效率,降低运维成本。

故障监控

智能故障管理平台提供了统一的网络监控能力,支持在统一Portal上集中监控全网的设备告警和性能告警情况,通过对海量告警进行过滤、压缩、关联,可有效过滤掉噪音告警,让故障处理人员能快速找到关键告警以及影响业务的根因告警,提升故障监控效率;提供告警视图配置管理,能够灵活地自定义多屏同时监控,提升监控便捷性;提供故障资产可视和全生命周期管理,实现故障从发生到闭环关键环节和处理时延全程可视,有效提升故障监控的质量。

此外,网络拓扑监控提供了网络拓扑统一管理能力,支持运营商根据业务及其资源特点,将各类业务模型和网络拓扑进行整合关联,形成统一的网络拓扑模型并应用到故障中心,快速适配新业务网络拓扑监控需求。支持运维人员直接在网络拓扑上查看资源的详细信息和设备的告警信息、调整拓扑布局等。提供的关键能力包括网络拓扑定制能力、网络拓扑统一管理和维护能力、可视化网络拓扑视图展示能力、北向RESTful接口能力。

故障分析

运维事件特性(CEAE)通过对告警等数据源的事件特征提取,识别并生成事件,实现对海量告警中故障特征的识别和定界,提供以特征值为核心的统一运维事件监控框架,由传统运维向标准化事件驱动的管理模式转变,提高故障识别自动化率和准确率,缩短分析时长,提升故障处理效率,使得故障主动发现率提升50%,故障发现时长压缩30%。支持用户自定义标准事件场景和自定义事件识别规则及事件特征,系统根据所配的规则自动生成相应的运维故障事件。

网络问题自动化分析,提供了故障RCA(Root Cause Analysis)能力,能够根据规则自动识别故障根因,并基于定义的处理策略自动对网络事件进行恢复处理(例如:设备诊断、设备重启等操作),尝试自动解决网络问题,帮助运营商缩短网络问题解决时长,降低运维过程中的人力投入,实现网络的自恢复。确保运维人员在监控界面通过查看分析结果便可快速定位故障根因,优先处理根因告警,从而缩短了故障处理周期,提升故障处理效率,压缩告警预处理时长60%。

新网络与AI运维能力

面对NFV、5G网络的挑战,如组网复杂、监控复杂、定界定位困难等问题,跨厂商故障智能分析提供了统一监控(包括跨厂商统一故障监控),以及分资源池、业务、租户概览等功能。跨层拓扑可视,包括分资源池NFV、分网元VNF拓扑,告警、资源快速查询。快速故障定界,包括显著缩减故障定界定位时间,减少工单量和处理人力。

利用大数据及AI提升网络风险的预测及防范能力,通过实时监测5G数据业务相关的告警、配置、CHR、操作日志及系统日志等数据,提前识别业务风险及故障,辅助原因诊断,缩短故障恢复时长。智能故障管理平台能够提前预测30%的5G数据业务失败故障,同时通过快速定界,将重大中断类故障的MTTR减少35%,弥补监控室5GC监控定界能力不足、隐患难发现等疑难课题。

基于AI框架,智能故障管理平台提供了群障规则智能挖掘与诊断,通过故障传播图的形式,智能挖掘现网的关联规则并进行诊断,快速识别故障根因。在大幅提升定位效率的同时,能够有效降低人工维护的投入,减少对人的依赖;此外,提供了智能运维助手,包括意图识别、情感分析、知识检索等能力,以及典型场景(如无线CPI产品)知识问答、故障经验查询。同时提供AI编排能力,方便快速调整。

业务智能编排

提供了通用的业务编排框架和监控框架,采用“框架+资产包”模式,支持运营商根据业务场景(如云网融合场景、家庭宽带业务场景、5G业务场景等)灵活定制业务资产,实现业务自开通、自监控、自运维的一站式E2E流程,以快速匹配新业务不断变化的诉求。当有新的业务场景需求时,业务设计人员可在设计态工具中利用已有的资产和社区开放的资产进行二次编排,灵活设计新场景的业务资产,然后导入智能故障管理平台运行态中,智能故障管理平台将自动对业务资产进行解析。

基于故障中心规则配置能力和“轻代码”ADC编排工具,预处理和定界能力实现轻代码、可视化编排,大部分主次、衍生规则支持可视化界面配置,上线时间由周、月缩短至天。完成大核心203个衍生规则优化和积压需求实现。通过自编排大幅缩短开发周期,从以前的7~15天缩短到现在的2天,效率大幅提升。

能力开放

支持开放API,支持灵活的定制和对接。提供了开放的API,支持与周边系统快速集成,能够实现数据共享,与合作伙伴共同构筑业务生态。基于微服务化,故障中心提供告警预处理、告警查询、告警报表、告警规则、场景化API、实时告警六大类能力开放,满足各种场景的故障排除能力需求。

智能运维转型并非一蹴而就,浙江移动将携手华为进一步打造智能故障管理平台,为新网络、新技术、新业务发展注入智能运维新动力,让客户享有更极致的业务体验,让网络运营更智慧、更高效,释放网络新价值,加速电信行业数字化运维转型的进程。

文章来源于互联网:浙江移动联合华为共建下一代智能故障管理平台

相关推荐: 多个项目现场签约 京东智联云项目落户南海

昨日,“工业互联智造无界”2020工业互联网大会在佛山南海举行。会上,腾讯工业互联网粤港澳大湾区基地、京东智联云(佛山)数字经济产业园揭牌,这是国内工业互联网头部企业在南海相继布局的缩影。行业龙头企业落地南海,也有望形成规模集聚效应。同时,佛山市南海区工业互联…