AI时代的硬核通信技术,中国移动光网络AI应用白皮书,颠覆三大应用场景 | 智东西内参

小编:饿狼 更新时间:2022-05-02
AI时代的硬核通信技术,中国移动光网络AI应用白皮书,颠覆三大应用场景 | 智东西内参

随着互联网+、 云、 5G、 4K、 VR 等新业务和新技术蓬勃发展, 数字经济下新的价值体系正在重建, 用户体验要求越来越高, 网络规模越来越大。 Ovum 分析报告显示, 过去 10 年电信行业收入增长低于 OPEX增长, OPEX 在电信网络 TCO(总体拥有成本) 的占比从 62%上升到 75%, 平均每 1 万台设备运营维护需要300 名工程师。

对数据和信息的掌控能力是运营商数字化转型的重要基础, AI 技术的蓬勃发展为运营商数字化转型带来了新的可能。 利用 AI 强大的数据分析和信息提取能力, 通过对海量网络数据采集、 分析、 预测、 决策,为运营商诊断网络质量, 优化业务性能, 减轻运营负担, 改善用户体验带来无限可能。 运营商网络引入 AI是数字化转型的必然方向。

本期的智能内参,我们推荐中国移动的报告《光网络人工智能(AI)应用白皮书》, 阐述AI在光网络领域的总体架构和关键技术。

来源 中国移动

原标题:

《光网络人工智能(AI)应用白皮书》

作者: 未注明

一、 光网络 AI 应用场景

1、 AI 分析类场景

同缆风险智能识别场景。光缆哑资源长期缺乏有效监控、 运维手段, 主备业务或关联业务实际部署到同一条光缆上并不鲜见,单条光缆中断后主备业务或关联业务同时失效, 不仅导致业务中断, 而且部分网络成为孤岛缺乏远程应对手段。 以人工巡线、 人工录入方式维护同缆信息, 随着网络不断变更和演进, 综合资源管理系统同缆信息数据不够准确, 不足以支撑精准识别同缆, 效率和识别准确度较低, 亟需引入 AI 技术, 智能识别主备业务、 关联业务是否存在同缆风险,保障网络高可靠运行。

光缆拓扑智能规划场景。网络规划与业务发展脱节, 造成网络负载不均、 资源利用效率低下、 资源需求冷热不均, 根因是网络拓扑已经无法匹配业务流量流向变化, 基于业务精准预测反向优化网络拓扑, 通过适量加纤加缆, 实现网络承载能力倍增, 适应业务变化和发展需要。

业务故障智能定位定界场景。秒级、 毫秒级甚至微秒级业务闪断发生频次高, 但持续时间短, 无告警上报, 且故障很难复现, 基本靠用户投诉, 人工定位和回溯困难, 严重影响客户感知和运营商口碑。 同时, 用户卡、 慢、 断体验差与应用、 带宽、 连接多个维度紧密相关, 根因定位定界涉及大量网络数据, 人工分析效率很低, 大多数用户业务体验问题难以根治。 迫切需要引入 AI 技术, 提升光网络瞬态变化感知精度, 实现性能瞬变监测和闪断智能定界定位, 实现用户体验差根因的高效定位定界。

2、 AI 预测类场景

光网资源预测场景。随着专线业务的快速发展, 业务发放效率成为运营商的核心竞争力, 而传统的三滚资源规划很难适应专线的随机性和突发性, 当前运营商对网络投资收紧加大了资源精准预留、 业务快速发放的难度。 引入 AI智能资源预测, 结合历史业务增长趋势, 实现资源高效利用, 业务发放“零” 等待。

光网健康预测场景。 光网络的性能劣化、 隐患变故障是渐进式发展的, 基于阈值的人工判断方式难以识别, 故障一旦发生, 经常导致大量业务中断、 修复周期过长等挑战。 随着光网络承载的业务流量增长, 维护压力与日俱增, 迫切需要引入 AI 智能识别网络健康、 提前预测风险。

光波长通道余量预测场景。 随着数字化经济的发展, 光网络上波长增加明显提速, 同时为了增加网络可靠性引入 ASON 智能路由调整, 使得网络中频繁加掉波, 从而对现有波长性能产生影响, 而当前人工方式工作量大, 效率低, 精度差。 引入 AI 智能余量预测, 自动对波长余量进行动态仿真, 精准模拟加掉波对现有波长的性能余量变化和劣化根因分析, 为精准调测提供保障。

3、 AI 优化类场景

光性能智能调测调优场景。 一二干融合、 省本一体化、 区域干线驱动网络组网规模扩大, ASON 智能路由调整加大网络变数, 光模拟网络面临手工调测效率低、 出错概率高、 效果不可控。 引入 AI 智能优化调测步骤, 结合自动性能检测,实时监控关联路径的性能, 保障网络处于稳定、 较优状态。

光网络资源智能优化场景。 为适应动态的业务变化、 保障网络性能指标时刻处于最优并发掘网络利用潜能, 需要对波长、 链路和路由实施动态优化。 以往各类传输优化工具或软件主要借助固化的方法和简单的规则, 甚至依赖工程师的经验来完成优化, 并未识别到本质特征、 考虑维度简单、 相关性分析不足、 局部而非全局, 所以优化的结果往往不是普遍有效。 如今随着网络规模和业务规模的不断扩大, 传统优化方式难堪重任, 需要引入人工智能来完成整个传输网生命周期内的精细化、 动态化、 智能化的优化。

切片智能优化调度场景。 8K 视频业务, VR/云游戏等高清视频类业务强交互、 高并发, 与传统上网、 语音等弱交互、 统计复用业务相比, 对网络带宽、 时延、 丢包率等要求迥异, 需要为此类新兴业务预留独立的资源以保障业务体验,依赖人工根据业务变化动态调整资源分配基本不可行, 引入 AI 智能的切片调度, 保障不同业务的差异化体验需求。

二、 光网络 AI 关键实现技术

面向光网络哑资源数智化管理、 网络数智化分析需求, 通过引入AI和数字化技术, 提出光网络AI应用解决方案, 推进网络运维数智化转型, 实现运维提质增效, 牵引网络技术变革。

光网络AI应用解决方案架构可以为运营商提供哑资源管理、 智能规划、 智能运营、 智能维护和智能优化等AI应用, 实现全生命周期自动化、 智能化运维, 支撑政企和家宽业务高品质发展。 整体架构图如下图所示。

AI时代的硬核通信技术,中国移动光网络AI应用白皮书,颠覆三大应用场景 | 智东西内参

光网络 AI 应用解决方案架构图

1、 融合感知技术

光网络感知技术。面对高复杂度的多参量光网络系统, 为了能够全面、 精准、 实时感知光网络状态, 网元系统和管控系统需要从维度、 精度、 频度等多个角度进行光 Sensor 数据的分层采集和汇聚, 并通过 AI 算法对原始光Sensor 数据进行数据挖掘, 支撑光网络的各类业务场景。

网元设备, 分层采集:光 Sensor 技术是以光技术手段感知、 检测多种物理量, 并将模拟物理量数字化的一种技术。 网元系统将光 Sensor 技术采集的数据进行 4 层划分, 分层采集: 光业务层、 光部件层、 光信道层、 光链路层。

光业务层数据主要是客户关注的业务属性指标, 比如带宽、 时延、 误码、 保护倒换时长等指标; 光部件层数据主要是采集光部件的物理指标, 包括功率、 温度、 电压、 频偏等; 光信道层数据关注点在于信道的属性特征, 类似信道编号、 光信噪比、 单波功率等; 光链路层数据集中在链路侧的特征, 包含光纤损耗、 光纤类型、 光纤事件等。

管控系统:1) 数据汇聚: 考虑到数据存储结构和内容的差异性, 管控系统需要将采集的数据进行分类汇聚, 可分为资源数据底座和性能数据底座。 资源数据底座汇聚的数据主要是静态的存量数据, 比如业务存量数据、网络拓扑存量等。 性能数据底座汇聚的数据主要的非静态的性能数据, 比如性能、 告警、 日志等随着网络运行动态变化的数据。

2) 数据挖掘: 汇聚的资源和性能原始数据表达的信息量始终是有限的, 因此分析系统需要基于 AI 算法技术对光 Sensor 数据进行数据挖掘获得额外的信息量, 用于支撑感知、 诊断、 预测、 控制等多类业务场景。

高性能数据流转技术。 面临光 Sensor 生产的海量数据, 需要一套灵活、 高并发的数据采集技术并确保数据高效流向管控系统。 光网络中使用的高效流转技术是建立网元设备内和网元设备与管控系统间的高速传输通道, 实施网元设备分布式本地决策和管控系统集中式智能控制两层处理, 协同完成决策, 如下图所示。

AI时代的硬核通信技术,中国移动光网络AI应用白皮书,颠覆三大应用场景 | 智东西内参

高性能数据流转架构示意图

网元设备内高效采集: 网元设备按照数据量的大小和时间精度分为高速采集和低速采集。1) 硬件上, 在网元设备为关键 Sensor 开辟快速外送数据到硬件通道, 使用高速缓存区存储多端口高精度数据(如毫秒级)。

2) 软件上, 构建统一大采集数据框架, 抽象建模光 Sensor 数据采集项, 灵活控制多单板多端口的数据并发采集, 并使用内存共享技术高效读写。

网元设备与管控系统间高效传输:

1) AI 需要更多、 更高频次、 更精准的参量采样, 参量上报通道带宽诉求出现 x104级别变化, 硬件架构上需提供更大的 DCN 吞吐能力。

2) 传统的参量查询式响应仅适合低速、 低频次访问, 无法满足 AI 海量参量上报诉求, 软件架构需要基于订阅式访问机制(如 Telemetry), 用于批量参量上报, 提供高效海量数据传输。

网元设备与管控系统分层处理: 网元设备和管控系统间需尽量减少不必要的数据传输, 采用分层处理机制, 网元设备需预处理数据, 对数据进行整合(例如: 毫秒级数据提取成秒级数据) 或特征提取, 并采用数据压缩技术降低数据传输量。 管控系统根据必须的网元设备级数据进行网络级决策控制。

哑资源感知技术。 1) 多路暗光纤并行感知关键技术: 现网光缆数量庞大, 当前主要依靠人工管理, 性能不可视、 故障不可视, 管理效率和资源准确度面临极大挑战。 例行巡检光纤质量, 耗时耗力、 成本高、 误差大; 业务扩容临时查找可用纤芯耗时长, 业务 TTM 保障难。

通过反射光信号对散射进行数字化逆向建模, 在线轮询, 监控空闲纤芯质量, 解决空闲光纤性能监控问题, 实现多路暗光纤并行感知, 如下图所示。

AI时代的硬核通信技术,中国移动光网络AI应用白皮书,颠覆三大应用场景 | 智东西内参

空闲纤芯质量智能监控原理示意图

1. 汇聚机房到云, 逐站部署, 实时监控全量芯纤质量。

2. 汇聚机房到楼, 按需预连接, 1 芯以上监控到价值楼宇, 实现点亮光缆到楼宇, 资源预覆盖, 保障专线 TTM。

2) ODN 光虹膜关键技术: 传统ODN网络采用人工管理模式, 运营商无法直观地获取资源和拓扑信息。 数字化ODN实现了资源层数字化管理资源和拓扑信息, 业务层管理业务的在线发放、 扩容和故障管理服务。

传统ODN网络采用人工管理模式, 无法直观地获取资源和拓扑信息, 运维困难。 数字化ODN通过光虹膜技术, 即利用不同用户光信号相位的改变, 结合AI算法识别其连接的ODN端口, 实现了资源层的远程数字化管理, 提升了ODN资源利用准确率, 支撑ODN故障的定界定位。 如图4-4所示, 在以下几方面使能ODN哑资源数字化管理:

远程自动验收: 远程检测FAT端口搜集插损数据并自动记录到ODN管理系统中。

ODN拓扑还原: 基于ODN资源数据库, 可以自动显示、 恢复与更新端到端拓扑信息, 包括PON端口、主干光纤、 FAT端口、 入户配线光纤和ONT连接。

ODN光链路分析: 实现端到端监控与分析光链路插损数据。

动态资源监控: 可以远程自动监控FAT端口利用率。

AI时代的硬核通信技术,中国移动光网络AI应用白皮书,颠覆三大应用场景 | 智东西内参

光虹膜技术原理示意图

业务质量感知关键技术。 业务质量感知包括业务和网络两个方面, 实现对二层, 三层以及传输层时延、 丢包和抖动的监测; 通过 Telemetry 等技术实现运行数据实时订阅上报。

业界当前的业务质量检测/探测主要是带外探测技术, 业务检测/探测报文由相关功能模块单独发送和接收, 和用户实际业务流共用转发路径, 与业务报文分离不严格对应, 因此探测结果与实际业务体验有偏差。 针对这个缺点, 业界定义实现了 IOAM 等带内探测技术。 例如在原始数据报文中增加 OAM 检测头, 在业务转发路径中根据检测头进行数据采集, 再通过集中处理单元计算检测结果。 还可以通过测量业务报文的 TCP/UDP 传输特征, 来提取和计算报文及业务 KPI。 该方案的优势在于可以单节点部署, 可随流检测连接质量。

基于以上技术采集到的数据, 大致分为体验 KQI(卡顿率、 加载时间等) 和应用 KPI(时延、 抖动等)两层; 体验 KQI 可以参考行标 YDT 2691 的定义, KQI 指标一般需要在内容侧和终端侧直接度量, 部分应用的 KQI 也可以采用 DPI 方式进行测量, 但该方式依赖对应用层内容的解析, 定制化较强, 不具备通用性。由于体验 KQI 和应用 KPI 通常存在定性关系, 应用 KPI 可在传输层进行指标建模, 不依赖于具体应用, 具有更好的通用性。

2、云地协同全栈 AI 技术

光网络 AI 技术研究面对模型泛化能力差、 模型部署要求算力高、 本地样本少/标注难、 大数据管理困难等问题, 需要探索一种新的 AI 技术架构应对这些问题, 加速 AI 应用的规模部署。 新的 AI 技术架构需要满足具有以下特点:

1) 针对模型泛化能力差问题: AI 模型应具有在线学习能力, 能够不断学习网络新特征、 新变化。

2) 针对模型部署算力要求高问题: AI 模型训练应可集中部署在算力中心或者支持分布式训练部署。

3) 针对样本少/标注难问题: 需要发挥群体智能, 多数据持有者之间相互贡献数据, 为 AI 模型在线学习提供坚实数据基础。

4) 针对大数据管理困难: 网络数据种类多、 产生数据快, 大量网元产生的 KPI、 日志、 告警等海量数据, 需要建立专业体系化的数据治理工程。

针对光网络多边缘设备+中心控制的组网特点, 云地协同 AI 技术架构是解决上述挑战的最佳解决方案。

云地协同是指云端和地端协作完成数据样本上云、 模型状态管理、 模型重训练、 模型/知识下发、 择优更新等一系列的闭环任务, 同时把云端汇集的全局网络知识经验、 全量数据训练得到的高精度模型, 持续注入地端, 让光网络 AI 能够进行智能迭代升级, 变得越来越聪明, 如下图所示。

AI 服务包含数据治理服务、 模型训练服务、 专家经验辅助服务, 涉及运营商大量运营数据、 用户数据、网络数据, 对数据安全要求很高, 云端适合部署在 IT 云。 实时海量数据并发上报、 处理加剧整网压力,在地端(包含管控系统、 网元设备) 部署分布式 AI, 就近处理本地实时海量数据。

AI时代的硬核通信技术,中国移动光网络AI应用白皮书,颠覆三大应用场景 | 智东西内参

云地协同全栈 AI 示意图

3、智能分析预测技术

网络出现问题后生成告警, 触发故障定位和修复是当前网络运维的普遍方式, 海量告警上报导致故障根因定位困难、 静默故障无告警上报导致无法定位故障根因, 是根因告警分析的两大难题。 为了进一步提升网络可靠性和运营效率, 对网络故障、 业务资源需求等进行提前预测, 也是当前研究的热点问题。

智能关联分析是光网络根因告警分析和静默故障定位的关键能力。 由于网络数据量大、 维度多和故障模式多样化, 且关联影响发散, 需要精准的筛查和多维度关联分析能力, 需要通过智能分析技术, 构建关联模型和进行相关训练, 实现根因告警识别和静默故障定位。 智能资源预测和故障风险预测可提前发现资源瓶颈和故障风险, 提升业务 TTM 和业务可靠性。

光网络智能分析预测能力需在网元和管控层面分别构筑对应的智能分析能力。 通过分层实现智能 AI分析预测能力, 基于高精度数据的短周期预测, 需在网元进行高速数据采集处理和分析预测闭环, 提升分析效率; 基于数据粒度较大的长周期预测, 可通过管控系统长周期数据采集和分析预测闭环。

AI时代的硬核通信技术,中国移动光网络AI应用白皮书,颠覆三大应用场景 | 智东西内参

智能分析预测分层闭环示意图

智能预测一般采用时间序列模型+训练学习方式实现。 光网络常见时间序列模型:

a) 差分回归移动平均模型(ARIMA)[3-4]:在光网络中可以利用 ARIMA 模型进行根据网络资源预测。

b) PROPHET 模型: 该方法对历史数据的依赖度较低, 可以在一定数据缺失的情况下, 仍能保持较好的预测效果。 光波长通道余量预测因关联数据比较离散适用于该方法。

根据实际应用场景选择合适的模型后, 还需要进行相应的模型训练和参数调整, 使得在特定场景下能够有较高的预测精度。 由于不同场景特点, 需建立对应特征的参数库和多样化的训练模型样本。

4、智能仿真决策技术

光网络仿真能够为网络规划、 设计、 配置以及网络自优化(如网络路径优化、 网络资源性能优化等)提供可靠依据, 通过对配置和优化结果下发前进行事前仿真决策, 确保配置和优化结果的自动、 准确、 可信任执行, 保障业务安全。 网络仿真能够有效地验证实际方案或比较多个不同的仿真设计以及组织方案,以便于对不同的设计方案建立模型, 实施模拟, 对网络性能预测数据采取顶定量获取, 为设计、 配置方案的比较和验证提供可靠的依据。

网络仿真决策技术是一种利用数学建模和统计分析的方法模拟网络决策行为, 通过建立网络信息的统计模型, 模拟网络操作执行, 获取网络设计及优化所需要的网络性能数据的一种技术。 网络仿真有三个阶段: 准备阶段-模型设计-仿真与结果分析。 AI 技术已经应用到网络仿真各个阶段, 在光网络中, 智能仿真决策技术已经开始在网元、 管控系统中开始研究。

1. 网元设备中智能仿真决策的应用及关键技术:

在仿真的基础准备阶段, 开始构建全光参量数字孪生底座, 通过 Sensor 体系实现上报全量光参, 在线学习, 精准计算噪音、 代价、 余量等, 支撑对网元实时状态的全量认知。

在仿真的模型设计阶段, 除了对网元, 单板, 端口, 滤波器等基础建模外, 通过离线和在线大数据学习, 对光传输质量进行在线建模, 比如: EDFA 模型(增益、 噪声)、 滤波代价模型、 Raman 放大器、 BER/Q模型、 OSNR 模型、 光纤质量模型、 光模块质量模型等。

在仿真与结果分析阶段, 通过 AI 迁移学习算法、 回归算法等实现余量动态监控以及自优化执行结果分析, 做到自动调整优化方案, 以及实时自调优。

2. 管控系统中智能仿真决策的应用及关键技术:

在仿真的基础准备阶段, 通过知识图谱构建网络运维知识库、 图神经网络来预测网络的 SLA 等技术来感知和理解网络。

在仿真模型设计阶段, 通过数字孪生网络的五维模型, 多维模型包括基础模型和功能模型, 多维度刻画网络特征, 支持网络规划建议以及运维优化的仿真验证。

在仿真与结果分析阶段, 根据仿真执行结果和数据, 通过从路径/轨迹决策规划、 行为/任务决策规划、执行计划决策规划等数学建模到数学求解, 来决策仿真执行的最终效果。

智东西认为,如今人工智能的应用已无处不在,智能语音助手、人脸识别、智能家居、智能安防等都开始应用于我们生活的方方面面,而这些应用的背后离不开通信网络的支撑。现在,人工智能技术在光网络物理层和网络层都获得了初步应用尝试;与此同时,光网络的智能化面临诸多挑战,有待在算法和应用方面继续探索!