6G AI即服务 (AIaaS)需求研究 · 三

内容纲要

三、6G AI 即服务(AIaaS)性能指标

现有移动网络的设计目标主要是面向连接的数据传输,其关键性能指标主要包括连接的传输速率和传输时延等。6G AIaaS 基于 6G 网络内的连接、计算、模型、数据等资源,提供适应不同应用场景的 AI 能力。不同于传统的移动网络,6G网络需要配置除连接之外的资源,为用户提供高性能 AI 服务。相应地,需要从多个维度来构建 6G AIaaS 的性能指标和服务质量保障体系。一方面,6G AIaaS 需要新的包含连接、计算、模型等维度的 QoS,保障 AI 服务质量。另一方面,6G 网络在设计时,需要考虑如何将通信连接能力、AI 模型和计算能力等进行融合,构建面向 AI 服务的综合性能指标体系和评估方法,为系统设计和网络资源配置提供指导。下面从 6G AIaaS QoAIS 和系统关键性能指标两个方面分别阐述指标定义和评估方法。

3.1 6G AIaaS QoAIS

3.1.1 QoAIS 定义

QoAIS(Quality of AI Service)是对 AI 服务质量进行评估和保障的一套指标体系和流程机制。未来,6G 网络将不再只是服务于传统通信业务的管道,6G 网络将构建内生于网络的 AI 能力,形成一套可服务于多种智能应用场景的能力体系,即 AIaaS。QoAIS 反映了用户层面对于 AI 服务质量的需求,并将需求量化、导入 6G 智能内生网络,使网络能够按照用户提出的指标提供相应的AIaaS 以保障其需求。

图3-1【QoAIS 和 AIaaS 关系图示例】

3.1.2 QoAIS 指标体系

6G 时代将出现各种新型智能应用场景(如网络高水平自治、行业用户智能普惠、用户极致业务体验、网络内生安全等),不同场景对 QoAIS 将有着不同的需求,因此需要一套指标体系通过量化或分级的方式表达用户层面的需求,以及网络编排控制 AI 各要素(包括算法、算力、数据、连接等)的综合效果。

传统通信网络的 QoS 主要考虑通信业务的时延和吞吐率(MBR、GBR 等)等与连接相关的性能指标。6G 网络除了传统通信资源外,还将引入分布式异构算力资源、存储资源、数据资源、AI 算法等 AI 服务编排的多种资源元素,因而需要从连接、算力、算法、数据等多个维度来综合评估网络内生 AI 的服务质量。同时,随着“碳中和”和“碳达峰”政策的实施、全球智能应用行业对数据安全性和隐私性关注程度的普遍加强,以及用户对网络自治能力需求的提升,未来性能相关指标将不再是用户关注的唯一指标,安全、隐私、自治和资源开销方面的需求将逐渐深化,成为评估服务质量的新维度,而不同行业和场景在这些新维度上的具体需求也将千差万别,需要进行量化或分级评估。因此,QoAIS 指标体系从初始设计时,即需要考虑涵盖性能、开销、安全、隐私和自治等多个方面,需从内容上进行扩展。

6G 网络内生的 AI 服务可以分为 AI 数据类、AI 训练类、AI 推理类和 AI 验证类,每一类 AI 服务均需要一套QoAIS。下表提供了一种针对 AI 训练服务的设计方式。

表3-1【AI 训练服务的 QoAIS 指标体系】

其中,“性能指标界”是评估模型性能好坏指标的上界和下界,如模型错误率、查准率、召回率等性能指标的范围。“泛化性”指模型经过训练后,应用到新数据并做出准确预测的能力。“可重用性”是模型在应用场景变化时能够继续使用的能力。“鲁棒性”指在输入数据受到扰动、攻击或者不确定的情况下,模型仍然可以维持某些性能的特性。“可解释性”是指模型能支持对模型内部机制的理解以及对模型结果的理解的程度。“损失函数与优化目标的一致性”是指模型训练过程中,对损失函数的设计与 AI 用例的优化目标的一致程度,比如函数中考虑的变量个数是否完全覆盖智能优化场景的优化目标指标。

“自治”指对 AI 数据 / 训练 / 验证 / 推理服务的工作流中自主运行部分和人工干预部分的要求,反映了用户对AI 服务自动化程度的要求。自治分为三个等级:完全自治(全流程自动化的 AI 服务,全程无需人工干预)、部分人工可控(AI 服务的工作流在部分环节自动化,部分环节要求人工辅助)、全部人工可控(AI 服务工作流的各环节均要求人工参与)。

3.1.3 QoAIS 映射模型

QoAIS 是网络内生 AI 编排管理系统和控制功能的重要输入,网络内生 AI 管理编排系统需要对顶层的 QoAIS进行分解,再映射到对数据、算法、算力、连接等各方面的 QoS 要求上。

下图展示了 QoAIS 各指标维度和各资源维度上的 QoS 之间的映射关系。AI 服务的 QoAIS 整体指标拆解到各指标维度上的 QoAIS 指标,再进一步映射到各资源维度上的 QoS 指标,由管理面、各资源维度的控制面和用户面机制进行保障。各资源维度上 QoS 指标可分为适合量化评估的指标(如各类资源开销)和适合分级评估的指标(如安全等级、隐私等级和自治等级)。在前一类指标中,有部分指标的量化方案已成熟或较容易制定(如训练耗时、算法性能界、计算精度、各类资源开销等),部分指标目前尚无定量评估方法(如模型的鲁棒性、可重用性、泛化性和可解释性等),如表 3-2 所示。

图3-2【QoAIS 指标分解到各资源维度上的 QoS 指标】

表3-2【AI 训练服务性能 QoAIS 到各资源维度的映射】

3.1.4 QoAIS 具体场景指标分析

根据前文所述,QoAIS 在性能、开销、安全、隐私、自治五个评价维度都有相应的 QoAIS 指标,特别是在性能层面,数据、算法、算力、连接四大资源维度下均有适合量化评估的服务质量指标映射。因此,下面将在多小区天线波束联合赋形的场景用例下,对内生 AI 网络架构中基于 QoAIS 的 AI 工作流编排方案(包括集中式、分布式和协同式)展开分析,选取多个典型的可量化 QoAIS 指标进行介绍。

下图展示了集中式、分布式、协同式三种 AI 工作流编排方案下,上述 AI 任务在集中式云脑和多个分布式边脑中的分布情况。该用例利用 6G 智慧内生 AI 架构解决在多个基站覆盖的区域中出现人群聚集场景时,基站天线的波束权值动态调整方案。因此,设置三种不同的场景,场景一、场景二和场景三分别含有 10%、50% 和100% 的动态用户。对于每一种场景,分别使用集中式、分布式和协同式三种方案进行波束选择,并分析三种方案对 QoAIS 相关指标的满足程度。

图3-3【三种不同编排方案的 AI 任务分布图】

3.1.4.1 性能指标界

在该场景用例下,内生 AI 能够在遇到人群热点时,通过对人群分布作出准确的预测,及时指导基站天线作出决策。因此,以用户分布预测准确度作为衡量性能指标界的关键因素。将区域栅格化,用户分布预测准确度相当于利用三种编排方案预测结果与真实分布结果数值相同的栅格数与真实分布中的栅格数之比。

表3-3【用户分布预测准确度】

如上表所示,集中式方案在场景一和场景二下的预测准确度较高,协同式方案在场景三的预测准确度较高,分布式方案在三种场景下的预测准确度较低。三种编排方案的性能指标界如下表所示,协同式方案的预测准确度上界最高,分布式方案的下界最低。

表3-4【性能指标界对比】

优化目标匹配度3.1.4.2 优化目标匹配度

一种量化优化目标匹配度的方式是计算模型训练过程中损失函数的参数变量对 AI 用例优化目标指标的覆盖程度。比如,在本用例场景下,若优化目标指标包括RSRP 覆盖性能和 SINR 覆盖性能,而损失函数的设计仅包含 RSRP,则并非完全匹配。具体的计算公式可设计如下:

θ = α x f(RSRP)+ β x f(SINR)

其中,α 代表 RSRP 的权值,β 代表 SINR 的权值,(α+β=1),θ 代表优化目标匹配度。f(RSRP)与 f(SINR)作为损失函数是否包含相应优化指标的 0 - 1 函数(包含则为 1,否则为 0),在本用例中,三种编排结果的优化目标都是相同的,故而三种编排结果的匹配度相等。

3.1.4.3 鲁棒性

鲁棒性用来衡量方案结果的抗干扰性,针对该场景用例,以用户分布预测模型准确度的方差表示方案的鲁棒性程度,预测结果的方差越小,鲁棒性越高。三种编排结果的鲁棒性分别为:集中式方案 31.58×10 - 7,分布式方案 25.14×10 - 7,协同式方案 1.082×10 - 7。集中式方案的鲁棒性差于分布式方案,协同式方案的鲁棒性最好。

3.1.4.4 传输、存储、算力开销

对于该场景用例中的 QoAIS 开销类指标,从数据传输、存储和算力开销三方面对比。从下表可以看出,集中式方案在传输数据上传量和训练数据的存储量上需要较大的数据开销,同时需要较多的算力资源。分布式方案因为数据决策都在本地执行,所 以没有传输数据量,数据的存储和算力消耗也比较少。协同式方案由于云边之间的反馈,所以传输数据下发量需要的开销较大,其余指标与分布式方案相同。

表3-5【开销对比】

除了以上评估维度,QoAIS 也可以包括智能应用的性能指标。以信道压缩为例,可以选择归一化均方误差(Normalized mean square error,NMSE)或是余弦相似度作为信道恢复精度的 KPI,也可以选择链路级 / 系统级指标(如误比特率或吞吐量等)作为反映信道反馈精度对系统性能影响的 KPI。此外,QoAIS 还可以包括 AI 服务的可获得性、AI 服务的响应时间(从用户发起请求到AI 服务的首条响应消息)等与 AI 服务类型无关的通用性评价指标。

3.2 6G AIaaS 关键性能指标

6G AIaaS 利用网络内的通信、模型和计算等资源,使能高效的模型训练和实时高精度模型推理等 AI 服务。AI 服务质量同时取决于模型能力、用户和网络侧的计算能力,以及用户与网络连接的通信性能等,因此需要从端到端服务、通信、模型和计算多个维度来综合评价 6G 性能。另外,随着“碳中和”政策的实施,碳排放也成为了评估网络性能的新维度。因此,亟需在 6G 网络形成一套基于通信能力与 AI 能力的 AI 服务关键性能指标和评估体系,从而为 6G 系统的设计和通信、计算等资源的配置提供指导。

3.2.1 性能指标定义

从 6G 网络提供 AI 模型训练和推理等服务、AI 数据服务的能力的角度来对 AIaaS 的性能指标进行定义,我们认为其提供的 AI 服务的性能同时取决于系统底层所能提供的如 AI 模型相关的能力、用户和网络侧的计算能力,以及用户与网络连接的通信能力等。我们首先有如下表中所综合定义的 AI 服务性能指标列表:

表3-6【AI 服务的关键性能指标】

1) 服务准确度:反映了用户所能体验的 AI 服务的精度,如目标检测或物体识别的精度。对于不同的业务,该准确度的要求可能不同,如对于自动驾驶业务,物体识别的精度要求要远高于用户对花草的分类。

2) 服务覆盖率:反映了网络中的用户能享受到 AI 服务的比例,高的服务覆盖率既要求网络提供良好的链路覆盖,也要求网络部署能够覆盖更多数据的模型和计算,以提供满足服务准确度要求的 AI 性能。

3) 服务响应时延:反映了用户从请求到得到 AI 服务的时间,对于不同业务要求也不相同,如自动驾驶业务中物体识别的时延要求远高于普通消费者日常识别花草的要求。

4) 系统能效:反映了网络提供 AI 服务的能量效率,包括计算和通信的能耗。AIaaS 需要追求以总体最低的能耗提供更好的 AI 服务,以实现绿色生态。

5) 服务密度:反映了网络能够同时提供的 AI 服务的能力,即能够同时提供 AI 服务的用户数。

6) 服务完整度:反映了网络提供 AI 数据服务的质量,高质量的数据既要求数据本身不能存在缺失、错误项,还要求数据的标签标注准确。

7) 服务冗余度:反映了网络提供 AI 数据服务包含的有效信息占比。对于 AI 模型训练,冗余的相似数据不仅会造成额外存储、通信和计算开销,还会导致模型易于过拟合。AIaas 需要追求更高效的数据服务。

对于 AIaaS,不仅涉及到用户和网络的 AI 模型和计算,还涉及到用户与网络的连接,包括用户与网络之间数据或者模型的传输,用户侧和网络侧的数据采集、处理、评测和监测等。因此,在表 3-6 所定义的 AI 服务性能指标需要由通信性能和 AI 模型 / 计算性能两个方面综合决定。例如,AI 服务响应时延既包括 AI 模型推理所需要的计算
时延,也包括传输数据或者推理结果所需要的通信时延。

与表3-6中所列7项主要指标对应,下面尝试将AIaaS涉及到的通信相关的性能指标、AI模型/计算、AI数据相关的性指标分列在表3-7、表3-8和表3-9中。

【表 3-7 通信相关的关键性能指标】

【表 3-8 AI 模型和计算相关的关键性能指标】

【表 3-9 AI 数据相关的关键性能指标】

从通信的角度来看,考虑影响端到端 AI 性能的关键指标,包括数据速率、可靠性、区域传输容量、链路预算和通信能效,相应的定义如表 3.7 所示。对于这些性能指标,网络需要配置带宽和传输点密度等资源,以满足服务需求。而涉及到 AI 模型和计算相关的关键性能指标包括模型的推理准确度和数据分布覆盖范围、模型训练或推理的计算时延、数据密度和能耗,相应的定义如表 3-8所示。对于不同的 AI 服务,关键性能指标可能会不同,如推理服务更关注准确度和时延。对于这些性能指标,网络需要配置 AI 模型和计算等资源,以满足服务需求。涉及到 AI 数据相关的关键性能指标包括数据完整度和数据冗余度,相应的定义如表 3.9 所示。对于这些性能指标,网络需要配置数据采集的功能,配置数据存储的存储资源和数据处理的计算资源等,以满足服务需求。

【图 3-4 AI 模型推理服务关键性能指标体系】

3.2.2 性能指标模型

按 3.1.1 节中定义的系列指标,我们以 AIaaS 中最为典型的模型推理和模型训练业务为例,具体讨论 AI 服务的关键性能指标模型,包括与通信和 AI 模型 / 计算的关系。总的来说,由通信的 KPI 和 AI 模型的 KPI 共同确定 AI 服务(AIaaS)的 KPI。

1)对于 AI 模型推理服务,用户希望从网络获取实时的高准确度的 AI 推理结果。根据前面所描述的 AI 模型推理服务流程,用户先将本地数据或者部分 AI 模型的中间推理结果上传给网络,网络基于另一部分 AI 模型对数据或中间结果进行处理后,得到最终推理结果,反馈给终端。

如上图 3-4 所示,从以下 5 个方面具体讨论 AI 模型推理服务的关键性能指标的影响因素,包括:

  • 准确度:用户能够获得的 AI 服务准确度既取决于AI 模型推理的准确度,还取决于通信的可靠度,包括数据 / 中间推理结果和最终推理结果反馈的可靠度。AI 模型推理的准确度通常随着模型参数的增加而升高,而模型参数的增加也意味着对计算需要的增加。
  • 时延:用户能够获得的 AI 服务响应时延取决于数据速率决定的传输时延和用户与网络进行 AI 模型计算的推理时延。传输时延还取决于 AI 模型的分割点确定的数据量,而推理时延同时取决于用户与网络的模型和计算能力。
  • 覆盖:网络能够提供的 AI 服务覆盖取决于链路预算确定的连接覆盖和模型的覆盖。其中,模型的覆盖是能够满足推理准确度要求的数据覆盖区域,即所部署的模型能够覆盖该区域内的数据分布。对于当前以过参数化为特征的深度神经网络来说,推理准确度通常受限于模型大小和训练时所使用的数据分布,而模型越大,达到相同性能时所能覆盖的数据也越多。
  • 能效:服务能效取决于推理过程中的通信能效和计算能效。通信和计算的能耗也取决于 AI 模型分割点确定的传输数据量和用户与网络的计算能力。
  • 密度:服务密度即能同时提供 AI 服务的数据密度,取决于区域传输容量和推理数据密度,前者决定了能够同时传输的数据量,后者决定了能够同时进行 AI 推理的数据量。

2)对于 AI 模型训练服务,用户希望从网络获取高准确度的 AI 模型。AI 训练服务既可以采用集中训练模式,即网络首先收集所有用户的数据,然后基于网络的计算能力进行 AI 模型的训练,然后将训练好的模型发送给用户。AI 训练服务也可以采用分布式训练模式,如前面所描述的联邦学习。在分布式学习模式下,用户基于本地数据训练本地模型,将训练得到的本地模型上传到网络;网络对多个用户上传的模型进行融合,得到全局模型,并下发给用户;用户基于新的全局模型进行下一轮训练。用户通过与网络的多轮模型传输,实现用户之间数据中知识的共享。由于不需要用户上传原始数据,分布式学习可以更好地保护用户隐私。

【图 3- 5 分布式 AI 模型训练服务关键性能指标体系】

如上图 3-5 所示,据此可以分析 AI 模型训练服务的关键性能指标的影响因素,具体包括:

  • 时延:用户能够获得的 AI 模型训练服务响应时延取决于训练模式、用户与网络的计算能力、数据量和数据传输速率等。如对于分布式模型训练,时延包括用户在本地进行模型训练的时间和与网络交互模型的时间;而对于集中式模型训练,时延包括网络从用户收集数据的时间和进行集中训练的时间。
  • 覆盖:网络能够提供的 AI 模型训练服务的覆盖取决于链路预算确定的连接覆盖和模型的覆盖。链路预算决定了用户是否能够及时与网络进行数据或模型的交互,模型覆盖决定了是否能够满足准确度的需求。
  • 能效:服务能效取决于训练过程中的通信能效和计算能效。训练过程涉及模型参数更新所需要的多次迭代计算所消耗的能量,以及用户与网络进行数据或多轮模型传输所消耗的能量。
  • 密度:服务密度即能同时提供 AI 模型训练服务的数据密度,主要取决于区域传输容量和训练数据密度,后者由模型大小和计算能力确定。

3.2.3 性能指标评估与计算方法

针对上述的 AI 模型训练与推理服务、AI 数据服务,以及定义的相应的关键性能指标,以模型推理和训练服务、AI 数据服务为例,这里分别给出相应的性能指标评估与计算方法。

3.2.3.1 AI 模型推理服务

【图 3- 6 AI 模型推理服务处理示意】

一个用户享受 AI 模型推理服务所涉及到的处理如图3-6 所示,既涉及到用户和网络侧的模型和计算,也涉及到用户与网络间的传输。以分割推理为例,训练好的深度神经网络在某一层分割后,分别部署在用户和网络侧。

1)用户对待推理的数据使用分割的用户侧 AI 模型进行前向计算,得到中间推理结果;

2)用户将中间推理结果编码后发送给网络;

3)网络解码后,使用分割的网络侧 AI 模型对中间推理结果进行前向计算后,得到最终推理结果;

4)网络将最终推理结果反馈给用户。根据分割位置的不同,用户也可能直接把数据上传到网络,由网络进行模型推理。AI 模型推理服务的关键性能指标具体评估方法如下。

  • 服务准确度
    服务准确度由 AI 模型推理的准确度和传输的可靠度决定。记模型推理准确度为 am,链路可靠度为 rc,则服务准确度为 a = am • rc 。模型推理准确度由模型和数据共同决定,对于充分

训练的模型,模型越大,即参数量越多,准确度越高。模型越大也带来更大的计算开销和时延。链路可靠度为在给定时间内成功传输数据的概率。

  • 服务响应时延
  • 服务能效
  • 服务覆盖
  • 服务密度
3.2.3.2 AI 模型训练服务

网络提供的 AI 模型训练服务包括如图 3-7 所示的分布式模型训练和集中式模型训练两种方式。在集中式模型训练中,网络首先从用户收集数据,然后在网络侧进行模型训练。

在分布式模型训练中,
1)用户基于本地数据,进行有限次迭代的模型训练;

2)用户将模型参数编码后发送给网络;

3)网络对多个用户的模型参数进行聚合,如平均操作,得到全局模型;

4)网络将全局模型发送给用户;

5)用户将本地模型更新为全局模型。

重复上述步骤直到模型收敛或达到要求的准确度或迭代次数。上述步骤涉及到多轮的模型训练和传输,影响用户 AI 模型训练服务的关键性能指标,可以分别如下评估。

服务响应时延
由于集中式训练和分布式训练的流程不同,相应的服务响应时延也不同。

【图 3-7 左:分布式模型训练 右:集中式模型训练】

3.2.3.3 AI 数据服务

【图 3-8 AI 数据服务流程】

以通信系统无线空口侧的 AI 数据服务为例,所涉及到的流程如图 3.8 所示,既涉及到用户和网络侧的数据采集、数据存储、数据处理、数据监测等,也涉及到用户与网络间的数据传输。

具体来说:
1)数据采集,包括上行数据采集、下行数据采集、端侧和网络侧的本地数据采集,是获取数据的主要过程;

2)数据存储和更新,主要在端侧和网络侧把采集的数据进行存储,需要综合考虑存储能力和开销;

3)数据处理,主要是对数据进行筛选、清洗、分类、标签等;

4)数据使用,把数据用于 AI 模型训练、推理和更新等;

5)数据监测,通过对数据的分析、特征提取、评测,结合 AI 模型的推理结果,实时监测和更新数据。

但是用于通信系统中的信道信息数据、调度数据、网规网优数据、反馈信息数据等普遍存在数据维度不统一、数据概率分布不可得、数据标签不易分类等特点,导致较难有公认统一的方法对 6G AIaaS 提供的 AI 数据服务进行评估。为了可以直观有效地评价 AI 数据服务的性能指标,需要使用数据扩展、数据特征提取等对数据服务进行处理,然后基于处理后的数据进行性能指标的映射和计算,最终开展 AI 数据服务的性能指标评估。

AI 数据服务的关键性能指标如:

  • 服务完整度
  • 服务冗余度

3.2.4 性能指标评估示例

针对 AIaaS 的 AI 模型推理和训练服务,这里分别给出具体的性能评估示例。其中,通信参数配置如表 3-10 所示,网络和用户的计算芯片和能力不同,具体计算能力如表 3-11 所示。

【表 3-10 通信参数】

【表 3-11 节点计算能力参数】

3.2.4.1 AI 模型推理服务

以 VGG-16 模型为例,将模型分割为两部分,分别部署在用户和网络侧。VGG-16 模型参数如表 3-12 所示:

【表 3-12 VGG-16 模型参数】

将 VGG-16 模型划分为 6 个模块,7 个分割点(从左到右依次为标记为 0,1,……,6),各模块输出的数据维度如下图 3-9 所示。

【图 3-9 VGG-16 模型分割示意图】

当选定分割点后,分割点左侧模块部署在用户侧,右侧模块部署在网络侧。例如,当选择分割点 0 时,此时整个 AI 模型全部部署在网络,用户直接将数据传输给网络推理。当模型部署在网络侧和用户侧时,根据分割方式不同,AI 服务的性能指标各有差异,如表 3-13 所示。

【表 3-13 不同模型分割情况下的性能指标】

3.2.4.2 AI 模型训练服务

以 VGG-16 模型为例,涉及到网络和终端联合分布式训练服务,用户的算力和通信相关参数见表 3-10 和表 3-11。VGG-16 模型进行分布式训练时的参数如表 3-14 所示,每次迭代所有用户都参与模型训练。分布式训练的次数为 200。相应的性能指标如表 3-15 所示。

【表 3-14 VGG-16 模型分布式训练参数】

【表 3-15 VGG-16 模型分布式训练的关键性能指标】

Leave a Comment

您的电子邮箱地址不会被公开。 必填项已用*标注

close
arrow_upward