面向算力网络的智慧调度综述
摘要
分布异构计算资源通过网络连接形成算力网络(Computingpowernetwork,CPN),其以“连”和“算”为核心。针对广分布异构性导致可行解空间巨大、强不确定性导致可行解空间易变、高约束复杂性导致可行解孤岛繁多、多目标性导致冲突目标权衡优化难等挑战,提出一个多层次算力网络体系框架,包括参数化结构化业务管理、三阶段(计划、调度、执行)闭环调度模式、多模态资源管理三个功能。提出支持快速、高效、鲁棒的“算法+知识+数据+算力”的算力网络智慧调度框架,形式化分析可行解空间,解析调度策略关键参数,定性分析调度算法性能与效率的内在关系,详细综述调度算法类型,综述算力网络调度研究进展与发展方向。对比已有相关综述研究,展望算力网络调度未来理论和技术的难点与趋势。
关键词
算力网络;智慧调度;资源管理;调度算法
一、引言
算力网络是支撑国家网络强国、数字中国、智慧社会战略的新型基础设施,是对接国家规划、落实“东数西算”工程部署的重要支撑。2022年2月,在京津冀、长三角、粤港澳大湾区、成渝、内蒙古、贵州、甘肃、宁夏等8地启动建设国家算力枢纽节点,并规划了10个国家数据中心集群,完成全国一体化大数据中心体系的总体布局。算力网络也越来越受到学术界和产业界的广泛关注。
面向“东数西算”大数据的算力网络包括算什么(计算需求)、由谁算(算力资源)、如何算(调度算法)等核心步骤。看起来“东数西算”是将“数”或者“算”进行搬迁,但并不意味着所有的数据都需要从东传到西,也并非东部不作任何计算而由西部完成所有计算业务,“东数”是否需要“西算”的决策依赖于相应大数据的计算开销与通信开销总和。如何将分布异构计算资源通过网络连接形成算力网络是必然趋势,主要体现为:
1. 算力需求量激增:“东数西算”工程、虚拟现实、数字孪生、元宇宙等对算力需求越来越大。据罗兰・贝格公司预测,从2018年到2030年,无人驾驶算力需求增加390倍,数字货币算力需求增加约2000倍,游戏算力需求增加约300倍、端到端时延需小于20ms。
2. 算力供需地域不平衡:东部算力需求大、算力不足,西部算力需求相对小、算力充足,将东部算力需求有序引导到西部,优化数据中心建设布局,促进东西部协同联动,让西部算力资源更充分地支撑东部数据运算,更好地为数字化发展赋能。
3. 算力供应融合共生度不高:我国云边端(Cloud-edge-terminal)三级算力整体上呈现内核多样化、分布泛在化趋势,已有海量终端接入网络,边端算力逐渐丰富,但缺乏网络连接的泛在算力,亟需将云边端三级算力资源融合共生。
在实际应用中,如某大型互联网企业,其业务涵盖电商、社交、娱乐等多个领域,不同业务对算力的需求在时间和空间上具有高度的不均衡性。电商业务在促销活动期间,对算力的需求呈爆发式增长;而社交和娱乐业务在夜间用户活跃时段,算力需求更为突出。如果不能实现有效的算力调度,会导致部分业务因算力不足而响应迟缓,影响用户体验,同时也会造成其他时段算力资源的闲置浪费。因此,将广域分布、异构多样的算力资源连接成网,实现算力资源的统一管理、高效调度和优化配置,对提升国家整体算力水平和竞争力具有重要意义。
二、多层次算力网络体系框架2.1参数化结构化业务管理
在算力网络中,不同业务具有各异的需求特性。例如,对于实时性要求极高的自动驾驶业务,其对计算结果的反馈时延容忍度极低,可能要求在几毫秒内完成数据处理并给出决策指令;而对于一些离线数据分析业务,虽然对时延要求相对较低,但对计算精度和数据处理量有较高要求。参数化结构化业务管理就是要对这些业务需求进行精准描述。通过提取业务的关键参数,如计算量大小、数据传输量、时延要求、可靠性要求等,将业务需求结构化表示。这样可以使算力网络更清晰地理解业务的具体需求,为后续的资源分配和调度提供准确依据。例如,建立业务需求模型,将业务的各项参数作为模型的输入,通过模型的运算和分析,得出该业务在算力网络中的资源需求优先级和资源分配权重等关键信息。
2.2三阶段闭环调度模式
1. 计划阶段:此阶段需要对未来一段时间内的业务需求进行预测,并结合当前算力网络中的资源状态,制定初步的调度计划。利用历史业务数据和趋势分析算法,预测不同类型业务在未来不同时间段的算力需求规模。同时,全面掌握网络中各节点的计算资源、存储资源、网络带宽等资源的可用量和性能参数。根据这些信息,规划出在不同时间段内,哪些业务分配到哪些算力节点,以及资源分配的大致比例。例如,对于已知的大规模数据处理任务,提前规划在特定时间段内,将其分配到具有高计算性能和充足存储资源的大型数据中心节点进行处理。
2. 调度阶段:根据计划阶段制定的初步方案,结合实时的业务需求变化和资源动态情况,对资源进行具体的调配。当出现新的业务请求或者原业务需求发生变化时,实时评估当前网络中的资源状况。如果某个区域的算力需求突然增加,而该区域内部分节点的资源利用率较低,就可以动态地将这些节点的资源调配给需求增加的业务。同时,要考虑到网络带宽的限制,避免因资源调配导致网络拥塞。例如,通过智能算法计算出最优的资源调配路径和分配方案,确保在满足业务需求的同时,最大限度地提高资源利用率。
3. 执行阶段:将调度方案实际执行,并对执行过程进行实时监控和反馈。在资源分配和任务执行过程中,密切关注各个业务任务的执行进度、资源使用情况以及网络状态。一旦发现某个任务执行出现异常,如计算节点故障、网络延迟过高导致数据传输受阻等问题,及时将这些信息反馈给调度阶段,以便进行调整。同时,对执行结果进行记录和分析,为后续的调度优化提供数据支持。例如,通过监控系统实时采集任务执行的各项指标数据,将这些数据与预期目标进行对比,发现偏差及时进行纠正。
2.3多模态资源管理
算力网络中的资源具有多种类型,包括计算资源(如CPU、GPU、FPGA等不同类型的处理器)、存储资源(如内存、硬盘、分布式存储等)、网络资源(如网络带宽、延迟、丢包率等)。多模态资源管理就是要对这些不同类型的资源进行统一管理和协同调配。首先,对各类资源进行抽象建模,将不同规格和性能的资源转化为统一的可度量和可管理的形式。例如,将不同型号CPU的计算能力通过某种标准换算成统一的计算单元,以便在资源分配时进行公平比较和合理调配。然后,根据业务需求的特点,综合考虑各类资源的协同使用。对于一些对图形处理要求高的业务,不仅要分配足够的GPU计算资源,还要确保与之配套的内存资源和网络带宽能够满足数据传输和处理的需求,实现多模态资源的高效协同,提高整个算力网络的资源利用率和业务处理能力。
三、算力网络智慧调度框架3.1形式化分析可行解空间
在算力网络中,由于存在大量不同类型的计算资源、多样的业务需求以及复杂的网络环境约束,可行解空间极其庞大且复杂。为了更好地理解和处理这个空间,需要进行形式化分析。通过数学模型和逻辑推理,对可行解空间进行精确描述。例如,使用图论来表示算力网络,其中节点表示计算资源节点,边表示节点之间的网络连接,边的权重可以表示网络带宽、延迟等参数。业务需求可以转化为对图中节点和边的特定要求,如某个业务需要特定数量的计算资源(对应图中节点的某种属性),并且对数据传输的延迟有上限要求(对应图中边的权重限制)。通过这种形式化的表示,可以清晰地分析出在给定约束条件下,哪些资源分配和任务调度方案是可行的,哪些是不可行的,从而为后续的调度算法设计提供坚实的理论基础。
3.2解析调度策略关键参数
调度策略包含多个关键参数,这些参数直接影响调度的效果。例如,资源分配优先级参数,它决定了在资源有限的情况下,哪些业务需求优先得到满足。对于一些对实时性要求极高的业务,如医疗急救中的远程手术指导,其资源分配优先级应设置得较高,以确保在紧急情况下能够优先获得足够的算力资源,保障手术的顺利进行。另一个关键参数是资源分配比例,不同业务对计算资源、存储资源和网络资源的需求比例各不相同。对于大数据分析业务,可能对计算资源和存储资源的需求比例较高;而对于实时视频传输业务,对网络带宽资源的需求比例更为突出。合理设置这些参数,能够使调度策略更好地适应不同业务的需求,提高整体的调度效率和资源利用率。
3.3定性分析调度算法性能与效率的内在关系
不同的调度算法在性能和效率方面存在差异,且它们之间存在内在联系。以贪心算法为例,贪心算法在选择资源分配方案时,总是选择当前状态下的最优解,这种算法通常具有较高的效率,能够在较短时间内给出一个可行的调度方案。然而,由于它只考虑当前的局部最优,可能会导致最终结果并非全局最优,从而在性能上有所欠缺,例如可能无法实现资源的最优利用或者无法完全满足所有业务的复杂需求。而一些基于全局搜索的算法,如遗传算法,通过模拟生物进化过程中的遗传、变异和选择等操作,在整个可行解空间中进行搜索,虽然能够找到更接近全局最优的解,在性能上表现较好,但由于其搜索过程较为复杂,需要进行大量的计算和迭代,因此效率相对较低。深入理解这些算法性能与效率之间的内在关系,有助于根据具体的应用场景和需求,选择最合适的调度算法,或者对现有算法进行改进和优化。
3.4调度算法类型综述
1. 启发式算法:这类算法根据问题的特点和经验,设计一些启发式规则来指导搜索过程。例如,在任务调度中,可以根据任务的优先级、预计执行时间等因素,制定启发式规则。如优先调度优先级高且预计执行时间短的任务,这样可以在一定程度上提高系统的整体性能。启发式算法计算相对简单,能够在较短时间内得到一个可行解,适用于对时间要求较高、问题规模较大且不太追求最优解的场景。但由于其基于经验规则,可能无法找到全局最优解。
2. 元启发式算法:元启发式算法是一种更高层次的算法框架,它通过模拟自然现象或人类思维等方式,在解空间中进行搜索。常见的元启发式算法有遗传算法、模拟退火算法、粒子群优化算法等。以遗传算法为例,它模拟生物的遗传和进化过程,通过对解的编码、交叉、变异等操作,逐步在解空间中搜索更优的解。元启发式算法具有较强的全局搜索能力,能够在复杂的解空间中找到较优的解,但计算复杂度相对较高,需要较长的运行时间,适用于对解的质量要求较高、问题规模相对较小的场景。
3. 精确算法:精确算法通过数学方法,如线性规划、整数规划等,对问题进行精确求解,能够得到理论上的最优解。在一些对资源分配精度要求极高、问题规模相对较小且约束条件较为明确的场景下,精确算法具有优势。例如,在一个小型数据中心内,资源类型和数量有限,业务需求相对简单且明确,使用精确算法可以精确地计算出最优的资源分配和任务调度方案。但随着问题规模的增大,精确算法的计算复杂度会急剧增加,导致计算时间过长,甚至在实际中无法实现。
4. 分布式算法:在算力网络中,由于资源分布在不同的地理位置和节点上,分布式算法应运而生。分布式算法将任务和计算分布到多个节点上进行处理,通过节点之间的协作和信息交互来完成调度任务。例如,在一个跨区域的算力网络中,各个区域的节点可以根据本地的资源情况和任务需求,自主地进行部分调度决策,同时与其他节点进行信息共享和协调,最终实现整个网络的高效调度。分布式算法能够充分利用分布式资源,提高系统的扩展性和鲁棒性,但也面临着节点间通信开销大、一致性维护困难等问题。
四、算力网络调度研究进展4.1现有研究成果
在算力网络调度领域,已经取得了一些重要成果。在资源感知方面,一些研究提出了基于机器学习的方法来实时监测和预测算力资源的状态。通过收集历史资源使用数据,训练模型来预测未来一段时间内资源的可用性、性能变化等情况,为调度决策提供更准确的依据。在调度算法优化上,有研究将强化学习与传统调度算法相结合。强化学习算法通过与环境进行交互,不断试错并学习最优的调度策略。例如,让智能体在模拟的算力网络环境中进行任务调度操作,根据环境反馈的奖励信号(如资源利用率提高、任务完成时间缩短等)来调整调度策略,从而逐渐找到最优的调度方案。在实际应用中,部分企业已经开始尝试构建算力网络调度平台,并取得了一定成效。例如,某企业通过构建基于云边协同的算力调度平台,实现了对边缘节点和云端资源的统一调度,在处理视频流分析业务时,将部分实时性要求高的任务分配到边缘节点进行快速处理,而将复杂的数据分析任务上传到云端进行深度处理,有效提高了业务处理效率,降低了整体成本。
4.2存在的问题
1. 不确定性处理不足:算力网络中存在诸多不确定性因素,如网络故障、节点故障、业务需求的动态变化等。目前的调度方法在应对这些不确定性时,往往缺乏足够的灵活性和鲁棒性。例如,当某个关键节点突然出现故障时,现有的调度算法可能无法及时有效地调整任务分配,导致业务中断或者性能大幅下降。
2. 多目标优化不够完善:算力网络调度需要同时考虑多个目标,如最小化任务完成时间、最大化资源利用率、降低成本等。然而,现有的研究大多侧重于单个或少数几个目标的优化,在多目标之间的权衡和协同优化方面存在不足。例如,一些算法在追求任务完成时间最短时,可能会导致资源利用率降低,或者在降低成本的同时,牺牲了业务的实时性要求。
3. 跨域协同困难:随着算力网络规模的不断扩大,涉及到不同运营商、不同地区的网络和资源。如何实现跨域的算力资源协同调度,面临着诸多挑战,如不同域之间的接口不统一、数据共享困难、安全和隐私问题等。目前,在跨域协同调度方面的研究还相对较少,缺乏有效的解决方案。
五、发展方向5.1智能化调度技术
随着人工智能技术的不断发展,未来算力网络调度将更加智能化。利用深度学习技术,可以对大规模的历史数据和实时数据进行分析,挖掘数据背后的规律和模式,从而实现更精准的业务需求预测和资源状态预测。例如,通过对海量的业务请求数据和资源使用数据进行深度学习分析,能够提前准确预测不同业务在未来不同时间段的算力需求变化趋势,以及各个计算节点可能出现的性能波动情况。基于这些预测结果,智能调度算法可以提前做出更合理的调度决策,优化资源分配方案,提高整体的调度效率和服务质量。同时,强化学习在动态环境下的决策优化能力也将在算力网络调度中发挥更大作用。智能体可以实时感知网络环境的变化,根据当前状态做出最优的调度决策,并通过不断学习和调整策略,适应网络中的各种动态变化,实现更加智能、高效的调度。
5.2面向异构资源的调度
未来算力网络中的资源异构性将更加突出,不同类型的计算芯片(如CPU、GPU、ASIC、FPGA等)、不同架构的存储设备以及多样化的网络技术将共同存在于网络中。因此,需要研究能够有效管理和调度这些异构资源的技术。一方面,要建立统一的异构资源描述和抽象模型,将不同类型资源的特性和性能进行规范化表示,以便在调度过程中进行统一管理和比较。另一方面,开发针对异构资源的调度算法,充分利用各种资源的优势,根据业务需求的特点,将任务合理分配到最适合的资源上。例如,对于计算密集型且具有规则计算模式的任务,可以分配到GPU或ASIC芯片上进行加速处理;对于需要频繁进行数据存储和读取的任务,分配到具有高速读写性能的存储设备上。通过这种面向异构资源的调度,提高整个算力网络对复杂业务的处理能力和资源利用效率。
5.3安全与隐私保护下的调度
在算力网络中,数据安全和隐私保护至关重要。未来的调度研究需要充分考虑安全和隐私因素。在安全方面,要防止外部恶意攻击对算力网络调度系统的破坏,确保调度信息的完整性和可用性。例如,采用加密技术对调度指令和资源信息进行加密传输,防止数据被窃取或篡改;利用入侵检测系统实时监测网络流量,及时发现并阻止恶意攻击行为。在隐私保护方面,由于不同用户和业务的数据可能在算力网络中进行处理,要确保数据的隐私不被泄露。例如,通过同态加密、差分隐私等技术,在数据处理过程中对敏感信息进行加密或模糊化处理,使得在不泄露原始数据的前提下,仍然能够进行有效的计算和调度。同时,制定严格的隐私保护政策和访问控制机制,限制对敏感数据的访问权限,保障用户和企业的数据隐私安全。
六、结论
本文详细阐述了面向算力网络的智慧调度相关内容。提出了多层次算力网络体系框架,包括参数化结构化业务管理、三阶段闭环调度模式和多模态资源管理,这一框架为算力网络的高效运行提供了结构化的支撑。深入探讨了算力网络智慧调度框架,对可行解空间进行形式化分析,解析调度策略关键参数,定性分析调度算法性能与效率的内在关系,并综述了多种调度算法类型,为实现智慧调度奠定了理论基础。回顾了算力网络调度的研究进展,指出当前在资源感知、调度算法优化等方面已取得成果,但在不确定性处理、多目标优化和跨域协同等方面仍存在问题。展望了未来发展方向,智能化调度技术、面向异构资源的调度以及安全与隐私保护下的调度将成为研究重点。算力网络调度的研究对于推动数字经济发展、实现“东数西算”等国家战略具有重要意义,未来需在理论和技术上不断创新突破,以应对日益复杂的算力需求和网络环境。
在未来的研究中,一方面,需要进一步深入挖掘人工智能技术在算力网络调度中的潜力,探索更高效的机器学习和深度学习算法,以实现更精准的预测和更智能的决策。另一方面,针对异构资源的管理和调度,应加强对新型计算架构和存储技术的研究,开发更适配的调度算法和资源管理策略。同时,安全与隐私保护技术的研究也需持续加强,以保障算力网络的稳定、可靠运行。通过多学科交叉融合,整合计算机科学、网络技术、数学优化等多领域的知识,有望在算力网络调度领域取得更多创新性成果,推动算力网络从理论研究向大规模实际应用的快速转化,为社会的数字化转型提供坚实的技术支撑。
参考文献
[1]于美泽,谢丽娜,江畅。算力调度关键问题和实施路径研究[J].信息通信技术与政策,2023,49(5):9-14.
[2]杨启晨,徐瑨,陶小峰。通算融合网络中传算协作的交互式资源调度[J].北京邮电大学学报,2024.
[3]周吉喆,杨思远,王志勤。面向业务感知的算网融合关键技术研究[J].中兴通讯技术,2022.
[4]姚惠娟,陆璐,段晓东。算力感知网络架构与关键技术[J].中兴通讯技术,2022.
[5]曹畅,唐雄燕。算力网络关键技术及发展挑战分析[J].信息通信技术与政策,2021.
[6]段晓东,姚惠娟,付月霞等。面向算网一体化演进的算力网络技术[J].电信科学,2021.
[7]雷波,马小婷,李聪等。云网融合中的网络基础设施演进探讨[J].信息通信技术与政策,2022.
[8]中国移动。算力网络技术白皮书[R].2022.
[9]雷波。边缘计算中的算网融合趋势及研究进展[J].自动化博览,2021,38(11):40-43.
[10]中国联通研究院。面向“东数西算”的算力网络关键技术白皮书[R].
[11]中国联合网络通信集团有限公司研究院。算力网络架构与技术体系白皮书[R].2020.
转载本文请联系原作者获取授权,同时请注明本文来自陈金友科学网博客。
链接地址:https://wap.sciencenet.cn/blog-3525898-1491336.html?mobile=1
收藏